Увезете податоци од PDF во Excel преку Power Query

Задачата за пренос на податоци од табела во PDF-датотека во лист на Microsoft Excel е секогаш „забавна“. Особено ако немате скап софтвер за препознавање како FineReader или нешто слично. Директното копирање обично не води до ништо добро, бидејќи. откако ќе ги залепат копираните податоци на листот, тие најверојатно ќе се „залепат“ во една колона. Така, тие потоа ќе треба макотрпно да се одвојат со помош на алатка Текст по колони од јазичето податоци (Податоци - Текст во колони).

И се разбира, копирањето е можно само за оние PDF-датотеки каде што има текстуален слој, односно со документ што штотуку е скениран од хартија во PDF, ова во принцип нема да работи.

Но, не е толку тажно, навистина 🙂

Ако имате Office 2013 или 2016 година, тогаш за неколку минути, без дополнителни програми, сосема е можно да се префрлат податоци од PDF во Microsoft Excel. А Word и Power Query ќе ни помогнат во ова.

На пример, да го земеме овој PDF извештај со еден куп текст, формули и табели од веб-страницата на Економската комисија за Европа:

Увезете податоци од PDF во Excel преку Power Query

… и обидете се да го извадите во Excel, кажете ја првата табела:

Увезете податоци од PDF во Excel преку Power Query

Да одиме!

Чекор 1. Отворете PDF во Word

Поради некоја причина, малку луѓе знаат, но од 2013 година Microsoft Word научи да отвора и препознава PDF-датотеки (дури и скенирани, односно без текстуален слој!). Ова е направено на сосема стандарден начин: отворете Word, кликнете Датотека - Отвори (Датотека - Отворено) и наведете го форматот PDF во паѓачката листа во долниот десен агол на прозорецот.

Потоа изберете ја датотеката PDF што ни треба и кликнете Отворено (Отворено). Word ни кажува дека ќе изврши OCR на овој документ во текст:

Увезете податоци од PDF во Excel преку Power Query

Се согласуваме и за неколку секунди ќе го видиме нашиот PDF отворен за уредување веќе во Word:

Увезете податоци од PDF во Excel преку Power Query

Се разбира, дизајнот, стиловите, фонтовите, заглавието и подножјето итн. делумно ќе летаат од документот, но тоа не е важно за нас – ни требаат само податоци од табелите. Во принцип, во оваа фаза, веќе е примамливо едноставно да ја копирате табелата од препознаениот документ во Word и едноставно да ја залепите во Excel. Понекогаш функционира, но почесто доведува до секакви нарушувања на податоците – на пример, броевите може да се претворат во датуми или да останат текст, како во нашиот случај, затоа што. PDF користи несепаратори:

Увезете податоци од PDF во Excel преку Power Query

Затоа, да не сечеме, туку да направиме сè малку покомплицирано, но правилно.

Чекор 2: Зачувајте го документот како веб-страница

За потоа да се вчитаат примените податоци во Excel (преку Power Query), нашиот документ во Word треба да се зачува во формат на веб-страница - овој формат е, во овој случај, еден вид заеднички именител помеѓу Word и Excel.

За да го направите ова, одете во менито Датотека - Зачувај како (Датотека - Зачувај како) или притиснете го копчето F12 на тастатурата и во прозорецот што се отвора, изберете го типот на датотеката Веб-страница во една датотека (Веб-страница - една датотека):

Увезете податоци од PDF во Excel преку Power Query

По зачувувањето, треба да добиете датотека со наставката mhtml (ако гледате екстензии на датотеки во Explorer).

Фаза 3. Поставување на датотеката во Excel преку Power Query

Можете директно да ја отворите креираната MHTML-датотека во Excel, но потоа ќе ја добиеме, прво, целата содржина на PDF-то одеднаш, заедно со текст и еден куп непотребни табели и, второ, повторно ќе изгубиме податоци поради неточни сепаратори. Затоа, ќе го извршиме увозот во Excel преку додатокот Power Query. Ова е потполно бесплатен додаток со кој можете да прикачувате податоци во Excel од речиси секој извор (датотеки, папки, бази на податоци, ERP системи) и потоа да ги трансформирате примените податоци на секој можен начин, давајќи им ја посакуваната форма.

Ако имате Excel 2010-2013, тогаш можете да преземете Power Query од официјалната веб-страница на Microsoft - по инсталацијата ќе видите таб Барање за напојување. Ако имате Excel 2016 или понов, тогаш не треба да преземате ништо - целата функционалност е веќе вградена во Excel стандардно и се наоѓа на картичката податоци (Датум) во група Преземете и претворете (Земи и трансформирај).

Значи, одиме или на јазичето податоци, или на јазичето Барање за напојување и изберете тим За да добиете податоци or Креирајте барање – од датотека – од XML. За да ги направите видливи не само XML-датотеките, променете ги филтрите во паѓачката листа во долниот десен агол на прозорецот во Сите датотеки (Сите датотеки) и наведете ја нашата MHTML датотека:

Увезете податоци од PDF во Excel преку Power Query

Имајте предвид дека увозот нема да заврши успешно, бидејќи. Power Query очекува XML од нас, но ние всушност имаме HTML формат. Затоа, во следниот прозорец што се појавува, ќе треба да кликнете со десното копче на датотеката неразбирлива за Power Query и да го наведете неговиот формат:

Увезете податоци од PDF во Excel преку Power Query

После тоа, датотеката ќе биде правилно препознаена и ќе видиме список со сите табели што ги содржи:

Увезете податоци од PDF во Excel преку Power Query

Можете да ја видите содржината на табелите со кликнување на левото копче на глувчето во белата позадина (не во зборот Табела!) на ќелиите во колоната Податоци.

Кога ќе се дефинира саканата табела, кликнете на зелениот збор Табела – и вие „пропаѓате“ во неговата содржина:

Увезете податоци од PDF во Excel преку Power Query

Останува да се направат неколку едноставни чекори за да се „чешла“ неговата содржина, имено:

  1. избришете ги непотребните колони (десен клик на заглавието на колоната - Отстрани)
  2. заменете ги точките со запирки (изберете колони, кликнете со десното копче - Замена на вредности)
  3. отстранете ги знаците за еднаквост во заглавието (изберете колони, кликнете со десното копче - Замена на вредности)
  4. отстранете ја горната линија (Почетна – Бришење линии – Избришете ги горните линии)
  5. отстранете ги празните линии (Дома – Избриши линии – Избриши празни линии)
  6. подигнете го првиот ред до заглавието на табелата (Дома – Користете ја првата линија како наслови)
  7. филтрирајте ги непотребните податоци користејќи филтер

Кога табелата ќе се доведе во нормална форма, може да се растовари на листот со командата затворете и преземете (Затвори и вчитај) on Главните таб. И ќе добиеме таква убавина со која веќе можеме да работиме:

Увезете податоци од PDF во Excel преку Power Query

  • Трансформирање на колона во табела со Power Query
  • Разделување на леплив текст во колони

Оставете Одговор