Тёмный

Python Импорт данных №5. Импорт таблиц из PDF (расширенная версия) 

Товарищ Excel - Power Query, Power Pivot, Python
Просмотров 3,4 тыс.
50% 1

Опубликовано:

 

22 окт 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 14   
@comrade_excel
@comrade_excel 2 года назад
Файлы для спонсоров Boosty: boosty.to/comrade-xl/posts/0031291f-9b4a-4b34-9d8f-b8c9a1fb8289?share=post_link Файлы для спонсоров ВК: vk.com/comrade.excel?w=wall-185123800_471 Файлы для спонсоров RU-vid: ru-vid.comUgzyAW2wyN1_wOHruit4AaABCQ Индивидуальное обучение: comrade-xl.ru/pq-training/ Страница: comrade-xl.ru/2021/03/04/py-import-pdf/
@nbuhblhfrjy
@nbuhblhfrjy 3 года назад
Спасибо! 👍
@nice-b2i
@nice-b2i 3 года назад
Спасибо огромное!
@ГерманРыков-ъ6в
@ГерманРыков-ъ6в 2 года назад
Тимур здравствуйте. Еще раз от себя и от всех обучающихся хочу Вас поблагодарить за Ваш уникальный канал и Ваши уроки! Прошу Вас рассмотреть возможность дополнить данное видео доп средством, а именно библиотекой dask. Дело в том, что при работе с pdf мы получаем очень "тяжелые" файлы (а папка с pdf-ками может весить и под несколько гигов) бибиотека dask дает автоматизированное распределение по чанкам и тем самым берегёт ресурс компа. Однако моего понимания не хватает для "донастройки" dask и встраивание ее в Ваше решение. Думаю в итоге может получится универсальное решение для решения рабочих задач. Или же прошу Вас предусмотреть в цикле "задержки" которые помогут не загнать компьютер до перезагрузки. На Ваше решение.
@artemovtsyn8540
@artemovtsyn8540 Год назад
Тимур здравствуйте. Почему-то у меня не выводит список файлов pfd., куда их нужно положить? Если я прописываю пусть свой к какой-то папке, то на третьем шаге у меня возникает ошибка, не подскажете что я делаю не так? JVMNotFoundException Traceback (most recent call last) Cell In[11], line 1 ----> 1 pdf_tables = tabula.read_pdf(pdf_files[0], 2 pages = 'all', 3 multiple_tables = True) File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:442, in read_pdf(input_path, output_format, encoding, java_options, pandas_options, multiple_tables, user_agent, use_raw_url, pages, guess, area, relative_area, lattice, stream, password, silent, columns, relative_columns, format, batch, output_path, options) 439 raise ValueError(f"{path} is empty. Check the file, or download it manually.") 441 try: --> 442 output = _run(java_options, tabula_options, path) 443 finally: 444 if temporary: File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:76, in _run(java_options, options, path) 74 global _tabula_vm 75 if not _tabula_vm: ---> 76 _tabula_vm = TabulaVm(java_options, options.silent) 77 elif set(java_options) - IGNORED_JAVA_OPTIONS: 78 logger.warning("java_options is ignored until rebooting the Python process.") File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:99, in TabulaVm.__init__(self, java_options, silent) 90 if silent: 91 java_options.extend( 92 ( 93 "-Dorg.slf4j.simpleLogger.defaultLogLevel=off", (...) 96 ) 97 ) ---> 99 jpype.startJVM(*java_options, convertStrings=False) 101 from java import lang 102 from org.apache.commons import cli File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_core.py:184, in startJVM(*args, **kwargs) 182 jvmpath = kwargs.pop('jvmpath') 183 if not jvmpath: --> 184 jvmpath = getDefaultJVMPath() 186 # Classpath handling 187 if _hasClassPath(args): 188 # Old style, specified in the arguments File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_jvmfinder.py:74, in getDefaultJVMPath() 72 else: 73 finder = LinuxJVMFinder() ---> 74 return finder.get_jvm_path() File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_jvmfinder.py:212, in JVMFinder.get_jvm_path(self) 210 if jvm_notsupport_ext is not None: 211 raise jvm_notsupport_ext --> 212 raise JVMNotFoundException("No JVM shared library file ({0}) " 213 "found. Try setting up the JAVA_HOME " 214 "environment variable properly." 215 .format(self._libfile)) JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.
@ДмитрийТруфанов-м2с
Добрый день. А можно ли ссылку на архив с файлами прикреплять к посту?
@comrade_excel
@comrade_excel 3 года назад
ОК. Со следующего раза так и сделаю.
@ДмитрийТруфанов-м2с
Жать, что нет универсального метода) В моих рабочих pdf часть столбцов распознается как одна ячейка и из-за этого с 3 строки происходит смещение данных относительно заголовков столбцов влево.
@Velant1
@Velant1 3 года назад
Добрый день. А где файлы можно скачать?
@comrade_excel
@comrade_excel 3 года назад
ru-vid.comUgyBLhUzjCE54oAkfNJ4AaABCQ
@excel-vba-learn
@excel-vba-learn 3 года назад
Здравствуйте, где взять ссыль на файлы, везде все просмотрел, нет нигде(((
@comrade_excel
@comrade_excel 3 года назад
Здравствуйте! На влкадке Сообщества ru-vid.comUgyZV8als_n--njgV8J4AaABCQ
@El_Mysterio
@El_Mysterio 3 года назад
Я же вроде спонсор - почему не вижу файлы к уроку?
@comrade_excel
@comrade_excel 3 года назад
Вам теперь видны скрытые посты на вкладке сообщества ru-vid.com/show-UCwAru3vDmH-IdYtwK7JWN4wcommunity
Далее
HTTP в 1С за 3 часа
3:23:54
Просмотров 464 тыс.
Кольцо Всевластия от Samsung
01:00
Просмотров 639 тыс.
Power Query. Обработка PDF выписки
23:01
How to Extract Tables from PDF using Python
14:07
Просмотров 67 тыс.
Extract PDF Content with Python
13:15
Просмотров 221 тыс.