Тимур здравствуйте. Еще раз от себя и от всех обучающихся хочу Вас поблагодарить за Ваш уникальный канал и Ваши уроки! Прошу Вас рассмотреть возможность дополнить данное видео доп средством, а именно библиотекой dask. Дело в том, что при работе с pdf мы получаем очень "тяжелые" файлы (а папка с pdf-ками может весить и под несколько гигов) бибиотека dask дает автоматизированное распределение по чанкам и тем самым берегёт ресурс компа. Однако моего понимания не хватает для "донастройки" dask и встраивание ее в Ваше решение. Думаю в итоге может получится универсальное решение для решения рабочих задач. Или же прошу Вас предусмотреть в цикле "задержки" которые помогут не загнать компьютер до перезагрузки. На Ваше решение.
Тимур здравствуйте. Почему-то у меня не выводит список файлов pfd., куда их нужно положить? Если я прописываю пусть свой к какой-то папке, то на третьем шаге у меня возникает ошибка, не подскажете что я делаю не так? JVMNotFoundException Traceback (most recent call last) Cell In[11], line 1 ----> 1 pdf_tables = tabula.read_pdf(pdf_files[0], 2 pages = 'all', 3 multiple_tables = True) File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:442, in read_pdf(input_path, output_format, encoding, java_options, pandas_options, multiple_tables, user_agent, use_raw_url, pages, guess, area, relative_area, lattice, stream, password, silent, columns, relative_columns, format, batch, output_path, options) 439 raise ValueError(f"{path} is empty. Check the file, or download it manually.") 441 try: --> 442 output = _run(java_options, tabula_options, path) 443 finally: 444 if temporary: File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:76, in _run(java_options, options, path) 74 global _tabula_vm 75 if not _tabula_vm: ---> 76 _tabula_vm = TabulaVm(java_options, options.silent) 77 elif set(java_options) - IGNORED_JAVA_OPTIONS: 78 logger.warning("java_options is ignored until rebooting the Python process.") File C:\ProgramData\anaconda3\Lib\site-packages\tabula\io.py:99, in TabulaVm.__init__(self, java_options, silent) 90 if silent: 91 java_options.extend( 92 ( 93 "-Dorg.slf4j.simpleLogger.defaultLogLevel=off", (...) 96 ) 97 ) ---> 99 jpype.startJVM(*java_options, convertStrings=False) 101 from java import lang 102 from org.apache.commons import cli File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_core.py:184, in startJVM(*args, **kwargs) 182 jvmpath = kwargs.pop('jvmpath') 183 if not jvmpath: --> 184 jvmpath = getDefaultJVMPath() 186 # Classpath handling 187 if _hasClassPath(args): 188 # Old style, specified in the arguments File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_jvmfinder.py:74, in getDefaultJVMPath() 72 else: 73 finder = LinuxJVMFinder() ---> 74 return finder.get_jvm_path() File C:\ProgramData\anaconda3\Lib\site-packages\jpype\_jvmfinder.py:212, in JVMFinder.get_jvm_path(self) 210 if jvm_notsupport_ext is not None: 211 raise jvm_notsupport_ext --> 212 raise JVMNotFoundException("No JVM shared library file ({0}) " 213 "found. Try setting up the JAVA_HOME " 214 "environment variable properly." 215 .format(self._libfile)) JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.
Жать, что нет универсального метода) В моих рабочих pdf часть столбцов распознается как одна ячейка и из-за этого с 3 строки происходит смещение данных относительно заголовков столбцов влево.