Тёмный

Extraer datos de facturas en pdf con python - Automatizaciones con python #4 

Toni Dev
Подписаться 8 тыс.
Просмотров 51 тыс.
50% 1

En este video te muestro como desarrollar un script de python para extraer la información de facturas en .pdf para posteriormente guardarla en una base de datos.
Accede a mis repositorio de código mensuales desde mi patreon: / toni_dev
💻 Mi curso de aplicaciones web con python:
www.classtoni.com/cursos
👨🏻‍💻 Comunidad de desarrolladores
t.me/devhispanos
📲 Instagram:
/ tonidevpy
✉️ Quieres automatizar alguno de tus procesos ?
automatizatusprocesos@gmail.com
---- Línea de tiempo ----
00:00 Introducción

Наука

Опубликовано:

 

4 май 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 63   
@tonidev_
@tonidev_ Месяц назад
A partir de ahora me podéis apoyar y acceder al código de mis proyectos a través de mi patreon www.patreon.com/toni_dev Gracias por el apoyo 💪
@Kevin_Rios
@Kevin_Rios Месяц назад
Toni, muchas gracias, me ha servido demasiado, ahora sé qué librerías específicas estudiar y conocer bien su funcionamiento.
@erramuspe1
@erramuspe1 Месяц назад
Excelente video toni, tocas las necesidades de la gente, del dia a dia.
@ncpeaksean4278
@ncpeaksean4278 Месяц назад
Messirveee esta data. Gracias maquina, monstruo, genio de la vida!
@JORDAN7514
@JORDAN7514 Месяц назад
Hola Toni, ya extrañaba tus videos. Saludos :D
@deeper_soundfy5528
@deeper_soundfy5528 Месяц назад
Aún no vi el video. Lo encontré de casualidad. Es curioso, ya que en los próximos días tengo pensado hacer un proyecto, a fin de optimizar unos procesos en los que trabajaré , y poder extraer ciertas características de un PDF y demás. Similar a lo que dice el título. Gracias por compartir tu conocimiento.
@cartulinito
@cartulinito Месяц назад
Justo tengo un proyecto de esto, veremos el video :D
@shinewaine2344
@shinewaine2344 Месяц назад
Gracias por la implementación, me ha gustado ver como adquieres los datos y los procesas, sin embargo este tipo de scripts tienen el problema de que no todas las facturas tienen un mismo formato, por lo que para procesarlo todo, debería de hacerse una personalización de extracción para cada proveedor, ya que la mayoría no comparten la misma estructura en sus facturas, no obstante, tienes un nuevo suscriptor, felicidades por tus aportes.
@tonidev_
@tonidev_ Месяц назад
Así es. Habría que desarrollar una función de extracción de datos para cada proveedor. Además habría que añadir una buena gestión de errores por si en el futuro cambia algo en el formato de la factura.
@emerssonvil
@emerssonvil Месяц назад
Y si adicionamos una IA que pueda leer la imagen y buscar los caracteres básicos como $, fecha, nombre de remitente factura y aficionaría una segmentación por servicios y productos (generales)
Месяц назад
Hay un proyecto en GitHub que está un poco parado pero funciona perfectamente a base de plantillas. Invoice2data, a mi me funciona bien y tiene utilidad con otro tipo de documentos a demás de con facturas. Creo que proyecto hace exactamente lo que comentas 👌
@shinewaine2344
@shinewaine2344 Месяц назад
@@emerssonvil Supongo que si quieres capturar una serie de campos comunes a todas las facturas como una fecha, numero de factura, nombres a cargo y al cargo y un total quizá hasta sin IA se podría, pero si lo que necesitas es un detalle, la cosa se complica... creo.
@KevinAQM
@KevinAQM Месяц назад
Exacto. La idea es esa. Cada factura es diferente, pero la idea es la misma. Gracias, bro.
@pabloblogna4453
@pabloblogna4453 Месяц назад
Excelente...Felicitaciones
@christiangonzalez6493
@christiangonzalez6493 28 дней назад
En México, las empresas o personas al emitir una factura tienen que generar dos archivos el pdf y el XML el cual ya contiene la información necesaria y de ahí se puede extraer la información. Por que no todos los pdf son iguales y considero que puede ser engorroso. Felicidades por el video aporta algo útil en la comunidad de desarrolladores.
@miguelrodriguez3441
@miguelrodriguez3441 20 дней назад
Y como que información seria buena almacenar en un excel?
@pabloblogna4453
@pabloblogna4453 Месяц назад
Sumaria mucho que compartas los repositorios de tus clases. Saludos y gracias.
@Henry_Nunez
@Henry_Nunez Месяц назад
El proyecto es interesante y me gusta por eso me suscribí a tu canal. Solo te pido que aumentes el zoom porque de lo contrario voy a quedar ciego.
@Fedoteh1991
@Fedoteh1991 Месяц назад
¿? No lo veas en celular y listo hombre... se ve perfecto!
@NIKZERO23
@NIKZERO23 Месяц назад
Esto tipo de cosas me gusta
@CristianAguilarnavarro
@CristianAguilarnavarro Месяц назад
Gracias
@edyred
@edyred Месяц назад
Hola podrias colocar un link con los archivos usados en este video como la factura y el codigo para poder practicar mejor, gracias, esta muy bueno estos tipos de videos
@TecnoMenteIA
@TecnoMenteIA Месяц назад
Enhorabuena por este script practico en el día a día para nuestro trabajo. Creo que citas que el código está en Github. No tenemos el link. Gracias.
@douglasdavidmisascamacho3431
@douglasdavidmisascamacho3431 Месяц назад
Saludos Tony excelente contenido gracias. Pregunta para todos por acá puedo ¿ aplicar a un trabajo de data entry remoto con este tipo de proyectos o similares me interesa aprender lo necesario para ello ? Gracias de antemano Tony .
@Conta-Data
@Conta-Data Месяц назад
Que buen video toni, no tenes un curso especialmente para extraccion de datos, en el trabajo del dia a dia siempe estoy combatiendo con archivos pdf, que son los mas compliacado extraer, por el momento utilizo lenguaje M de power query, es mas didactico ya que puedo ver como la info se va extrayendo, sin perdidas de algunos datos. Pero no es escalable cuando son muchos pdfs.
@maximilianocaro2113
@maximilianocaro2113 Месяц назад
Hola buenas muy buen contenido, te hago una consulta? Esté rol lo cumple un analista de datos, un data science, o un data engineer?
@bobbyaxelrod7983
@bobbyaxelrod7983 Месяц назад
¿Podrías reducir el tamaño de la fuente? Pienso que con arial 0.1 estaría genial.
@Erosgenuino
@Erosgenuino Месяц назад
Hola Toni, ¿como harias en Python un escaner de codigos de barras/qr para extraer info de articulos con una webcam?,
@juanjoseaguilarteviegas
@juanjoseaguilarteviegas Месяц назад
Como guardarías cada item?
@juliannevardomarinmarin8561
@juliannevardomarinmarin8561 Месяц назад
pero tienen que ser PDF iguales ? ya que el código revisa los mismos campos siempre ?
@ProgramandoSoftware
@ProgramandoSoftware 24 дня назад
Para pdfs distintos creo que habrá que tocar de nuevo el codigo, y bueno pensandolo mejor tiene sentido buscar las coincidencias de lo que queremos. Imagino que las limitantes de esta automatización sería la forma en la que está estructura los datos.
@emerssonvil
@emerssonvil Месяц назад
Y si adicionamos una IA que pueda leer la imagen y buscar los caracteres básicos como $, fecha, nombre de remitente factura y aficionaría una segmentación por servicios y productos (generales)
@JesusGutierrezGuerra
@JesusGutierrezGuerra Месяц назад
caso hipotetico: hay varias facturas de venta de diferentes clientes en el mismo pdf, como se podria generar una solo factura por cliente que contega todos los item de las facturar individuales.
@luisgonzalez8877
@luisgonzalez8877 Месяц назад
Ese script debe ser ejecutado manualmente, que alternativa hay para que se ejecute cierta hora del día o ciertos días de la semana? Sirve el programador de tareas de windows?
@tonidev_
@tonidev_ Месяц назад
Correcto !!
@tomasvelilladelsol4018
@tomasvelilladelsol4018 Месяц назад
@@tonidev_ y como puede ponerse en produccion el script?
@federicodesia_7289
@federicodesia_7289 Месяц назад
@@tomasvelilladelsol4018 podes usar PythonAnywhere
@miguelmaldonado3926
@miguelmaldonado3926 17 дней назад
si tenes 8 mil facturas y tenes q procesarlas a todas. 1. Como resolves el problema cuando el tiempo de procesamiento es de mas de 10 min? 2. Cuantas y cuales estrategias podes usar para resolver tiempo de procesamento mayor a 10 min?
@tonidev_
@tonidev_ 17 дней назад
que problema hay con que tarde 10 min ?
@muremure
@muremure Месяц назад
Este video esta copiado de algun lugar no recuerdo donde pero videos de hace años, español e ingles. El pdf muy basico, ya que existen infinidad de tipos de formatos de facturas; incluso la mayoria de pdf no son editados desde un software si no que son imagenes, lo cual si no mal recuerdo aun asi funciona o minimo tiene sus limitaciones. Y ojo no hay necesidad de IA que por aquí ya he leído a algunos genios, que lo quieren solucionar asi. Ya comentaron tambien que EXCEL no es una BD. Mucho que mejorar en el tema de querer compartir conocimiento. Video cortito introductorio pero que a mas de uno ha de servir. Sigue así. Saludos.
@xmagcx1
@xmagcx1 Месяц назад
las hojas de cálculo no entran en la categoría de bases de datos pequeña acotación. Excelente el video
@marcelodf12
@marcelodf12 Месяц назад
Pequeña acotación: Un excel si que puede considerarse una base de datos. Quizás estas confundiendo una "base de datos' con "base de datos relacional". Pero existen varios tipos de BBDD por ejemplo relacional, key-value, en memoria, de grafos, etc. Hasta un archivo plano podrías usar como base de datos, solo que cada uno te da prestaciones diferentes 😉
@j7D4h
@j7D4h Месяц назад
Cuando te las das de sabiando sin saber:
@wertyxq3468
@wertyxq3468 Месяц назад
Si pues, que bobo. Cuando te enseñan bases de datos es literal el primer ejemplo que te enseñan
@akasha6287
@akasha6287 Месяц назад
Estás loco claro que son un base de datos
@MenteAvizpada
@MenteAvizpada Месяц назад
Se puede construir una app usando como base de datos google sheets
@srminnagui
@srminnagui 6 дней назад
Se agradeceria por mi parte que el codigo sea mas grande, la verdad es que no veo un mojon
@ggmtddbo
@ggmtddbo 12 дней назад
Este video esta copiado y encima cobra! estos españolitos,.....
@unobuscando
@unobuscando Месяц назад
Hijito, cuando te oigo decir "lopear" siendo deseos de soltarte algún improperio, cosa que no voy a hacer porque no es elegante, pero sí te digo que ya podías aprender a hablar correctamente el castellano antes de querer convertirte en profesor de lo que sea.
@shinewaine2344
@shinewaine2344 Месяц назад
jejeje, entiendo lo que dices, no obstante, el término correcto no es "lopear" es "loopear", es decir, hacer "loops", "ciclos", "iteraciones", etc... La verdad es que quizá no te guste, pero es un "término" usado y para tu sorpresa... por más de un profesional. Igualmente... ¡SI!, coincido contigo en que queda mucho mejor un concepto acorde a la lengua en la que se habla en el vídeo que un "anglicanismoespañolizado". Un saludo.
@muremure
@muremure Месяц назад
​@@shinewaine2344Loopear, que clase de casteingles es eso😅. Loop = bucle, ciclo. Entonces ciclar o ciclo es el término correcto. Saludos.
@Negrisho
@Negrisho Месяц назад
Gracias
Далее
СЫВОРОТКА С ВБ
00:39
Просмотров 672 тыс.
Extraer texto de PDF usando python PyPDF2 (Múy Fácil)
14:22
#miniphone
0:16
Просмотров 3,1 млн
keren sih #iphone #apple
0:16
Просмотров 1,7 млн
Эпоха Intel и AMD заканчивается?!
0:46
ВЫ ЧЕ СДЕЛАЛИ С iOS 18?
22:40
Просмотров 120 тыс.
AI от Apple - ОБЪЯСНЯЕМ
24:19
Просмотров 119 тыс.