Cómo utilizar tus propios documentos con LLMs - Conceptos fundamentales de sistemas RAG

Подписаться 16 тыс.

Просмотров 7 тыс.

50% 1

En este episodio vamos a describir cuales son los elementos clave de uno de los patrones más empleados para acceder a tus propios documentos: RAG o (Retrieval-Augment Generation). Esto nos permitirá consultar aquellos fragmentos relevantes de los documentos que queramos utilizar para mejorar el rendimiento de nuestros LLM, evitando las alucinaciones y consiguiendo resultados más certeros. Hablaremos también de algunos conceptos claves dentro del mundo de las IAs como son los tokens y los embeddings.
En los comentarios del video, alguien ha reportado que se escucha un pitido molesto de fondo a lo largo del video. Si escuchas este pitido, he preparado dos versiones alternativas, tratando de mitigar estas frecuencias con dos técnicas diferentes. En el primero utilizo un ecualizador para reducir las frecuencias espíficas, en el segundo utilizo un reductor de ruido. ¿Notas alguna mejora en cualquiera de los videos?
- Ecualización: • Cómo utilizar tus prop...
- Reducción de ruido: • Cómo utilizar tus prop...
Si los ves, ¡te agradezco si comentas indicando en cuál de los dos videos aprecias una mejora!
En un próximo episodio vamos a ponernos manos a la obra para poder experimentar con nuestros propios documentos de una forma rápida y sencilla.

Наука

Опубликовано:

29 авг 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 64

@LaHoraMaker 8 месяцев назад

Al revisar el video publicado, según los dispositivos, se puede escuchar un pitido molesto de fondo. He creado dos videos tratando de resolver el problema utilizando diferentes técnicas. Si te molesta el pitido puedes probar con cualquiera de estas dos alternativas. ¿Notas alguna mejora en cualquiera de los videos? - Ecualización: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-77cXBc4TqOM.html - Reducción de ruido: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-fsOHlOJNt5s.html Gracias a vuestros comentarios, ¡vamos mejorando cada video!

@alyerart 8 месяцев назад

El pitido alto y claro ;) en Firefox 115.5.0esr (64-bit) Debian 12 Kernel Linux 6.1.0-13-amd64 en todas las versiones que has puesto. ¿Tú crees que se debe a la plataforma de escucha? 🤔

@alyerart 8 месяцев назад

De hecho solamente suena el pitido en este vídeo en el que tienes esos auriculares blancos tan horteras puestos ... ahí lo dejo 🤪(por cierto, buen trabajo en esta serie de vídeos, si señor) 🤗

@LaHoraMaker 8 месяцев назад

@@alyerartgracias por el feedback! El ruido en cuestión lo está haciendo un monitor auxiliar conectado a una fuente de alimentación múltiple. Cuando decía lo de los dispositivos, me refiero a que en mis auriculares horteras, se aprecia, pero en los altavoces del monitor, no tanto. Ahora que lo estoy oyendo en el móvil suena también bastante estridente! Toca seguir probando soluciones!

@carlosbedoya8793 2 месяца назад

Hola Cesar. He aplicado todo esto que usted explica, pero me encuentro con lo siguiente: Al diviir los pdfs en chunks los parrafos quedan divididos y por ende las ideas separadas. Cuando se hace una consulta por similaridad el resultado es un segmento y se pierde el complemento de la idea, ya sea porque esté en el segmento anterior o en el segmento posterior y si el párrafo es muy largo podría perderse más información. Algunos casos pueden ser: una lista de autores, de ingredientes o de componentes. Al devolver los embeddings el generador contará con información incompleta la cual utilizará para estructurar información. Algunas de las preguntas que se hacen al modelo incluyen en muchas ocasiones presentar un resumen del documento, pero eso no se podría realzzar con este esquema. Qué mecanismos se tienen para optimizar el proceso de generación de embeddigs o de recuperación de los mismos, de manera que se pueda recuperar la idea completa? Gracias por el video.

@marcobravov Месяц назад

Este video tiene una gran calidad , se agradece un montón los contenidos. ¿Has notado que hay una frecuencia muy molesta en gran parte del video? sobre todo al final.....me tenía desesperado. Saludos,

@rubensdirac9736 10 дней назад

MUY MOLESTO EL SONIDO DE FONDO. NO PUDE VER COMPLETO EL VIDEO. MAL, MAL, MAL.

@cerrodelsol2668 3 месяца назад

Muy bien la explicación de todos los conceptos. Lo malo es el pitido de fondo.

@LaHoraMaker 3 месяца назад

Gracias por tu comentario. Afortunadamente en el resto de videos posteriores ya no se escucha el pitido que mencionas.

@carlosrav1979 Месяц назад

excelente explicación!

@AdolfoSanzDeDiego 8 месяцев назад

Enhorabuena César. Muy bien explicado. Bravo.

@LaHoraMaker 8 месяцев назад

Hola Adolfo! Gracias por comentar. Me alegro que te haya gustado!

@AdolfoSanzDeDiego 8 месяцев назад

Ahora que estoy poniéndome con esto. ¿Sabes la diferencia entre RAG y un fine-tune? Si tengo por ejemplo un conjunto de leyes (de educación) y quiero "chatear" con ellas, lo que cuentas en el vídeo me vale... ¿Pero no sería mejor fine-tunear el modelo con las leyes? (Pregunta de inexperto)

@LaHoraMaker 8 месяцев назад

¿Cuál es la diferencia entre RAG y fine-tune para añadir información a nuestro #LLM?

@claudioguendelman 19 дней назад

Excelente y ahora en lo real como lo podríamos hacer con PHP el uplload es facil , el pasarlo a texto igual el tema es como hacemos para interinar con ollama para que tome el texto , analice y responda esperando el proximo video ojala sea con php

@TheBeachLab 8 месяцев назад

Crystal clear! Muchas gracias!

@JuanPabloMoya 8 месяцев назад

Buenísimo Cesar. Gracias. Esto es muy emocionante.

@LaHoraMaker 8 месяцев назад

Gracias a ti por comentar!!

@DValdes.P 8 месяцев назад

Excelente explicaciones. Estaré esperando el siguiente vídeo para las pruebas!

@LaHoraMaker 8 месяцев назад

En breve tendremos el video listo!

@ttinerfeno 8 месяцев назад

Hola Cesar! Que bueno ver que te has metido a fondo con GenAI con un espiritu "maker". Me estan encantando los videos de la Hora Maker, como siempre! Estoy aprendiendo un montón! Una sugerencia, por mi experiencia en estos temas tambien es muy importante como se cortan los chunks. Quizas seria bueno tambien explicar como se podrían cortar los textos para generar chunks con lógica y mejorar la calidad del resultado. Abrazo fuerte! Daniel

@jribesc 8 месяцев назад

Muchísimas gracias, no entiendo como no tienes miles de visualizaciones... esperando al próximo vídeo ;-)

@cacerhola 7 месяцев назад

Muy bueno Cesar. Enhorabuena!!!!

@ernestogaleano01 4 месяца назад

Excelente video, lo que andaba buscando.

@CarlosCebrianS 6 месяцев назад

Muy interesante. ¡Muchísimas gracias!

@LaHoraMaker 6 месяцев назад

Gracias por comentar

@leonardodavidcba 5 месяцев назад

Excelente contenido hno. muy bueno

@LaHoraMaker 5 месяцев назад

Me alegro que te gustara Leonardo!

@sysjju4924 7 месяцев назад

Es algo molesto ese pitido en el fondo pero se entiende el video a la perfeccion. Es interesante como se podria crear un LLM empleando estas tecnicas pero lo que me llama la atencion es la creacion de embedins la cual tiene coste, me pregunto se se pueden crear estos en local.

@LaHoraMaker 7 месяцев назад

Los embeddings se pueden crear localmente usando distintos modelos. Para ello hay que usar modelos específicos como, por ejemplo, la serie BGE: huggingface.co/BAAI/bge-base-en Como hay un coste computacional asociado, lo normal es guardar la info de los embeddings en una base de datos vectorial y luego llamar a la base de datos vectorial para recuperar la similaridad. Lo vamos a ir explorando en próximos videos!

@cascossi809 8 месяцев назад

qué bien explicado. gracias!!

@LaHoraMaker 8 месяцев назад

Me alegro que te haya gustado!

@JorgeLamaVarela 9 месяцев назад

Muy interesante

@LaHoraMaker 8 месяцев назад

Gracias! 😊

@javaboy6581 8 месяцев назад

Saludos de nuevo, impresionante la calidad de tus vídeos, luego viene peladonerd y saca un truño de vídeo sobre ollama y ya lo ponen por las nubes, y tú fuiste pionero y con grandes explicaciones, aunque sin desmerecer a pelado que siempre ha tenido buenos vídeos. Además escuchas a tus suscriptores, ojalá seas un canal grande y tengas la popularidad que mereces. Lo que te han dicho del pitido, una pena, pero para personas sensibles a los sonidos es muy molesto, aunque veo que lo vas a arreglar. Ollama me decepcionó, no tienen ni por asomo la calidad que gpt3.5 aunque mola que no tenga censura y puedas hablar con él de cualquier cosa. Ojalá mejorase lo suficiente para usarlo a diario. Sigue así campeón eres muy grande

@LaHoraMaker 8 месяцев назад

Gracias por el comentario! No había visto el video de @peladonerd sobre Ollama y veo que trata algunas areas interesantes, como la personalización de modelos con Ollama. No me acaba de convencer la interfaz web que eligió, porque creo que hay algunas alternativas más amigables pero... ¡probar todas requiere mucho tiempo! En cuanto al pitido, publiqué dos videos alternativos en oculto respondiendo al comentario, en los que empleaba distintas técnicas para mitigar ese ruido. Lamentablemente RU-vid no me deja reemplazar el video una vez publicado, así que pondré los enlaces en la descripción por si alguien más se encuentra el problema. ¡Espero que los próximos vídeos te resulten también muy interesantes!

@LaHoraMaker 8 месяцев назад

Se me olvidaba una cosa más! Ollama es sólo un contenedor que permite ejecutar distintos modelos de lenguaje con licencias abiertas. La calidad de las respuestas vendrá dada fundamentalmente por el modelo que corras. Los modelos más pequeños con 7 billones de parámetros no dan una calidad super excepcional (por norma general). Según aumentamos el número de parámetros, nos encontramos con una mejoría en los resultados, pero también tenemos más requerimientos en cuanto al hardware. Para hacernos una idea, ChatGPT 3.5 tiene 175 billones de parámetros. Ahora bien, los nuevos modelos que van apareciendo están consiguiendo cada vez mejor rendimiento. ¡Seguiremos buscando las mejores alternativas locales!

@javaboy6581 8 месяцев назад

Interesante el dato, no sabía la cantidad de parametros de gpt3.5 y he probado casi todos los modelos gratis que hay y son bastante regularcillos, se nota mucho la diferencia frente a chatgpt.Y chatgpt es un poco castaña a nada que le pides algo un poco que se salga de lo normal(siempre hablando de programacion), pero es una ayuda increible. Me encanta tu canal y como eres, siempre ayudando.@@LaHoraMaker

@walterrodriguez2696 8 месяцев назад

Genial! muchas gracias !

@LaHoraMaker 8 месяцев назад

Gracias por comentar

@agraciag 9 месяцев назад

Crees que windows 12 va a acercarse a un esquema multimodal, que permita a microsoft entender el contenido de nuestro disco duro y ofrecer una experiencia personalizada del SO? Gracias por el video, mucha matemática en la trastienda!

@LaHoraMaker 8 месяцев назад

Gracias por la pregunta, definitivamente creo que en los próximos años vamos a encontrar muchas capacidades integradas en el propio sistema operativo. Hay dos cuestiones importantes desde mi punto de vista. La primera es qué pasa con la privacidad. Microsoft tiene una serie de pautas de IA responsable que chocan con algunas de sus prácticas respecto a la recopilación de datos en sus sistemas operativos (conocidos también como telemetría). ¿Qué medidas se tomarán para salvaguardar la privacidad de los usuarios finales y para que esta información recopilada no acabe siendo empleada para mostrar anuncios o publicidad contextual o cualquier otro efecto colateral no deseado? La segunda tiene que ver con el escalado. Para que estos modelos se puedan desplegar de forma integral en el sistema operativo será necesario que se apoyen en modelos locales, que ahora mismo ofrecen un rendimiento sutilmente inferior al de los LLM más punteros. Según se avance en estas tecnologías se podrán integrar de forma más sencilla y generando un menor gasto energético. Por último comentar, que las últimas versiones de iOS permiten hacer muchas de estas cosas localmente, como el etiquetado de imagenes, detección de textos, eliminación de fondos, etc. Para ello emplean los chips NPU disponibles en los móviles. Espero que se empiece a sacar mucho más partido a estos chips más allá de los móviles, con modelos optimizados, al tiempo que aparecen nuevos SoC optimizados para estos usos.

@agraciag 8 месяцев назад

Gracias@@LaHoraMaker, Privacidad, supongo que nos permitirán elegir niveles de intervención/cesión de datos, también un poco como lo que pasa con los asistentes de conducción de los coches, que puedes apagarlos, definir su sensibilidad (hasta cierto punto) e incluso suscribirte a prestaciones o servicios. Me imagino que windows 12 va a traer muchas novedades en ese sentido. Voy a desvariar un poco, si todo el contenido de nuestros discos acaba convertido en miles de millones de vectores, estos vectores se podrán comparar con los de otros usuarios y el nivel de segmentación y clasificación de nosotros como individuos podrá llegar a un nuevo escalafón, lo mismo que pasa en las redes sociales pero directamente con nuestros archivos y documentos. Qué momento más apasionante y al mismo tiempo que incertidumbre.

@LaHoraMaker 8 месяцев назад

No se si viste este video @@agraciag pero me ha recordado totalmente al escenario de la personalización definitiva: www.xataka.com/servicios/este-video-secreto-de-google-muestra-como-nuestros-datos-pueden-influir-en-decisiones-futuras

@agraciag 8 месяцев назад

No lo había visto, muchas gracias, creo que voy a releer Un mundo felíz de Huxley@@LaHoraMaker

@aitor451 6 месяцев назад

Tengo una duda. Si los embeddings usan la ventana de contexto, puede que esto sea una limitación bastante drástica en algunos modelos ¿no? Es decir, si quiero preparar una base de datos vectorial con, pongamos por ejemplo, 50 libros sobre una materia determinada, eso podría no caber en la ventana de contexto del modelo. No me queda claro si lo que va al contexto son las coincidencias que ha encontrado en el embedding tras la consulta o todo el embedding. Excelente trabajo en tu canal. Estoy aprendiendo muchísimo. No tengo suficientes palabras de agradecimiento.

@LaHoraMaker 6 месяцев назад

Hola Aitor, los embeddings se utilizan para hacer la búsqueda por similaridad. Una vez encontrados los chunks más parecidos a la consulta, estos se añaden dentro del prompt para su generación. Si el modelo tiene muy poco tamaño de contexto, no vamos a poder traernos muchos chucks, lo que puede limitar la calidad de la salida producida.

@joseivangonzalezfuentes4620 8 месяцев назад

Muy buen video, saludos

@LaHoraMaker 8 месяцев назад

Gracias, saludos!

@jcarolinares 9 месяцев назад

Molón Ya tengo un proyecto para esto

@LaHoraMaker 8 месяцев назад

No me puedo ni imaginar donde encontrar muchos documentos de nicho técnicos actualizados y las ventajas de poder consultarlos con un esquema de este tipo :D

@miguelprietolezana4872 4 месяца назад

El pitido porfa

@LaHoraMaker 4 месяца назад

@jsalgadop 5 месяцев назад

Quiero implementar un servicio de red para consumo interno de la empresa con el despliegue de un sistema entrenado con los documentos de la institución en formato PDF. ¿Cuáles son las instrucciones detalladas para levantar dicho recurso en la red?

@LaHoraMaker 5 месяцев назад

Hola Julio, te recomendaría que le dieras un vistazo a este video para realizar las primeras pruebas: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-vY-28djh334.html Para realizar una instalación mas escalable, sería necesario cambiar el servidor Ollama por uno que tenga mejor concurrencia como vLLM (pero todavía no tengo un video en el que lo explique)

@jsalgadop 5 месяцев назад

@@LaHoraMaker En efecto, el video proporciona las pautas generales para implemenar un servicio propio dentro de la empresa, pero lo que ahora necesito es entrenar un modelo LLM con mis propios documentos PDF. ¿Cómo consigo ello?

@aniballecter6054 8 месяцев назад

Se oye un pitido molesto de fondo... lo siento pero paso.

@LaHoraMaker 8 месяцев назад

Gracias por el comentario Aníbal! Ayer estuve escuchándolo con cascos y se escucha este pitido. En algunos momentos es sutil, en otras ocasiones se aprecia más. Creo que el pitido lo emite un monitor (o más bien el monitor con un cargador concreto) y pensaba que al está separado del micrófono no lo captaría, pero veo que no es así. Voy a ver si desde el editor de RU-vid Studio me deja modificar el audio para eliminar el pitido o si no, en el editor de vídeo local, aunque tendría que crear un vídeo nuevo. En cualquier caso, lo arreglaré antes del próximo vídeo. Gracias de nuevo por tu comentario!

@aniballecter6054 8 месяцев назад

@@LaHoraMakerlamento comentarlo pero es que antes de poner el comentario para asegurarme fuí pasando el video de 5 en 5 minutos y tenía el mismo tono de pitido, tal vez parezca que disminuye por tono de la voz pero a mí me pareccía igual en todo momento.

@LaHoraMaker 8 месяцев назад

Después de una investigación, he visto que el ruido se produce en los 800 Hz, 1600 Hz y 2400 Hz (así que es un poco molesto de quitar porque solapa con parte de la voz). He probado a generar dos videos con diferente configuración. En el primero utilizo un ecualizador para reducir las frecuencias espíficas, en el segundo utilizo un reductor de ruido. ¿Notas alguna mejora en cualquiera de los videos? - Ecualización: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-77cXBc4TqOM.html - Reducción de ruido: ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-fsOHlOJNt5s.html Si alguno se escucha mucho mejor podría recomendarlo en la descripción por si hay más personas que lo encuentran molesto.

@JavierTorres-st7gt 2 месяца назад

Pero para las empresas no tendrian seguridad en la informacion

@LaHoraMaker 2 месяца назад

Gracias por el comentario Jorge. No acabo de tener claro a qué aspecto de la seguridad te refieres. Si me pudieras indicar con mayor detalle tu preocupación, podríamos comentarlo.