Тёмный

Whisper, el OÍDO más POTENTE de la Inteligencia Artificial (y Open Source!) 

Dot CSV
Подписаться 861 тыс.
Просмотров 347 тыс.
50% 1

Este es la IA de transcripción de texto más avanzada, y open source! Te enseño a usar Whisper para que tú también puedas usar gratis este impresionante sistema de speech-to-text de OpenAI.
-- ¡OTROS LINKS! --
► ¡NUEVO NOTEBOOK! Prueba WhisperX (70 veces más rápido!)
colab.research.google.com/dri...
► Notebook Whisper (Google Colab)
colab.research.google.com/dri...
► Whisper (Blog post)
openai.com/blog/whisper/
► Whisper (GitHub)
github.com/openai/whisper
-- ¡MÁS DOTCSV! ---
📣 NotCSV - ¡Canal Secundario!
/ notcsv
💸 Patreon : / dotcsv
👓 Facebook : / ai.dotcsv
👾 Twitch!!! : / dotcsv
🐥 Twitter : / dotcsv
📸 Instagram : / dotcsv
- ¡MÁS CIENCIA! --
🔬 Este canal forma parte de la red de divulgación de SCENIO. Si quieres conocer otros fantásticos proyectos de divulgación entra aquí:
scenio.es/colaboradores

Наука

Опубликовано:

 

12 ноя 2022

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 927   
@DotCSV
@DotCSV Год назад
¿Y vosotros, qué vais a construir con Whisper? ¡Escribídmelo en comentarios! Y no dejéis de registraros al Samsung Dev Day :)
@oldsprait163
@oldsprait163 Год назад
que es 👺💅
@joaquin8796
@joaquin8796 Год назад
mejorar mis apuntes, para mejorar mi estudio autodidacta ya sea ingles y programación
@pablocamargo1702
@pablocamargo1702 Год назад
Poder traducir algunas canciones que no tienen su letra publicada y suenan algo confusas
@HybridTheoryXero
@HybridTheoryXero Год назад
Con el cierre de subdivx, se hizo muy difícil conseguir los subtítulos de pelis y series. Está herramienta es genial para esa tarea porq encima genera un srt!
@joaquin8796
@joaquin8796 Год назад
@@HybridTheoryXero creo los subtítulos de cualquier película es posible de manera local, literal de película antiguas que solo se necesita una grabación y ya adios a los 20 min de busqueda de un buen subtítulo :U
@omarfernando7or
@omarfernando7or Год назад
Yo soy cuadripléjico y es muy complicado dictar textos extensos con las herramientas que traen los dispositivos hoy en día espero que esta nueva tecnología nos puede ayudar y nos facilite el tema de poder redactar documentos
@Benaplay
@Benaplay Год назад
Y como escribiste el comentario?
@juanasensioalbaladejotorre5265
@@Benaplay para escribir un comentario me imagino que se puede apañar con la función voz a texto, pero si hablamos de redactar textos más largos y a un nivel más profesional la verdad que las posibilidades al alcance se quedan cortas
@omarfernando7or
@omarfernando7or Год назад
@@Benaplay con el dictador
@omarfernando7or
@omarfernando7or Год назад
@@juanasensioalbaladejotorre5265 exacto
@bantoncreative
@bantoncreative Год назад
supongo que podrias dictar y usar a Chat GPT para que te redacte (Supongo que lo podria hacer)
@gabi10111
@gabi10111 Год назад
Yo ya he estado usando whisper para transcribir grabaciones de clases y es excelente, solamente habré tenido que cambiar 2 o 3 palabras entre cientos
@RyoukenDofus
@RyoukenDofus Год назад
Podrias explicar como lo haces? Tengo clases grabadas de 2 horas, estuve probando pero no se terminan de subir nunca en el google colab
@Crisof
@Crisof Год назад
@@RyoukenDofus Úsalo localmente y listo, si tienes un equipo gama media o alta va de lujo.
@the-ck-head6382
@the-ck-head6382 Год назад
@@Crisof Se puede usar con tarjeta grafica amd?
@DarioLopezPadial
@DarioLopezPadial Год назад
¿Se puede distinguir entre las diferentes voces que hablan?
@toncortiella1670
@toncortiella1670 Год назад
@@Crisof Cómo se usa localmente? He estado buscando info y no encuentro nada, gracias!
@ancesai5627
@ancesai5627 Год назад
A los videos de este buen hombre primero se les da like, y luego se ven, con calma. :)
@Otakustenia
@Otakustenia Год назад
Suscribirme a este canal ha sido la mejor desición que he tomado este 2022. Dot gracias por traer este contenido a español ojalá a futuro podamos recompensarte todo tu trabajo.
@endetalle11
@endetalle11 Год назад
Ya lo puedes hacer en su Patreon
@albertsallent
@albertsallent Год назад
​@@endetalle11 ¡Bien dicho!
@YehaTopsTopProfecional
@YehaTopsTopProfecional Год назад
Uff ame, justo me ayudo para transcribir el guión que tanto rato llevaba posponiendo 😂🤣 gran video! Este año esta siendo increíble, no puedo esperar a ver qué ocurrirá dentro de algunos meses!
@SantiagoGonzalez-sl5lj
@SantiagoGonzalez-sl5lj Год назад
Utilicé esta tecnología con Google collab para transcribir una clase de donde estudio, que suben las clases grabadas en Audio. Es impresionante la verda lo bien que lo hace. Hay muchas partes en donde la profesora por ejemplo comienza una palabra y la corta. Y whisper se da cuenta que no la tiene que incluir. También maneja muy bien el tema de la puntuación. Así como está ahora ya es realmente muy útil
@carles_urena
@carles_urena Год назад
Genial! Acabo de probarlo inventándome palabras y las ha transcrito bien, incluso poniendo acentos! Este era el texto: "Cuando la alburrea salió por la járcena, quiso saber si el milorfo estaba bien trempuchado". Eso significa que escucha bien lo que decimos y no busca simplemente un diccionario de palabras para poner la que mas se parezca!
@maia2486
@maia2486 Год назад
como un poema de Cortázar
@coordinadorselfie
@coordinadorselfie Год назад
Para enunciados de ejercicios y apuntes en educación funciona muy bien y nos ahorra tiempo. Muchas gracias por tu trabajo. May the force be with you
@elementor85
@elementor85 Год назад
No sé si alguien más ya lo haya comentado, pero el cuaderno para transcribir está de lujo. Es genial que se pueda utilizar sin instalar demasiadas cosas en la PC. ¡Un saludo y muchas gracias por compartir este tipo de informaciones! Ya me he suscrito a tu canal. Por cierto, usé Whisper para escribir el comentario anterior. sería bueno que se pudiera usar en alguna app o algo para quienes no están muy familiarizados con Colab, pero por ahora este ha sido el resultado. :D
@puntoycoma5006
@puntoycoma5006 Год назад
Gracias Carlos. Que te tomes todo este tiempo para compartir tus conocimientos con nososotros, que te tomes la molestia de " enseñarnos", darnos documentación etc.... no hace sino confirmar lo que todos sospechamos: Que eres una buena persona. Y yo creo que es lo mejor que se puede decir de alguien. Un saludo Carlos
@ochotlacuache
@ochotlacuache Год назад
Carlos, eres enorme y me haz facilitado la vida como no me imaginé. Acabo de usar tu notebook para transcribir una entrevista de 20 minutos y lo hizo perfecto. Hasta me dio una versión para subtitular el video con código de tiempo, que funciona!!!! Gracias mil
@madb55
@madb55 Год назад
wow, simplemente wow, siempre traes chuladas pero ahora si se me cayó la mandíbula, ese nivel de comprensión, las traducciones, la puntuación y lo mejor Open Source! joyas tus vídeos
@zapatillasiniestra
@zapatillasiniestra Год назад
No puedo creer que desde hace dos semanas que vengo probando apps de live transcript para practicar mi speech en inglés y ahora vienen estos tipos y sacan esa herramienta que funciona mucho mejor que todas las otras app xd
@naimramirezolivencia4368
@naimramirezolivencia4368 Год назад
A mí me ha pasado igual. Hace unos días andaba buscando como loca algo de esto!
@pedromiranda2388
@pedromiranda2388 Год назад
¿Pudiste conseguir que Whisper traducirá áudios en inglés y los transcribira en español?
@AlexCuan
@AlexCuan 5 месяцев назад
No puede ser que hace año y pico de este video y sigues actualizando el cuaderno de colab. Siempre vengo aqui!! Te quiero bro, gracias❤
@Diserpier
@Diserpier Год назад
Adoré este video. Me suscribí desde que vi el de las imagenes. Esta serie de videos estan brutales. Me has salvado la vida ahora que tengo que me pusieron de secretario en reuniones de mi junta de trabajo en Alemán y el idioma a veces me carga. Con eso podré defenderme muy bien! Te debo la vida (y mi puesto haha)
@albasky7502
@albasky7502 Год назад
Alucinante; Hace falta que dicha tecnología llegue a los hogares. Sería estupendo que pudiesen romperse las barreras del idioma. También sería estupendo la posibilidad de poder guardar nuestras conversaciones en texto y poder hacer búsquedas como si se tratasen de un documento. El reconocimiento por voz para usuarios domésticos se ha estancado mucho, así que sería muy interesante ver el siguiente paso. Gracias por el vídeo y felicidades a todo el equipo por el canal. Un saludo!
@agustinramos94
@agustinramos94 Год назад
Hace un par de dias estaba intentando entender whisper para poder transcribir los audios de mis clases, la verdad funciona bastante bien, no entiendo porque un audio en concreto detecta que es de Chino, pero bueno, entiendo que capaz las Clases de Quimica Organica se parezcan pero bueno
@aleacuna9154
@aleacuna9154 Год назад
Iba a hacer un chiste con el Chang pero es orgánica jajaja
@pablopayabeltran4695
@pablopayabeltran4695 Год назад
me pasa igual pero en gallego
@PortedmossGames
@PortedmossGames Год назад
Como lo haces ? Las clases son largas? A mi solo me transcribe los primeros minutos de un video largo de 3 horas
@PortedmossGames
@PortedmossGames Год назад
@Isaac Baena García que va ,lo he dejado aparcado, solo hace unas 20 frases o así, si te fijas bien en el video ,ni la canción de Rosalía que le pone, la acaba completa(fíjate en la barra desplazadora).
@sebastianhuitronmartinez
@sebastianhuitronmartinez Год назад
@Isaac Baena García Puse large en lugar de medium y solo me transcribio 8:51 de 1:30:18, a ti te lo transcribio completo?
@JM_Tushe
@JM_Tushe Год назад
Madre mía, esta herramienta es increíble. Conforme explicabas yo estaba con la idea de que cualquier creador de contenido se había quedado sin excusas para colocar subtítulos, pero con los ejemplos que diste al final me dí cuenta de que sólo estaba viendo al árbol que tenía en frente y no al bosque entero… ¡Gracias por el vídeo! 🙏
@TraskySim
@TraskySim Год назад
Me parece super interesante para transcribir audios de clase. Que hacerlo a mano lleva una eternidad! Muchisimas gracias por el video, la info, los liks y por tu trabajo 🤩
@rafaelortega1376
@rafaelortega1376 Год назад
Sobre Google, tienen mucho que aprender y creo que están en hecho. Ya está abierta la inscripción en la whitelist de Ai test kitchen.
@diegoG21
@diegoG21 Год назад
El santo grial de los dobladores de anime. Está aquí señores, hemos llegado.
@draxterpana
@draxterpana Год назад
fue lo primero que pensé jajajajajja. Solo tendrian que pasar el video a audio y pasar el audio a la IA
@EventTVok
@EventTVok 10 месяцев назад
Amigoooo!!! gracias, infinitas gracias, meses y meses probando paginas para tratar de traducir el audio de un video en chino y gracias a ti finalmente lo logré!!! tu tutorial es el único que me funcionó, me fue muy fácil y rapido, segui todos los pasos y descargué la traducción que despues traduci al español, mil gracias 👍👍👍
@josebravo3764
@josebravo3764 Год назад
Gracias por este tutorial de whisper me ahorrantes un montón de tiempo con esta app ya que para estudiar mejor a veces solía trascribir los videos del curso. Probé la app con un video de 3 minutos y lo trascribió de una manera impecable.👍👍
@victorduchas
@victorduchas Год назад
Gran vídeo! Yo lo he probado con audios muy exigentes (mal grabados, con mucho ruido de fondo, etc.) y los resultados dan miedo de lo buenos que son, tanto para transcripción como para traducción. Como montador de vídeo ahora solo espero que ojalá alguien se anime a crear un plugin para Avid/Premiere/DaVinci que nos permita usar el poder de Whisper directamente desde las pistas de audio del programa (o por ejemplo indicándole con un in/out qué segmento se quiere transcribir o traducir) y que automáticamente se creara una pista con los subtítulos ya añadidos y colocados donde toca. Yo ahora por ejemplo estoy trabajando de ayudante de montaje en un documental que cuenta con más de mil horas de bruto, todo en ruso o ucraniano, y la de tiempo y dinero en traductores que se ahorraría la productora con una herramienta así sería impagable!
@PortedmossGames
@PortedmossGames Год назад
Los has usado en videos largos ? A mi solo me transcribe unos minutos de un video de 3 horas
@centrointernetbds
@centrointernetbds Год назад
Lo que se debe buscar es un modelo capaz de aislar el ruido y seguir varios discursos en un solo audio con diferentes voces superpuestas más ruidos, debe ser capaz de identificar las distintas, aislarlas, etiquetarlas y transcribirlas. Luego con un hardware de 3 micrófonos añadir la ubicación de fuente y el ser capaz de intuir el medioambiente dónde se genera el sonido, paredes, espacio abierto etc. Y para no pedir más, que pueda crear alguna tipo de representación gráfica del ambiente y las personas captadas.
@Crisof
@Crisof Год назад
Jajaja no falta el que va flipao siempre. Me recuerdas a un cliente que buscaba un desarrollador móvil para una App que con la cámara del móvil escaneara a las personas y dieran un dictamen médico real jajaja por 50 pavos claro.
@AndresFelipe0402
@AndresFelipe0402 Год назад
No es posible detectar el origen de un sonido sin un canal estéreo. Por algo tenemos dos orejas.
@AndresFelipe0402
@AndresFelipe0402 Год назад
Por cierto el aislamiento de sonidos en diferentes frecuencias y de diferentes voces ya se ha hecho y es muy sencillo utilizando máscaras en representaciones en el dominio de la frecuencia como spectrogramas.
@centrointernetbds
@centrointernetbds Год назад
@@AndresFelipe0402 Claro, podria funcionar con 3 o mas microfnos, pero lo interesante aqui seria que se entrene. hay otros aspectos aparte de la triangulaicion, por la forma que se generan los ecos se puede determinar si hay una habitacion de que dimensiones y otros aspectos, con un buen entrenamiento es posible ir mucho mas alla de lo aparente.
@centrointernetbds
@centrointernetbds Год назад
@@AndresFelipe0402 Si el problema es el entorno natural, donde existen ruidos, no hablamos de musica profecional, si no de un entorno por ejemplo una carretera con ruidos diversos no planificados. creo que se puede, pero enteindo que au no se ha hecho a ese nivel.
@markgamboa8183
@markgamboa8183 Год назад
Excelente tuto amigo, ya me re - suscribí esperando aprender mas, saludos desde COLOMBIA !!!
@carlosenriquechannel
@carlosenriquechannel Год назад
Muchas gracias por la explicación y el notebook, lo he usado para crear material de formación, grande!!
@sonoriuxo2437
@sonoriuxo2437 Год назад
No se si otro comentario ya lo haya mencionado pero esto se acerca cada vez más al traductor universal de Star Trek, ahora sólo faltaría que fuera bidireccional y que cupiera en un dispositivo de oído cómo bluetooth y fuera bidireccional para que fuera una conversación en tiempo real.
@berserker6341
@berserker6341 Год назад
Estaba buscando si alguien había pensado lo mismo, sería una brutalidad a comparación de por ejemplo una habitación holográfica generada por stable diffusion. Así como lograron la teletransportación cuántica, un dispositivo como el que planteas no esta muy alejado en el futuro. Y transformar energía en alimento la pegada total. Saludos!
@dyoanima
@dyoanima Год назад
Menuda barbaridad, esta herramienta es super potente, he conseguido transcribir con exactitud y detalle una serie completa que nunca recibio un fansub, la traduci al español con otra herramienta y ya esta, un .srt perfectamente traducido y con tiempo correctos, faltara probar con japones pero estop solo puede mejorar, una herramienta que te traduzca series, no puedo esperar
@sebastiangonzalezgauna7350
@sebastiangonzalezgauna7350 Год назад
Hola! como estas? quisiera saber cual fue la herramienta que utilizaste para traducir el srt a español !
@maickolxd4611
@maickolxd4611 Год назад
@@sebastiangonzalezgauna7350 probablemente deepl, pero tienes k convertir primero el srt a docx y traducir y luego viceversa docx a srt
@alejandroggzz8833
@alejandroggzz8833 Год назад
Me gustan mucho tus videos , creo que no tienes tantos suscriptores pero si una comunidad muy pendiente .
@perfectlinkota
@perfectlinkota Год назад
estaba viendo el video de stable diffusion 2 y terminó y se puso este de forma automática: menuda recomendación!, esto es oro puro. Muchas gracias por tu tiempo, por tu dedicación, por fin algo de calidad , que es open.
@Gamer-ib4zs
@Gamer-ib4zs Год назад
He probado a traducir un audio en el que había un poema de por medio y es curioso como la IA ha sido capaz de identificar cuando empezaba y terminaba el poema para no traducirlo y dejarlo en el idioma original pero si traducir el resto del audio
@nadamas2000
@nadamas2000 Год назад
Una cosa interesante sería tener un manual para re-entrenar Whisper para idiomas o dialectos que no conoce o fortalecer los que estén "cojos", como pasó con Stable Diffusion. Para asociaciones culturales, gobiernos regionales o proyectos de protección de cultura indígena sería muy útil. A ver si Dot CSV se atreve. Seguro que alguno le mete idioma Klingon o Élfico 😂
@lestath2345
@lestath2345 Год назад
Esperanto 🥵
@nadamas2000
@nadamas2000 Год назад
@@lestath2345 Silbo Gomero
@ariel_pedernera
@ariel_pedernera Год назад
Claro. Lenguaje técnico, argot, o expresiones como modismos, jerga, etc.
@crow9283
@crow9283 Год назад
Seria util para poder traducir el Chileno.
@Astronaut_2001
@Astronaut_2001 Год назад
Pero para eso no habría que tener los audios con los textos transcritos como se entrenó a whisper? Xd para entrenar a whisper dijo que hubo aprox 700.000 hs de audio
@joseluisortega951
@joseluisortega951 Год назад
Lo acabo de utilizar para transcribir una charla de unos miembros de una comunidad agraria en Colombia, la grabación bastante mala de calidad, sin embargo, el resultado muy bueno. Impresionante los signos de puntuación. Muchas gracias, por compartir este conocimiento.
@nickbryan786
@nickbryan786 Месяц назад
Infinitas gracias por facilitarnos este cuaderno de Collab! me está siendo muy útil para un proyecto que estoy haciendo. Aunque bueno, no siempre es perfecta y se tengan que corregir algunas palabras, igual se agradece. Saludos!
@TheAlexis9998
@TheAlexis9998 Год назад
Interesante, estuve probando para transcribir hablando 3 idiomas en el mismo audio intercalándolo (español, inglés y portugués) Al principio dejaba de hacerlo cuando variaba el idioma. Lo intenté unas veces más y transcribía bien lo del español e inglés, pero el portugués lo confundía con español un poco y solo traté hacerlo con estos dos primeros idiomas y hacía la traducción directamente más que una transcripción de audio. Estuvieron interesantes las pruebas
@MrKferi
@MrKferi Год назад
El único fallo que tiene la herramienta son los timestamps. Son bastante genéricos, pues no indica en que segundo comienza cada token en el audio, sino que va por frases. Además, los modelos más grandes tienden a redondear los timestamps a números enteros. Existe un repo que intenta arreglar esto, se llama stable-ts
@albertsallent
@albertsallent Год назад
Muchas gracias por compartir esa información
@SandraGarcia-bt9dl
@SandraGarcia-bt9dl Год назад
Increíble!!😵 Vi este vídeo ayer y justo hoy mi jefe me manda la tarea de transcribir un vídeo de nuestra web para rehacerlo. Estoy maravillada con los resultados de Whisper!! sólo tengo que preocuparme por los signos de puntuación y el formato. Muchas gracias por la info Carlos!! eres de lo mejorcito de RU-vid! ☺☺
@halfrid
@halfrid Год назад
Como siempre, una maravilla lo que se puede aprender en este canal. Muchas gracias. Lo único malo, lo de la cicuta, al final del video, pero el mejor escribano también puede tener algún borrón.... Nadie es perfecto
@elkylotv2927
@elkylotv2927 Год назад
Supongo que podremos llegar a un futuro donde alguien no necesite aprender ningún idioma extranjero para comunicarse con personas de esa lengua, en tiempo real a través de una meet, ya que habrá subtítulos cuando esa persona se esté comunicando. Podrá facilitar mucho más la globalización si eso ocurre, permitiendo (por ejemplo) a personas que no son de habla inglesa enfocarse más en aprender las cosas pertinentes a su área y no tener que dedicar tiempo en el aprendizaje del inglés para acceder a todo tipo de trabajo deseado.
@jluispozo
@jluispozo Год назад
Pues imagínate la utilidad para las deficiencias visuales o auditivas, Me imagino haber dispuesto de herramientas como esta en mi labor docente…¡”que pasada”!
@favioavena9218
@favioavena9218 Год назад
ahora un sordo con gafas te puede escuchar. leer, tecnicamente, pero incluso se puede configurar el texto para asociar el tamaño al volumen y la direccion del sonido con la posicion en la pantalla, incluso se puede asociar el timbre de la voz con un color, porque la experiencia de usuario seria tan completa que luego de años de usarlo te volverias tan experto que facilmente podrias tener una conversacion 100% fluida con cualquiera. Hasta ahora solo hablamos de como el sordo escucharia.. pero como siga avanzando la tecnologia y con esto de la interface cerebro maquina ya ni si quiera sé si haria falta. ya pronto nos van a poner wifi en el cerebro jaja
@ygoryarz
@ygoryarz Год назад
Ya estoy suscrito al canal, tengo activa la campanita, le dí like y quiero darle like otra vez jajaja, gracias por esta info me llegó en un momento necessario.
@sandyernestoescobaryero3919
Recién he terminado de transcribir varias conferencias de las clases y puedo decir que esto es lo mejor que he probado, hay que hacer pequeñas correcciones, sin embargo, es muy buena. Excelente trabajo.
@Axelbarrera15
@Axelbarrera15 Год назад
Mi futuro utópico con las IA es que en algún momento puedas escuchar canciones de un artista extranjero pero con un procesado de IA para escuchar la voz del mismo artista cantando en cualquier idioma sin alterar la música, y de ser posible en Spotify jajaja
@randyriverolarevalo2263
@randyriverolarevalo2263 Год назад
spotifAi
@XaviIntheHouse
@XaviIntheHouse Год назад
@@randyriverolarevalo2263 patenta el nombre que te lo roban jajaj
@aveevadanaus
@aveevadanaus Год назад
Y mejor,que sea gratis!!!
@babblo
@babblo Год назад
No por dios, no!
@GonTar_X
@GonTar_X Год назад
Terrible, imagina arruinar una canción cambiándole el idioma
@agusmigoyo
@agusmigoyo Год назад
Probando la herramienta en el mismo video: 2022 será recordado como el año de Stable Diffusion, de Dali2, de increíbles modelos generadores de texto como Palm o generadores de código como Alpha Code. Y sin embargo, charlando el mes pasado con Andrés Torrubia, él me comentaba que lo más interesante que había visto este año era una inteligencia artificial que venía del laboratorio OpenAI, una IA llamada Whisper. ¿Qué es para ti de lo que ha salido este año lo más impresionante? Pues curiosamente, fíjate, curiosamente hasta ahora Whisper, yo creo. ¿Sabes por qué? Curioso, ¿eh? Por lo que me impresiona Whisper es que Whisper funciona, es como para mí Whisper, si fuera del coche autónomo, sería el primer self-driving del dictado. ¿Sabes? El primero que se parece a una persona. Bueno, pero para que entiendas tú primero qué es esto de Whisper, te voy a pedir que hagas el siguiente ejercicio. Te voy a reproducir un audio en inglés y tu tarea es transcribir cada una de las palabras que estés escuchando. ¿Estás listo? Tres, dos, uno. ¿Has entendido algo? Ya, yo tampoco. Pues a oídos de esta inteligencia artificial, esta es la transcripción perfecta que ha conseguido. ¿Y qué tal tu coreano? Bueno, pues para Whisper tampoco es problema y también puede transcribir este audio en perfecto inglés. Y bueno, también me entienda a mí. Esto que está viendo en pantalla ahora es el speech to text que consigue Whisper cuando le pasó la pista de audio que estás escuchando. Fíjate bien, no sólo consigue una transcripción casi perfecta, entendiendo incluso palabras concretas como Whisper o speech to text, sino que también es capaz de generar puntos, comas y otros signos de puntuación que a otros muchos modelos comerciales de reconocimiento del habla pues se les suele atragantar. Y esto es muy interesante. Bueno, no esto, sino Whisper. Whisper en general tiene muchas cosas interesantes. Y la primera cosa interesante es el contexto en el que esta herramienta aparece. Tras un año de increíbles logros por parte del laboratorio de inteligencia artificial de OpenAI, de repente de la nada surge una iniciativa colaborativa como Stability.ai que en septiembre toma por bandera el hacer open source, muchas de las tecnologías que OpenAI por su parte pues ha decidido guardarse para sí y compartir sólo bajo servicios de pago. Para mí esto tampoco es un problema, puesto que al final OpenAI como empresa pues tiene que pagar sus facturas y al menos nos está dando una forma de acceder a estas potentes inteligencias artificiales. Aprende Google. Pero claro, llega un muchachito nuevo a la ciudad y empieza a regalar caramelos a los niños y de repente el chico popular pues empieza a haber desplazado. Y en ese preciso momento llega a OpenAI de la nada y nos regala a Whisper para beneficio de todos. Porque sí, amigos, esto es open source. Que sé que os encanta escuchar estas palabras. Al final del vídeo voy a enseñar un mini tutorial para que veáis qué sencillo es utilizar esta herramienta y también os voy a compartir un notebook para que sea super sencillo para vosotros. Y esto es lo que hace a Whisper una herramienta super interesante, pero no es la única cosa. Y aquí es donde viene una de las cosas que más ha llamado mi atención y es que Whisper no es un complejo sistema que hayan diseñado para procesar audio como nunca antes había hecho o un sistema súper complejo con un montón de módulos de procesamiento. No. Whisper es esto de aquí. Una red neuronal de tipo transformer de las de 2017. No tiene ningún cambio, ninguna novedad. Es una arquitectura que ya, bueno, pues todos nosotros conocemos. Entonces, si esto es así, ¿por qué no existía ya una tecnología como Whisper? Pues la clave que hace a Whisper algo tan potente está en los datos y en cómo han estructurado su entrenamiento. Para entrenarlo, OpenAI ha utilizado ni más ni menos que 680.000 horas de audio con su correspondiente texto. Una brutalidad. Y es que si hacéis el cálculo 680.000 horas y empezar a reproducirlas ahora, acabarías de escucharla dentro de 77 años. Te podrías asegurar que en algún momento en el cielo verías surcar al cometa Halley. Pero es que además una cosa muy interesante es que estos audios vienen en múltiples idiomas, permitiéndonos poder entrenar a un modelo que es multilinguaje, que puede entendernos si hablamos en español, en inglés, en coreano... Da igual. Pero la cosa no se queda solo ahí y es que Whisper, además de ser un sistema multilinguaje, también es un sistema multitarea. Esta es una tendencia que, como ya vimos en el vídeo sobre gato, en el mundo del deep learning cada vez es más frecuente. No entrenar a la inteligencia artificial para una única tarea, sino entrenarla para varias diferentes, haciendo así que su aprendizaje sea mucho más sólido y robusto. Como hemos visto, Whisper puede tomar audios en inglés y transcribirlos al inglés, o audio en coreano y transcribirlo al coreano. Pero el mismo modelo también puede identificar qué lenguaje se está hablando, o actuar como un detector de voz para clasificar cuando en un trozo de audio se está escuchando o no a una persona. O también la tarea que más interesante me parece de todas, que tú le puedas hablar a Whisper en cualquier idioma y que él te lo transcriba automáticamente al inglés. Y en este caso no sabría deciros por qué, pero para mí esta me parece una funcionalidad fascinante. Parece que tampoco nos ofrece nada nuevo, no, al final tú puedes coger el texto que genera cualquier transcriptor de texto en tu idioma y pasarlo por un traductor. Pero en este caso me parece fascinante el ver cómo algo tan sencillo como un único modelo de deep learning te permite poder hablarle en cualquier idioma y que te genere el texto en inglés sin tener que combinar ningún tipo de herramientas. Es súper sencillo. Y lo de los datos que hemos comentado antes también es súper interesante, porque mi primera intuición aquí es que OpenAI, pues en la búsqueda de un dataset masivo de estas 680 mil horas de audio que tuviera una transcripción de texto para poder hacer este aprendizaje supervisado, pues posiblemente había acudido a una de las mayores fuentes que podemos encontrar en internet, que es RU-vid. Al final ya sabéis que todos los vídeos de RU-vid pues tienen generados subtítulos automáticamente.
@agusmigoyo
@agusmigoyo Год назад
Pues no, justamente en esto OpenAI hace mucho hincapié en su paper para explicarnos que han hecho un proceso de filtrado para eliminar del dataset cualquier aparición de texto generado por sistemas automáticos de reconocimiento del habla. ¿Por qué? Pues justamente para evitar que Whisper aprendiera también aquellos defectos, aquellos vicios que los otros sistemas automáticos también pudieran tener. Dicho esto, ahora que estamos hablando de Whisper y de RU-vid, hay una teoría que quiero contaros que me parece muy interesante, no es nada que esté confirmado, pero que podría explicar la razón de existir de esta herramienta y que podría tener cierta relación con un futuro GPT-4. Esta es una idea que escuché en el canal del doctor Alan Thompson y que dice que en un futuro próximo donde GPT-4 pues empezará a entrenar, Whisper podría ofrecer al sistema una enorme fuente de datos con la que sistemas anteriores no habían contado. Pensemos que un sistema como GPT-3 se ha entrenado con un montón de artículos de Wikipedia, de libros, de foros, de conversaciones de internet, pero nunca ha podido acceder a toda esa fuente hablada que puede estar en bases de datos como RU-vid. Una herramienta como Whisper podría ser utilizada para barrer por completo a RU-vid, transcribir muchos de sus audios y obtener de bloquear una nueva fuente de datos que antes no habría sido posible utilizar para entrenar a un futuro modelo del lenguaje. Este es el enorme valor que tiene una herramienta como Whisper y que creo que hace tan interesante esta tecnología. No, no resuelve una tarea que sea espectacular como generar imágenes o generar vídeo, pero resuelve una tarea muy útil y casi la resuelve hasta la perfección. Ojo, digo casi, no es perfecta, a veces algunas palabras se equivocan evidentemente y no cubre todos los lenguajes que existen en el planeta tierra y bueno, por buscar alguna limitación frente a otras herramientas comerciales, pues tampoco funciona en tiempo real, todavía procesar el audio dependiendo de la longitud pues te puede llevar unos cuantos segundos, a veces algún minuto, pero es una herramienta sólida, es madura, es útil y además open source, permitiendo que ahora cualquiera pueda acceder a una herramienta profesional de transcripción y traducción de texto, mejor que cualquier alternativa gratis. ¿Qué? Ah, que también vosotros queréis acceder a esta herramienta. Bueno, venga va, os preparo un tutorial facilito para que todos podáis utilizarlo, vamos a hacerlo en Google Collab. Pero antes y aprovechando que estamos hablando de programación, de desarrollo, de innovación, dejadme que os recuerde que quedan muy poquitos días para que se celebre el Samsung Dev Day, que es el evento tecnológico que celebra cada año la comunidad de Samsung Dev Spain, que es la comunidad oficial de Samsung para desarrolladores españoles. Este será un evento gratuito que no os podéis perder. Si estáis en Madrid podéis asistir presencialmente el día 16 de noviembre en el claustro de los gerónimos del Museo del Prado, y si no pues podéis conectaros online a través de su streaming, pero eso sí, hay que registrarse. Yo tuve la suerte el año pasado de poder participar con una ponencia sobre generación de código con inteligencia artificial y la experiencia fue genial. Así que ya lo veis, será un evento cargado de charlas geniales, hablando de tecnología, de innovación, de aplicaciones y además va a estar presentado por Midudev, que seguramente muchos de vosotros le conozcáis, así que no os lo podéis perder. Os voy a dejar abajo en la cajita de descripción un enlace a la página web de Samsung Dev Spain, donde vais a encontrar toda la información respecto a la agenda donde registraros y un montón de recursos más. Nos vemos el 16 de noviembre. Pues vamos a ver cómo podemos utilizar Whisper nosotros en nuestro propio código. Para esto vamos a utilizar Google Collab, ya sabéis que Google aquí nos está cediendo una máquina virtual gratuita que podemos utilizar y vamos a verificar siempre que tengamos activado el tipo de entorno con aceleración por hardware GPU. Vamos a darle aquí GPU, vamos a dar a guardar y ahora el primer paso será instalar a Whisper. Para ello vamos a usar estos dos comandos de aquí. Instalar, esto lo podéis encontrar en el propio repositorio de GitHub de Whisper, os voy a dejar abajo en la cajita de descripción estos comandos, le damos a ejecutar y dejamos que se instale. Una vez instalado, vamos a subir algún audio que queramos transcribir. Yo en este caso voy a probar con la canción de Rosalía de Chicken Teriyaki, vamos a colocarla para acá, la arrastramos y ahora el siguiente paso pues vamos a coger aquí y vamos a poner el comando necesario para poder ejecutarlo. Vamos a darle aquí a song.mp3, se llama el archivo que hemos subido, vale, song.mp3. La tarea va a ser transcribir el tamaño del modelo, hay diferentes tamaños según si quieres más velocidad a la hora de hacer la inferencia o si quieres más precisión en los resultados, yo por lo general trabajo con el modelo medium que es el que me da buenos resultados, hay modelos mayores, hay modelos menores, probad y en este caso pues simplemente donde vamos a colocar el archivo de salida, ejecutamos y ya está, ya está, no hay que hacer nada más, vale, ya estamos utilizando Whisper. La primera vez tardará un poco porque tiene que descargar el modelo pero a partir de este momento podéis utilizar este sistema para transcribir cualquier audio que queráis, mola. Vale, vemos que en este caso ha detectado que el idioma es español, ha hecho la inferencia automática porque no le hemos dicho que vamos a transcribir del español, lo podéis hacer si queréis y cuando ya está ejecutada esta celda pues podemos venirnos para acá, vemos que se ha generado la carpeta audio transcription y aquí tenemos las diferentes opciones, podemos abrir el song.txt y aquí le abrimos el archivo vemos que pues tenemos toda la canción perfectamente transcrita que en este caso siendo la rosalía pues tiene más mérito. Si en vez de querer hacer la transcripción quisierais hacer la traducción, es decir convertir vuestra voz, vuestro audio al inglés, pues lo único que tenéis que hacer es cambiar aquí la tarea por translate y en este caso Whisper trabajará para traducir aquello que ha transcrito. En este caso si os dais cuenta el comando que hemos utilizado ha sido el de consola pero a lo mejor queréis utilizar Whisper dentro de vuestro código, entonces también tenéis la opción de trabajar con la propia librería de Whisper, es simplemente esta línea de código de aquí, lo importamos, cargamos el modelo que queramos, aquí pues yo cargaría el modelo medium que es el que como digo funciona mejor para mi caso y con el modelo cargado, luego aquí llamamos a model.transcribe, vamos a poner aquí song.mp3, le damos a ejecutar y en cuestión de unos segundos pues ya tendremos de nuevo nuestra transcripción y aquí lo tenemos la rosalía, rosa sin tarjeta, se la mando a tu gata, te la tengo con roleta, no hizo falta serenata, pues ok. Igualmente para hacer la vida más fácil he preparado un notebook que podéis utilizar, está abajo en la cajita de descripción donde tenéis ya todo el código listo para empezar a trabajar, simplemente tenéis que entrar, comprobar que está la GPU activada, le damos a este botón de aquí para instalar pues todo lo necesario, aquí elegimos la tarea que queremos hacer, pues si es transcribir a cualquier idioma o traducir al inglés y le damos a ejecutar, en este caso la celda está preparada para que en el momento en el que empieces a ejecutarla, está grabando ahora mismo tu micrófono, es decir ahora mismo estaríamos generando un archivo de audio que luego vamos a utilizar para transcribir con Whisper, esto es por si queréis hacer una transcripción en tiempo real de cualquier clase o cualquier cosa que necesitéis.
@javierRC82857
@javierRC82857 Год назад
Metamos este input en GPT-3 y se crea la segunda parte del vídeo.
@enriquemontero74
@enriquemontero74 Год назад
Mucho no , demasiado texto
@nikse2028
@nikse2028 Год назад
@@enriquemontero74 lo aclaro al principio, es el resultado de probar whisper con el video de dot csv
@lista_devideos_cursoscompl1338
Testing the tool in the same video: 2022 will be remembered as the year of Stable Diffusion, of Dali2, of incredible text generator models like Palm or code generators like Alpha Code. And yet, chatting with Andrés Torrubia last month, he told me that he interesting thing I had seen this year was an artificial intelligence that it came from the OpenAI lab, an AI called Whisper. What is the most impressive thing that has come out of this year for you? Well curiously, look, curiously so far Whisper, I think. You know why? Curious, huh? What impresses me with Whisper is that Whisper works, it's like for me Whisper, if it were an autonomous car, it would be the first self-driving of the dictation You know? The first one that looks like a person. Good, but for what? first you understand what this Whisper thing is, I'm going to ask you to do the next exercise. I am going to play an audio in English and your task is transcribe each of the words you are hearing. Are you ready? Three, two, one. Have you understood something? Yeah, me neither. Well, in the ears of this artificial intelligence, this is the perfect transcription you have gotten. And how about your Korean? Okay, Well, it's not a problem for Whisper and you can also transcribe this audio into perfect english. And well, he also understands me. What you are seeing on the screen now is the speech to text that Whisper gets when he passed her the audio track that you are listening. Look closely, not only does he get an almost perfect transcription, understanding even specific words like whisper or speech to text, but It is also capable of generating periods, commas, and other punctuation marks that to many other business models of speech recognition as they were usually chokes And this is very interesting. Well, not this, but Whisper. Whisper in general has a lot of interesting things. and the first thing interesting is the context in which this tool appears. After a year of incredible achievements by the artificial intelligence laboratory of OpenAI, suddenly out of nowhere a collaborative initiative like Stability.ai, which in September took up open source as its flagship, many of the technologies that OpenAI for its part has decided to keep to itself and share only under paid services. This is not a problem for me either. since in the end OpenAI as a company has to pay its bills and at the less is giving us a way to access these powerful intelligences artificial. Learn Google. But of course, a new boy arrives in town and he starts giving candy to the kids and suddenly the popular guy well he begins to have displaced. And at that precise moment he arrives at OpenAI from the nothing and gives us Whisper for the benefit of all. Because yes, friends, this it is open source. I know you love hearing these words. At the end of video I will show a mini tutorial so you can see how easy it is to use this tool and I am also going to share a notebook to make it super simple for you. And this is what makes Whisper a super tool. interesting, but it's not the only thing. And this is where one of the things that What has caught my attention the most is that Whisper is not a complex system that have been designed to process audio like never before or a system super complex with a bunch of processing modules. No. Whisper is this right here A neural network of the transformer type of those of 2017. It does not have no change, no news. It is an architecture that already, well, all we know. So, if this is so, why didn't there already exist a technology like Whisper? Well, the key that makes Whisper so powerful is in the data and how they have structured their training. To train it, OpenAI has used no more and no less than 680,000 hours of audio with his corresponding text. A brutality. And it is that if you do the calculation 680,000 hours and start playing them now, you would finish listening to it in 77 years. You could be sure that at some point in the sky you would see the Halley comet. But it is also that a very interesting thing is that these audios come in multiple languages, allowing us to train a model that is multilingual, that can understand us if we speak in Spanish, in English, in Korean... It doesn't matter. But the thing does not stop there and it is that Whisper, in addition to being a multilingual system, is also a system multitask. This is a trend that, as we already saw in the cat video, in the world of deep learning is becoming more and more frequent. Do not train the artificial intelligence for a single task, but to train it for several different, thus making their learning much more solid and robust. As we have seen, Whisper can take audios in English and
@nelsonsanchez7279
@nelsonsanchez7279 Год назад
Súper interesante... Seguimos avanzando, y descubriendo nuevos usos para las IA 😎
@HumbertoMesa
@HumbertoMesa Год назад
Descubrir este canal en 2023 me provoco un salto cuántico ... y justamente uso ChatGPT para estudiar fisica de particulas, estos video me abren mas las posibilidades. Por ejemplo este para llevar a texto varias conferencias de expertos. Gracias Carlos por tu trabajo de difusión 🇺🇾.
@kfr4846
@kfr4846 Год назад
En 10 años muchos sectores de tecnología no serán los mismos, cada vez nuestro avance es exponencial
@evangelion4ever
@evangelion4ever Год назад
En 5
@xlgabriel
@xlgabriel Год назад
Hoy
@TheScienceOficial
@TheScienceOficial Год назад
En 4,3,2,1
@lista_devideos_cursoscompl1338
en -1 -2 -3
@TheScienceOficial
@TheScienceOficial Год назад
@@lista_devideos_cursoscompl1338 te saltaste el cero
@edgarcin95
@edgarcin95 Год назад
Quisiera que hablaras de más IAs que trabajan con Audio lamentablemente no es tan popular como las imágenes. Pero existen repositorios chidos de audio como Speechbrain o Asteroid. Personalmente he trabajado con Asteroid para separación de la guitarra de una canción.
@albertsallent
@albertsallent Год назад
Muchas gracias por compartir esa información
@Teslaen2minutosElonMusk
@Teslaen2minutosElonMusk Год назад
Grande Carlos!!! Muy útil esta herramienta. Muchas gracias
@Y0Claudio
@Y0Claudio Год назад
Genial. La estoy usando ahora en el trabajo, gracias. Retornaré como Patreon, jeje
@TheScienceOficial
@TheScienceOficial Год назад
Deberían de hacer una IA que realice artículos científicos, osea que solo introduzcas los datos y te género un texto en inglés con coherencia, eso ayudaría al ámbito científico en la parte de redacción porque a veces se pierde mucho tiempo
@alandescudero1863
@alandescudero1863 Год назад
ya serian mas faciles los doctorados 😅
@TheScienceOficial
@TheScienceOficial Год назад
@@alandescudero1863 facilitaría mucho, pero a mí en lo personal se lleva mucho tiempo haciendo correcciones de una investigación ya realizada
@AndresFelipe0402
@AndresFelipe0402 Год назад
Ya existe, ¿no has estado pendiente del lanzamiento de Gallactica?
@TheScienceOficial
@TheScienceOficial Год назад
@@AndresFelipe0402 gracias por la información caballero, ya cheque y si tiene razón aunque me aparece que es más una IA de consulta de información porque fue entrenada con paper científicos
@josealfredo787
@josealfredo787 Год назад
Increible como siempre, aunque lo que mas espero es text to speech con ml que sea demasiado realista, aunque seguro lo usaremos mal pero igual seria genial tener la voz de narrador de pelis
@Crisof
@Crisof Год назад
Ya existen hace años, aunque hay muchos modelos que son prácticamente realistas y nada que ver con Loquendo, obviamente son servicios de pago, el mismo Google tiene uno con voces bastante realistas y hasta tiene la opción de personalizar tu propia voz si quieres o de la persona que desees.
@xlgabriel
@xlgabriel Год назад
@@Crisof Llevo buscando alguna librería para usar en python y reemplazar la voz de Windows que es muy robótica (la necesito en español), pero al parecer no existen. Quiero recrear una voz humana para mi GPT-3 simulando conversaciones
@josealfredo787
@josealfredo787 Год назад
@@Crisof las he probado e incluso las de pago es fácil darse cuenta que son generadas por máquina, al menos en español, en inglés por entonación neutra medio podrían pasar pero en español siento que no suenan como un humano normal
@kcireorenom8430
@kcireorenom8430 Год назад
excelente vídeo, tu mejoras cada día también.
@stbannnsaa
@stbannnsaa 8 месяцев назад
Muchas gracias por facilitarnos este tipo de herramientas a quienes no sabemos mucho de programación.
@JavierYanizCiriza
@JavierYanizCiriza Год назад
Super interesante el vídeo!! He estado probando el Notebook que nos has regalado y veo que muchos de los audios en español los detecta como gallego (y esto condiciona a la transcripción) ¿Hay alguna manera de solucionar esto? Muchas gracias
@Migueloco3000
@Migueloco3000 Год назад
un traductor universal que te permita hablar con alguien de otro idioma en tiempo real, reproduciendo el texto que genera a la otra persona en su idioma y viceversa
@alonsorojas3829
@alonsorojas3829 Год назад
Bien Carlos! Excelente información y gracias por el Notebook y hacernos las vida facil
@roxieAr
@roxieAr Год назад
Brutal tu video. Mil gracias por compartir tan valioso contenido.
@enocd
@enocd Год назад
Amo tus videos, estos me inspiran a estudiar la carrera física 💪💪😁😁😁
@xlgabriel
@xlgabriel Год назад
La física no toca temas de I.A., te recomiendo estudiar directamente Ingeniería de Datos e Inteligencia Artificial, o Ingeniería de Software
@enocd
@enocd Год назад
@@xlgabriel si y no, gracias por la sugerencia, he analizado cuál ruta sería la mejor para mi… Me interesa hacer un doctorado en computación cuántica, hacer un grado en física y luego un máster en física computacional me acerca a mi meta, los algoritmos no de dejan de ser funciones y lógica matemática, no hay mejor forma de iniciar mi ruta de aprendizaje que desde las bases de lo que ahora es la computación moderna, matemáticas y física 😁😁😁
@everab1209
@everab1209 Год назад
Mucha suerte! Física no necesariamente toca los temas de matemática necesaria para algoritmos avanzados, pero como parece que vas intersado por computación cuántica lo veo buen plan. Qué gusto.
@enocd
@enocd Год назад
@@everab1209 gracias 😄😄
@bautibunge737
@bautibunge737 Год назад
@@xlgabriel Yo aprendi IA durante mi carrera de fisica, y ahora estoy viendo de entrar en alguna empresa del ambito, que ya varios colegas lo han hecho
@franpfdez
@franpfdez Год назад
4:32 Parece que por fin los gallegos vamos a poder comunicarnos con la tecnología en nuestro idioma :)
@gustavofranciscocaballero5930
Estimado, no te imaginas lo que busqué esta herramienta... es una cosa fantástica, acabo de transcribir las clases de facultad... maravilla
@fabianjuarez3205
@fabianjuarez3205 Год назад
EXCELENTE CANAL. Te queria realiar la siguiente consulta ya que me gustaria orientacion. He construido a un robot tamaño de una persona similar a chappie y quiero que sea interactivo con las personas, que sea capaz de reconocer el audio de la persona que esta hablando con el robot y logre mantener una conversacion con la misma. Esto seria algo parecido a un chatbot solo que en vez de ser una comunicacion escrita seria hablada. Mi robot tiene incporporado una raspberry pi como computaora central.
@Z3B3N
@Z3B3N Год назад
Estaría interesante poder instalarlo en local
@FelipeRojasPerucca
@FelipeRojasPerucca Год назад
No solo un excelente tutorial, un notebook y un trabajo fantastico, muchas gracias.
@victorsabanzagil7184
@victorsabanzagil7184 Год назад
Tremendo, Carlos, gracias por tu labor divulgativa y por democratizar el acceso a todos estos avances!
@Dress4Excess
@Dress4Excess Год назад
¿Hay alguna posibilidad de conseguir que Whisper transcriba y traduzca al español? He visto que Whisper creó automáticamente los .srt. Pensar en que pueda coger cualquier video en cualquier idioma y Whisper genere los subtítulos perfectamente sincronizados al español es algo que me vuela la cabeza.
@Boss_VR
@Boss_VR Год назад
Las empresas de películas o videojuegos, no tendrán excusas de no poner subtítulos aunque sea en español🤣
@RRR-yp4is
@RRR-yp4is Год назад
su implementación es fácil, pero yo prefiero usar manualmente transcriptores de srt y convertirlos a audio con un programa y están totalmente sincronizados. Sin duda que alguien ya debe haberlo hecho algo así con whisper y un modelo de text to speech, pero me da weba buscarlo
@ernestg7466
@ernestg7466 Год назад
La gente de Subtitle Edit, seria genial.
@MaGaO
@MaGaO Год назад
¿Nadie va a pensar en los grupos de subtítulos de anime?
@zabdielfrancisco
@zabdielfrancisco Год назад
Eso ya lo hace RU-vid no?
@geroxima
@geroxima Год назад
Buenas Carlos, en el Notebook que dejaste para utilizar a Whisper, creo que hay un error en la zona de traducir por que esta puesto en "transcribe" y no "translate", osea creo jaja
@lea7802
@lea7802 Год назад
Venia a comentar lo mismo.
@LeunamOficial
@LeunamOficial Год назад
¡Buenas Dot! Hace poco ha salido a la luz un nuevo proyecto por parte de nvidia, llamado: Nvidia’s Magic3D, es el uso de inteligencia artificial prompt text-to-img, pero lo increíble es que los resultados no son imagenes.png 2D, son modelos .obj, o assests directamente 3D, solo imagina las posibilidades🤯, una pulidita manual en blender a los modelos 3D que nos arroja la I.A y perfectamente se podrían usar en infinidad de proyectos: Renders, Animaciones, Videojuegos, Guías artísticas,etc. ¡Un saludo y abrazo!
@sr.railn.m.667
@sr.railn.m.667 Год назад
será posible re entrenarla, con un dataset más pequeño de un lenguaje que no conozca?
@pabloruizlopez9493
@pabloruizlopez9493 Год назад
Buenas Carlos, muy buen vídeo... Estaba pensando en si sabes si hay alguna empresa tocha trabajando en la dirección contraria, de text-to-speech. Sería muy interesante saber algo de esto. Gracias!
@Crisof
@Crisof Год назад
Hay decenas, el mismo Google tiene una muy buena.
@pabloruizlopez9493
@pabloruizlopez9493 Год назад
@@Crisof Muchas gracias Chistopher, lo sé, pero no son open source... :(
@SR_M0L1NA
@SR_M0L1NA Год назад
Sin duda Andrés Torrubia y tú tenéis toda la razón, esta herramienta tiene un potencial inmenso. Me has dejao flipando en colores.
@skkainet
@skkainet Год назад
Gracias por el video y por el notebook me ha sido muy util
@jeisoncgalindo
@jeisoncgalindo Год назад
Open Source ... justo lo que puedo pagar :v ... poco a poco te dejas de sorprender de tantos avances, pero es porque ya no llegas a asimilar todo lo que hacen las nuevas IA, te dejan pasmado
@luisandraschnik3001
@luisandraschnik3001 Год назад
Hola Carlos, qué diferencia hay entre este modelo y el de Mozilla Deepspeech? . Yo mismo doné mi voz para Mozilla Common Voice , que es utilizado para entrenar a Deepspeech.
@AndresFelipe0402
@AndresFelipe0402 Год назад
Y eso que no has visto lo que hace wav2vec de META que entrena con tan poco como 100 horas y hace lo mismo además de haber salido hace dos años (una eternidad en tiempo de investigación).
@olivervalienteoliva4335
@olivervalienteoliva4335 Год назад
Me encanta tu canal amigo, un contenido muy bueno
@ariel_pedernera
@ariel_pedernera Год назад
Tremendooo. Las aplicaciones posibles que has dicho me parecen que aportarían un valor increíble a la gente!
@armandoemanuelmartingarcia4904
Podria usarse para crear una especie de traductor de idiomas en tiempo real, usando texto y audio
@ernestg7466
@ernestg7466 Год назад
Exactamente, romper la barrera idiomática. Te imaginas? 🤯
@delmo3580
@delmo3580 Год назад
Los idiomas pasarían a ser algo vulgar y sin necesidad de estudiarse
@truman78
@truman78 Год назад
Un audifono conectado con el móvil para que lo procese, pero para eso hace muuucha potencia en un telefono. Faltaran todavía muuuchos años, aunque dada la miniaturizacion de los transistores en los procesadores actuales, no se si será posible... Con un 7G y procesamiento en nube quizás
@thechanotv8202
@thechanotv8202 Год назад
@@truman78 Lo mismo decian hace dos años sobre la generación de imagenes a traves de texto y mira ahora, la gente tiene miedo a que las IAs les quiten el trabajo xd
@BapuGonzalez
@BapuGonzalez Год назад
Métele una canción de Bad Bunny a ver qué manda
@Tami-ib4gi
@Tami-ib4gi Месяц назад
😂😂😂😂😂😂😂😂
@natalifilms8258
@natalifilms8258 4 месяца назад
de todas las busquedas en google y en youtube este fue el unico lugar que me dio luz jajaj gracias me susbribo
@patoliterato
@patoliterato Год назад
Qué bien me viene esto. Mil gracias :)
@mariomendoza5061
@mariomendoza5061 Год назад
Solo vine para decirle al creador de este video que: "No uses la inteligencia artificial para generar violencia contra los animales" (como lo hizo al finalizar este video), ten tolerancia y respeto por los animales porqué no se los puede lastimar y tampoco alentar la violencia contra ellos.
@reencuentrosiempre-u6940
@reencuentrosiempre-u6940 Год назад
Si, eso también me puso muy furiosa!!!, me indignó la actitud de este youtuber contra los animales. Que promuevan la violencia contra los animales usando AI y ademas se atreva a publicarlo en su video con tantas cosas que se puede hacer desperdicia ese tiempo en su video. Como seres humano podemos enojarnos y frusttaenobpero hay que aprender a controlarnos para no dañar a nuestro entorno como a los hermosos animales.
@europeancanon
@europeancanon Год назад
wow! q guay, me suscribo!!
@boladanacara645
@boladanacara645 Год назад
muchisimas gracias, super recomendado el video mi amigo, sin ser un ingeniero en sistemas ni mucho menos siguiendo tus pasos logre hacerlo.
@josanendara324
@josanendara324 Год назад
QUE MARAVILLA MUCHISIMAS GRACIAS !!!!!
@Neurofilia
@Neurofilia Год назад
Me impresiona la facilidad de utilidad y la precisión y flexibilidad del modelo. Buen video !!
@diegobanasco44
@diegobanasco44 9 месяцев назад
Volví después de 10 meses por este video, lo que me ayudo hoy, no tiene nombre
@transcendingvictor
@transcendingvictor Год назад
Videón, gracias por tanto!!!
@raul8445
@raul8445 Год назад
Maravilloso!
@martinbg308
@martinbg308 2 месяца назад
Más que agradecido con el trabajo intelectual y técnico detrás de todo esto. Solo tengo gratitud hacia todos ustedes por esto. 🙌
@LIONTO
@LIONTO Год назад
¡Carlos, muchísimas gracias por la valiosa información!
@cristhianfernandez3764
@cristhianfernandez3764 Год назад
buenisimo amigo muchas gracias por compartir estaba buscando esta herramienta para implementarla en otra herramienta xd Saludos desde Perú
@lisandroalbertoburgues4697
@lisandroalbertoburgues4697 Год назад
Muchas gracias por tu trabajo, me re sirvio.
@cristianhernandez1057
@cristianhernandez1057 Год назад
Disfruto mucho tus videos, si que dominas los temas y lo explicas de maravilla.
@GiancarloSereni
@GiancarloSereni Год назад
Sos un mostrooo. Gracias por compartir el conocimiento
@Eduardo-fx9ih
@Eduardo-fx9ih Год назад
¡una maravilla! gracias por estos valiosos videos
@aitorcalero
@aitorcalero Год назад
¡Muchas gracias por traernos esto! Lo he estado probando y las primeras pruebas que he hecho han salido muy bien. Se me ocurren infinidad de aplicaciones de todo tipo. Por ejemplo, transcribir todos los vídeos de RU-vid y hacer un buscador de texto que nos diga en qué vídeo y minuto se ha dicho eso. Entiendo que en muy poco tiempo todos los teléfonos tendrán esto ya incluido y dictar mensajes sea realmente efectivo. Igualmente, el poder transcribir los insufribles audios de Whatsup a texto directamente.
@javierlucchesi4257
@javierlucchesi4257 Год назад
Muchas Gracias por el Lindo Video!!!!
@DJHUNTERELDEBASTADOR
@DJHUNTERELDEBASTADOR Год назад
Cuando dice que va hacer el tutorial 8:27, Recién mi like 😁😁
Далее
BitNets: La ERA de las REDES NEURONALES  de 1 BIT!
24:04
If __name__ == "__main__" for Python Developers
8:47
Просмотров 383 тыс.
I Made a Neural Network with just Redstone!
17:23
Просмотров 670 тыс.
Clona Tu Voz con IA a CUALQUIER IDIOMA - HeyGen
15:11
Просмотров 345 тыс.
Самый СТРАННЫЙ смартфон!
0:57
Просмотров 34 тыс.