No video :(

Qué equipo necesito para generar textos rápidamente en local con Llama-2, Mistral, etc.

Подписаться 16 тыс.

Просмотров 8 тыс.

50% 1

En este vídeo vamos a descubrir cuál es el principal factor para determinar la velocidad de creación de texto en distintas plataformas. Compararemos el potencial de las tarjetas RTX, las CPU Intel o Ryzen y ordenadores más modestos como las Raspberry Pi.

Опубликовано:

28 авг 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 41

@inteligenciafutura 4 месяца назад

Yo con mi rtx 3060 y 32 gigas de ram funciona de maravilla

@LaHoraMaker 4 месяца назад

Genial! Gracias por compartir tú experiencia

@code_1988 Месяц назад

Que bien se escucha el audio , felicitaciones por mejorar el equipo , saludos

@patagonia4kvideodrone91 20 дней назад

muy buen video, yo uso una 2060 con º1gb y va de maravillas con ia, con 64gb de ram,he corrido casi todo lo que sale en ias.

@teloensenoen3minutos2023 8 месяцев назад

Que bueno que llego el Vikingo de los Hobbit con este video ... Muchas gracias🎉

@LaHoraMaker 7 месяцев назад

¡Resonarán desde Isengard hasta la Comarca las huellas de los makers!

@DedicatedLeon 6 дней назад

Excelente video! Me lo encuentro justo cuando lo necesitaba. Me quedaron un par de dudas que espero me puedas ayudar a resolver: ¿Que hay de las tarjetas de amd? ¿Podría usar por ejemplo dos rx 7600xt para tener 32vram o no se suma la vram ni los gbps de ambas? 🤔

@pablobandeira5461 4 месяца назад

EXCELENTE VIDEO, GRACIAS!!

@aguijon6 9 месяцев назад

Muchas gracias por esta info tan práctica y accesible para gente que tenemos un entendimiento básico pero no hemos tocado nada todavía . El primer lote de SBC de Rockchip serán dentro de poco enviados a los usuarios “corrientes”. Sólo los desarrolladores o influencers VIP habrán tenido acceso ya a esta plataforma, el RK1. El modelo tope fue finalmente de 32GB, pero esta versión se está retrasando por los problemas de abastecimiento de chips de memoria, por lo que en el momento de salida, el modelo más grande va a ser de 16GB. Tal como está el desarrollo ahora, parece que los modelos deben adaptarse/transformarse al formato de la SDK propia que usan los Rockchip, no tienen port nativo estándar, aunque mi conocimiento de esto es casi nulo.

@LaHoraMaker 9 месяцев назад

Justo he aprovechado la promo del 11.11 para comprar una Orange Pi 5 Plus con RK3588 y 16 Gb de RAM. Vi también equipos de 32 Gb pero se agotaron relativamente rápido. La placa también era un 30% más cara que el modelo de 16 Gb y opté por el modelo más común, ya que asumo que no todo el mundo va a poder conseguirlas. A esto habría que sumarle que parece que el cuello de botella de la placa está en el acceso a la memoria, así que aunque le meta más, el rendimiento tampoco debería mejorar sustancialmente. En cuanto llegue, nos ponemos manos a la obra!

@aguijon6 9 месяцев назад

@@LaHoraMaker no sabía que la Orange Pi 5 también usa ese SOC. En mi caso tengo encargado de hace tiempo el Compute Module de Turing RK1 con 16 GB. Parece que tiene mismas especificaciones fundamentalmente, pero en mi caso es para insertarlo en una placa Turing Pi 2 con otros CM. Este Turing RK1 todavía no ha empezado su vida comercial, y me llegará en la primera tanda de precompras.

@RichardKroebel 6 месяцев назад

Magnifico, muchas gracias.

@LaHoraMaker 6 месяцев назад

Gracias por comentar

@armalo123 8 дней назад

Buen día estimado hora maker, que modelo puedo correr con QUADRO p6000, 64 ram, xeon e5-2699. He usado este cpu para tender de arquitectura ,pero quisiera instalar algún LLM.

@TheBeachLab 9 месяцев назад

Cesar tienes un programa tentativo de los temas que vas a ir tratando? Estuve mirando los modelos TheBloke pero hay tantos que me suena a chino todo. Ayer probé el DeepSeek Coder y me gustó bastante. Estoy aprendiendo mucho con tus explicaciones!

@LaHoraMaker 9 месяцев назад

Tengo claros los temas y la dirección, pero todavía no tengo lista definitiva. En cualquier caso, me sirve mucho el feedback para preparar videos específicos... como el de hoy!

@zonadock 3 месяца назад

Gracias, César. Me encantan tus vídeos. Una duda. Es un poco enrevesada. Sabes por casualidad si se podría utilizar la API en alguno de estos modelos que tengamos en el ordenador, para usarlos con un Agente IA en Make, Zapier o n8n con HTTP Request, en vez de utilizar los que hay por defecto de Openai.

@estuardocelis5344 28 дней назад

¿qué seria más importante actualizar, el cpu ryzen (primera generación el más básico o la tarjeta de video gtx 570 ? la tarjeta madre acepta hata pci3.0 y acepta el cpu más potente am4 axistente. Gracias

@carlosleon8806 5 месяцев назад

Genial!

@LaHoraMaker 5 месяцев назад

Gracias por tu comentario

@nippicorgi4615 19 дней назад

Después de ver este video me siento afortunado de poder acceder en la oficina a una rtx 4080 súper, y si, esa tarjeta de vídeo con 16 gb de Vram va más rápida que el mismo chatgpt en su página web, stable difusión también vuela mientras no se haga uso de scalers 4k o así. Y pensar que el que tiene esa tarjeta en su máquina ( el gerente ) solo la usa para word, excel y ver RU-vid 😂😂, pero afortunado que yo siendo el de sistemas puedo por medio de una sesion ssh andar trasteando a través la red local. Definitivamente ese potencial de procesamiento no puede desaprovecharse 😂😂

@ValeriusSnow 2 месяца назад

tengo 2 A100, supongo que me serviran :D

@eramacom 3 месяца назад

Tengo un Rig con 6 placas, se puede configurar para usar las 6 placas dedicadas a correr estos modelos?

@c00314 9 месяцев назад

@LaHoraMaker Buenas tardes, me gustaria empezar desde casi cero y querria que me recomendaras un hardware para seguir tus tutoriales. He visto que te has comprado una Orange Pi, me valdría tambien una Firefly con una ROC-RK3588-RT?

@LaHoraMaker 9 месяцев назад

Si tienes un equipo de sobremesa medianamente decente, te recomendaría comprar mejor una NVidia RTX2060 de 12 Gb o una 3060. No vas a encontrar mucha diferencia de precio o rendimiento entre ambas. Los SoC RK3588 pueden correr los modelos pero es todo mega experimental y no demasiado rápido. Con la NVIdia vas a poder hacer muchísimas más cosas.

@andreszabala256 4 месяца назад

Si consigo un equipo con 64 gb de ram y una 3090 que modelo me funcionaria bien?

@LaHoraMaker 4 месяца назад

Con esa configuración vas a poder ejecutar quantizados modelos como Mixtral 8x7B en Q3 o Command-R de 34B en Q4 usando Ollama

@andreszabala256 4 месяца назад

Muchas gracias por responder

@bryanvillalobos757 14 дней назад

@@LaHoraMaker me pregunto como se puede calcular la concurrencia de solicitudes?

@zensack7310 5 месяцев назад

Hola tengo una 3080, en una maquina con una ryzen 5 5600x 32Gb de ram, instale el chat de oobagooba, cual modelo de los de sin censura los de mixtral y configuración podría usar para sacarle mayor rendimiento, me conformo incluso con 5/10 tokens por segundo la verdad. por cierto tengo python 3.10.6 deberia actualizarlo? gracias

@LaHoraMaker 5 месяцев назад

Los modelos Mixtral requiren mucha VRAM. En cuantización Q4, vas a necesitarr 26 gigas entre RAM y VRAM. Yo con una 3090 estoy corriendo Q3 y no va del todo mal, aunque requiere también mucha memoria. Te recomendaria para la 3080 algún modelo tipo Solar, que da muy buenos resultados y requiere menos recursos.

@zensack7310 5 месяцев назад

@@LaHoraMaker Hola gracias por tu respuesta logré hacerla funcionar rápido, no se si es un bug pero mi 3080 de 10Gb corre modelos que pesan 10Gb en el discoduro, Q4, Q5 yo cargo el modelo y va lentísimo, 1 tks/s pero si recargo el modelo varias veces asi sin sentido solo pulsar recargar cambiando la cantidad de layers, para al final dejarlo en 33 layers, ya luego me genera 33 tks/s y lo he probado varias veces y asi lo soluciono es como si el WEBUI no cargase bien todos los parametros a menos que hagas reload varias veces seguidas. 🤔

@raulgarciarodrigo 6 месяцев назад

Creo que con las rpi 5 subimos a 30 GB/S...

@LaHoraMaker 6 месяцев назад

¡Genial noticia! ¿Tienes localizado algún benchmark al respecto? Gracias de antemano!

@carlosarturo1878 Месяц назад

eres muy caro en tus explicaciones, no hablas carreta, de admirarrrrrr

@joanalgarate4912 7 месяцев назад

Yo tengo un i7 6700k con oc a 4.6 y tengo 2,7 tokens por segundo con mixtral de 39gb con ddr4 a 2400

@LaHoraMaker 7 месяцев назад

Gracias Joan por compartir tu configuración! Imagino que puedes correr también con modelos sin problemas, siempre que sean de tamaño menor a tu RAM (¿64 Gb?)

@joanalgarate4912 7 месяцев назад

@@LaHoraMaker si, tengo 64gb. El equipo es de época y va a su ritmo, todo lo que sea menor se lo traga "bien"

@carlosgaliana4018 5 месяцев назад

@@joanalgarate4912 solo usas cpu? estoy indeciso y quiero montar un equipo, pero me gustaria moverlo todo con cpu estoy mirando un amd 5950x

@joanalgarate4912 5 месяцев назад

@@carlosgaliana4018 si, solo cpu. Te irá bien, esa cpu le da 1000 vueltas a la mia. Metele mucha ram, mínimo 64gb

@a0z9 4 месяца назад

Los moletos grandes matan el rendimiento. Solución, modelos pequeños entrenados en lagares específicos de datos. La mezcla de expertos y los agentes colaborativos son la forma de plantar cara a las grandes corporaciones que tienen el dinero por castigo.