Тёмный

Запуск Llama 405b на своем сервере. vLLM, docker. 

Виталий Кулиев
Подписаться 4,8 тыс.
Просмотров 8 тыс.
50% 1

Опубликовано:

 

15 сен 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 102   
@kuliev.vitaly
@kuliev.vitaly 9 дней назад
github.com/kulievvitaly/rus_gpt_demo/blob/master/benchmark.py Вот ссылка на бенчмарк. Выкладывайте скорость работы на ваших серверах)
@htonych
@htonych 13 часов назад
Как раз то что искал, спасибо
@yuliyabuynovsky1124
@yuliyabuynovsky1124 19 дней назад
Нереально кайфанул от просмотра, пожалуйста, продолжайте.
@usssername5838
@usssername5838 2 дня назад
Хочу присоединиться к комментарию! Какая-то часть непонятна из-за того, что не погружен в предметную базу, но общий концепт понятен. Три видео посмотрел на одном дыхании. Даже чувство такое приятное появилось, что ютуб может быть не только свалкой тик-ток видео)))
@kobalt17
@kobalt17 20 дней назад
Давай больше такого! прям класс!
@Zeroxzed
@Zeroxzed 10 дней назад
Хорошее видео. Ничего не знаю, про эксплуатацию нейросетей, но было интересно посмотреть на технические нюансы.
@DenShustrik
@DenShustrik 9 дней назад
Хотел домой а100 купить 4 шт., глянул на такую смешную цену за одну шт. в 2 299 456 руб., вышел на улицу размышлять о жизни.
@inva-life
@inva-life 2 дня назад
а на 4080 не пойдет?
@kuliev.vitaly
@kuliev.vitaly 2 дня назад
Нет) нужно четыре карты a100 или h100
@user-ku4nn5pw8p
@user-ku4nn5pw8p День назад
огонь
@steamcirl542
@steamcirl542 18 дней назад
Виталий, в следующий раз когда захочешь потратить два косаря. Просто сообщи об этом - к тебе набегут в несколько потоков сказки про зеленых крокодилов генерировать. Искренне надеюсь, что твоя идея окупилась
@kuliev.vitaly
@kuliev.vitaly 18 дней назад
Это небольшая цена для теста столь мощного сервера) бенчмарк многопоточный я запускал.
@ПавелМинич
@ПавелМинич 20 дней назад
Спасибо! Возможно интересный результат был бы с набором гпу-стэка из Тесла А2: модель всего на 16 Гб, но и стоит всего 16р, таким образом на добор того же объема надо 20 таких карт и это будет стоить меньше чем даже одна Н100 (20 карт * 16р = 320р). Проверим?
@kuliev.vitaly
@kuliev.vitaly 20 дней назад
Да интересный вариант. Только количество карт в vllm должно быть кратно 2. Можно собрать сетап из 16 a10 на двух или четырех нодах. Будет чуть дороже, но и мощнее.
@inva-life
@inva-life 2 дня назад
​@@kuliev.vitalyесть 6 шт. gtx4080. мало?
@Reklamnij_effekt
@Reklamnij_effekt 20 дней назад
800 руб/час, это нужно прям очень серьёзные потребности иметь, чтобы за более худшую модель платить конские деньги🙂
@kuliev.vitaly
@kuliev.vitaly 20 дней назад
Это актуально, если нужна приватность или запуск на своем железе.
@mishanya1162
@mishanya1162 20 дней назад
Это вроде сейчас лучшая опенсоурс модель Явно она не стоит рядом со всякими гпт4 и клодами, но все же Ну кстати, по бенчмаркам она довольно близка к закрытым моделям
@internetnickname8923
@internetnickname8923 19 дней назад
Возьми свои данные, дообучи за 800/руб в час и получи свою лучшую модель за копейки по сравнению с затратами крупных ИИ компаний
@podvodnikk4562
@podvodnikk4562 18 дней назад
любая разработка, сколь-либо новая с запросами сразу утекает поставщику услуги. В этой парадигме любые расходы мизерны. Риск менеджмент, однако
@user-cv1lp2ql2y
@user-cv1lp2ql2y 15 дней назад
​@@kuliev.vitalyвот вы и в названии и здесь опять вводите в заблуждение, не на своем сервере, а на дядином за 600 к в месяц. Свой это когда под боком стоит.
@pixniteofficial5085
@pixniteofficial5085 6 дней назад
запишите видео про runpod как там подрубаться к api
@1234mifa
@1234mifa 7 дней назад
Запустил на ПК модели 8б и 70б,на видеокарте 3060 12 Гб. Вторая версия разумеется работала со скрипом но не об этом речь) теперь хотелось бы как-то интегрировать работу нейронной сети в свой код, в тот же питон. Спросил об этом саму сеть она предложила вариант через некую библиотеку rasa , но в итоге у меня не получилось. Хотелось бы увидеть пример. К вопросу "а зачем это надо" скажу, что модно было бы накрутить обёртку которая позволила общаться с моделью голосом и а так же предоставить ей возможность запускать что-то на ПК.
@kuliev.vitaly
@kuliev.vitaly 7 дней назад
я использую pycharm и плагин codegpt.
@1234mifa
@1234mifa 6 дней назад
@@kuliev.vitaly я увидел что вы всё-таки используете сервер и готовый плагин. Я же говорю о более упрощённом варианте, это локальный ПК и запуск желательно из терминала.
@kuliev.vitaly
@kuliev.vitaly 2 дня назад
На локальном ПК можно запустить нейросеть в режиме openai совместимого сервера. Плагин настроить на взаимодействие с локальным сервером. Vllm позволяет это сделать
@meroniuss
@meroniuss 10 дней назад
Классно! Большое спасибо за обзор. Еще хотел уточнить. А какие минимальные требования должны быть к серверу чтобы запустить на нем llama 405? Так же на 0:20 в списке фигурирует GPT-4o mini. стоимость ее API составляет $0.60 за 1 M токенов. Получается если нужна API, то дешевле будет использовать GPT-4o mini. Так получается?
@kuliev.vitaly
@kuliev.vitaly 10 дней назад
Да. Если не требуется огромного количество запросов и нет требований к приватности данных, то дешевле использовать API сервисы.
@usssername5838
@usssername5838 2 дня назад
Не подскажете, на vscode есть аналог codegpt? Расширение с таким же названием есть, но кажется оно не позволяет кастомную нейросеть прикрутить.
@kuliev.vitaly
@kuliev.vitaly 2 дня назад
Не знаю
@sdpsdp123dfs
@sdpsdp123dfs 17 дней назад
Очень интересное видео. Расскажите, пожалуйста, какие данные обычно загружают при использовании такой нейросети? Цена за месяц немаленькая, интересно, что нейросеть должна сделать с данными, чтобы окупить затраты на сервер? Может быть у вас есть реальный пример использования?
@kuliev.vitaly
@kuliev.vitaly 17 дней назад
Пара примеров: 1. разметка большого количества данных, которые ранее размечались в Толоке людьми. Стоимость ниже в разы, а качество ответов сравнимое. 2. Генерация контента для сайтов - замена рерайтеров.
@wirtdonners4212
@wirtdonners4212 17 дней назад
​@@kuliev.vitalyтак себе задачки, если честно. Масштаб мышиной возни при таких мощностях. А сайты со сгенерированным контентом читать противно.
@АлексейСвищев-н7к
@АлексейСвищев-н7к 14 дней назад
@@wirtdonners4212 можно базы знаний вести, графы онтологические строить, автоматизировать многие процессы в организации, произвести даджитализацию навыков сотрудников (которую в обычных условиях не произведешь), львиную долю кастуМЕРЗКОГО обслуживания автоматизировать. Но как по мне 405В для таких задач - оверкилл. Она слишком дорого обходится и оборудования дорогого требует. Для таких целей модели до 70 млрд параметров подойдут (их можно запускать на оборудовании, которое стоит на порядок дешевле, например квантованная 70b модель залезает на 24 гб 4090, сервера с которой в 10 раз дешевле серверов с а100 аналогичной производительности). Варианты есть опенсорсные. Либо слать свои данные на чужие API. Это а разы дешевле. Но не всегда возможно и не всегда приемлемо. Хотя запуск "голой" модели - это пол-беды. Вокруг нее нужно много всякой обвязки делать. Это интеллектуальное ядро группы сервисов, а не готовое решение для любых проблем. Построение и поддержка этих сервисов - дороговато будет стоить. Либо самому учиться и повышать стоимость своего дела.
@grandlagging0zero175
@grandlagging0zero175 19 дней назад
Мне показалось или справа 3:17 стоимость сервера в месяц 600к=?????
@kuliev.vitaly
@kuliev.vitaly 19 дней назад
Верно. 800р в час с посекундной тарификацией столько и будет стоить. Если сразу от месяца снимать, то есть скидки до 50%. Серверные видеокарты дорогие сейчас. Высокий спрос определяет стоимость видеокарт и на фоне этого капитализация nvidia рекордная.
@grandlagging0zero175
@grandlagging0zero175 19 дней назад
@@kuliev.vitaly разве тогда не выгодней завести свой сервер? возможно стоит рассмотреть вопрос экономики нейросетей в отдельном видео? было бы классно такое узнать!
@kuliev.vitaly
@kuliev.vitaly 19 дней назад
Одна видеокарта nvidia A100 80ГБ стоит 1.5-2.0млн рублей. Серверные видеокарты дорогие и 300к(600к -50%) такой сервер с 4gpu стоит. Есть игровые видеокарты - они дешевле, но у них есть свои огранечения.
@grandlagging0zero175
@grandlagging0zero175 19 дней назад
@@kuliev.vitaly вау...вот это они стоят конечно :( теперь мне стало даже интереснее посмотреть видос про экономику с доступом к таблице Excel, где будут все данные :)
@sovenok-hacker
@sovenok-hacker 15 дней назад
@@kuliev.vitaly С использованием GGML-квантизации можно на обычных, не серверных запустить думаю
@user-cx5zy9pq4e
@user-cx5zy9pq4e 18 дней назад
А можете команды все выложить по запуску? Заранее благодарю!
@kuliev.vitaly
@kuliev.vitaly 18 дней назад
Там просто докер установить нужно. В планах есть видео про vllm - там детальнее могу показать
@Sergey_Bobrov
@Sergey_Bobrov 17 дней назад
А какая тут приватность, если все твои данные уходят на чужие сервера, это тоже самое, что использовать API. Приватно только на своем железе.
@kuliev.vitaly
@kuliev.vitaly 17 дней назад
Верно. Этот же самый тест есть возможность запустить на своем железе.
@wirtdonners4212
@wirtdonners4212 17 дней назад
Ну по крайней мере это ваш арендованный сервер. Вы на него логинитесь и можете использовать VPN. А вообще вы можете зашифровать разделы на сервере. Да, доступ теоретически возможен и в этом случае, но это уже только целенаправленный интерес в вашу сторону.
@wirtdonners4212
@wirtdonners4212 17 дней назад
В любом случае это лучше црушного гугла
@vandriichuk
@vandriichuk 19 дней назад
А можно ли добавлять там защиту эндпоинта, чтобы только я могу туда стучаться? И еще вопрос - а есть у Вас опыт дообучения моделей под свои задачи на своих данных? Если есть, не планируете ли записать видео? )
@kuliev.vitaly
@kuliev.vitaly 19 дней назад
Опыт есть, видео планирую)
@kuliev.vitaly
@kuliev.vitaly 19 дней назад
Возможно защита через ключ есть. Посмотрите Документацию
@wirtdonners4212
@wirtdonners4212 17 дней назад
Докиньте на сервер VPN и будет щастя.
@AlexP-fg3ci
@AlexP-fg3ci 15 дней назад
Поясните пожалуйста за тарификацию. Например я арендовал и настроил такое чудо для своих личных экспериментов/работы, поигрался пару часов и закончил. Есть ли возможность не платить за простой? Типа потушил машину и пошел спать/гулять не боясь за свой кошелек. Это отчасти оффтоп, но всё равно буду благодарен если разъясните
@kuliev.vitaly
@kuliev.vitaly 15 дней назад
Да, основная цена(около 800р в час) списываться не будет. У immerse cloud и других провайдеров останется плата за диск порядка сотни рублей в месяц. В любой момент можно снова запустить машину с этим диском и видеокартами. Также можно удалить диск и списания исчезнут. При новом заказе машины она будет пустая и нужно будет с нуля установить библиотеки и скачать веса.
@AlexP-fg3ci
@AlexP-fg3ci 14 дней назад
​​​@@kuliev.vitaly спасибо! Продолжая оффтопить хотел бы спросить есть ли у вас в планах рассказать как скармливать нейронке свои данные? Например код проектов Файнтюн (например qlora) vs rag. В идеале с примерами как в этом ролике и разъяснением преимуществ/недостатков и попутных затрат на это добро)
@kuliev.vitaly
@kuliev.vitaly 14 дней назад
В планах есть видео про файнтюнинг(не для RAG) и про RAG системы.
@AlexP-fg3ci
@AlexP-fg3ci 14 дней назад
@@kuliev.vitaly спасибо! Будем с интересом ждать) Коммента нет, потому что Ютуб иногда удаляет их без видимой причины :/
@donkarleone7336
@donkarleone7336 5 дней назад
Видео годное! Но есть нюансы. Т е. Цукер как обычно нае@ал, чтобы развернуть нейронку, надо баблишко на сервер, но у таких энтузиастов (новичков), как я, запросов данных и обработки, нет таких масштабов и загруженности, т е дешевле заплатить на месяц абонплату и решить свои мелкие задачи. А еще за свои деньги обучать ее, то цукер, тут нагнул всех. Бесплатное улучшение его продукта, чтобы через пару лет сделать его коммерческим и конкурентным. А я тут губу раскатал, что потрачу время и вближайшие годы облегчит жизнь и оптимизируеь мое время, а тут з@лупа.
@kuliev.vitaly
@kuliev.vitaly 5 дней назад
бери 70б или 8б нейронку, которую сможешь на своем железе запустить.
@astroiLL2010
@astroiLL2010 18 дней назад
Утилиту nvtop не используете? Очень наглядно нагрузку GPU смотреть.
@kuliev.vitaly
@kuliev.vitaly 18 дней назад
nvidia-smi привычнее)
@sainthentai7763
@sainthentai7763 20 дней назад
УУ он даже выпустил как такое запустить на своем серваке)
@Nyyuuii
@Nyyuuii 19 дней назад
Можно ли запустит версию на 40 гиг на своем компе? Комп: GTX 1070. 2x 8gig озу
@kuliev.vitaly
@kuliev.vitaly 19 дней назад
Нет. Хотя бы в оперативку нейросеть должна поместиться. Используй АПИ для доступа к нейросети.
@user-qd4vk2ew6k
@user-qd4vk2ew6k 20 дней назад
Познавательно! А как дообучить ИИ на своих данных? Например, есть 10000 документов с разными шаблонами оформления., как сделать, чтобы он оформлял текст исходя из этих шаблонов? Говоришь ему - составь договор по такому то типу номер 25. Не хочется каждый раз прикреплять эти тысячи шаблонов, хочется один раз подгрузить их и чтобы он запомнил это. Такое возможно?
@kuliev.vitaly
@kuliev.vitaly 20 дней назад
Дообучение возможно, но сложно сделать так, чтоб нейросеть отвечала, как тебе нужно. Для твоей задачи есть RAG система. Планирую видео про RAG записать.
@user-qd4vk2ew6k
@user-qd4vk2ew6k 20 дней назад
@@kuliev.vitaly да было бы интересно посмотреть как это настроить, и сколько своих данных максимаьно можно добавить. Например если документов много - 10гб, это вообще возможно или нет...
@kuliev.vitaly
@kuliev.vitaly 20 дней назад
Это только практика покажет.
@Parsecter
@Parsecter 19 дней назад
​​​@@user-qd4vk2ew6k документы токенизируются и токены добавляются в векторную базу. Потом вместе с запросом к LLM к этой базе делается запрос в векторную базу и ответ примешивается к запросу к LLM. Т.е. да, работать будем, но к качеству тут уже надо пробовать разные токенезатроры, способы делить данные и пр. Как сказано выше, тут уже практика
@createforpeople
@createforpeople 12 дней назад
Когда печатаешь x2, потому что 800р/час 😅
@vitall789
@vitall789 20 дней назад
Что действительно для генерации одного токена, нужно пройти все веса?
@kuliev.vitaly
@kuliev.vitaly 19 дней назад
Да. так устроены llm
@rybiizhir
@rybiizhir 19 дней назад
Неплохо, а можно это использовать для генерации исходного кода?
@kuliev.vitaly
@kuliev.vitaly 19 дней назад
Да. Я использую плагин codegpt для pycharm.
@АлексейСвищев-н7к
@АлексейСвищев-н7к 14 дней назад
Athene-70B будет раза в 3 - 4 дешевле за токен, да и вообще, для нее а100 не обязательно, можно и на 4090 запускать. Это в разы дешевле. Можно даже не арендовать, а разориться на свой сервер за 300-400 к (а не 4-5 млн за А100 и иже с ними). А по качеству она 405B в большинстве задач не уступает. При этом в диалоге и следовании инструкций даже лучше будет.
@kuliev.vitaly
@kuliev.vitaly 14 дней назад
Athene-70B это дообученная llama 3 70b. У нее контекст 8к. Llama 405b по качеству явно лучше будет и контекст у нее 128к. С другой стороны 70b моделей для многих применений достаточно. Квантизация от 4 бит. Для минимального запуска достаточно 2 карт уровня 3090/4090.
@АлексейСвищев-н7к
@АлексейСвищев-н7к 14 дней назад
@@kuliev.vitaly в 4 бита на одну влезает. Там вопрос длины контекста и необходимого количества токенов в секунду. Сейчас целый ряд фреймворков разрабатывают, в том числе опенсорсных, для удобного сайзинга LLM на несколько дешевых GPU или TPU. Athene дообучена в RLHF и лучше справляется со сложными промптами, лучше следует инструкциям и ведет себя в диалоге. Вообще большинство выложенных моделей чудовищно недообучены на инструктивных данных. Добавление синтетических инструкций в обучение - один из основных способов улучшения моделей сейчас. Потенциал у 405b выше, но в реальных задачах его будет трудно выжать. Лучше приложить несколько десятков человекочасов усилий и настроить работу 70b (включая легкий тюнинг), чем мучиться с более универсальной но по сути неповоротливой 405b. Я бы ее только для генерации данных использовал для тюнинга других моделей. В кастумерЗких задачах - это сорить деньгами.
@kuliev.vitaly
@kuliev.vitaly 14 дней назад
4 бита 70b модель весит в районе 38-40гбайт. Для игровых карт 3090/4090 видеопамять 24гб. Без выгрузки в оперативку модель на видеокарту никак не влезет.
@АлексейСвищев-н7к
@АлексейСвищев-н7к 14 дней назад
​@@kuliev.vitaly комбинация GPTQ и GGML или GGUF с подгрузкой. Конечно, это замедляет, но жить можно. Примерно 20гб потребляет видеопамяти. GPTQ формат в "честном" 4бит GPU инференсе где-то 40гб съест. Ждем карточки кастумерские на 40+ гб. Очень. Пока можно на 2ух 4090 крутить или гибридно. Но в гибриде просадка по токенам будет большая, в 2-3 раза.
@kuliev.vitaly
@kuliev.vitaly 13 дней назад
по слухам 5090 будет иметь 28гб. нвидии не выгодно делать много оперативки в игровых картах - им выгодно продать эту же самую карту по цене серверной.
@sainthentai7763
@sainthentai7763 20 дней назад
хочу быть мидл разработчиком, да блин просто челом с зп в 100-200к для такого веселья)
@wirtdonners4212
@wirtdonners4212 17 дней назад
100к не хватает, братан. Я проверял😂😂😂.
@holingdev1737
@holingdev1737 18 дней назад
За минимальную версию 600к в месяц... Меня жаба душит vps за 400 рублей для vpn покупать в месяц 😅
@vadmit2227
@vadmit2227 18 дней назад
если бы ты работал с организациями - другой разговор был бы...
@kuliev.vitaly
@kuliev.vitaly 18 дней назад
Если нужен впн, то у меня есть телеграм бот для этого случая. t.me/hour_vpn_bot
@lortta
@lortta 6 дней назад
Какие характеристики нужно для него
@kuliev.vitaly
@kuliev.vitaly 5 дней назад
4x A100
@дикий-ь2с
@дикий-ь2с 19 дней назад
Здравствуйте. А как вызывать через api, есть какая-то обертка?
@kuliev.vitaly
@kuliev.vitaly 19 дней назад
github.com/openai/openai-python
@ParadiseIn-c6m
@ParadiseIn-c6m 15 дней назад
И зачем это нужно? 200 гб видеопамяти.... Чтобы обмениваться туповатыми фразами с роботом? Совершенно бесплатно использую GPT когда мне это нужно...
@kuliev.vitaly
@kuliev.vitaly 15 дней назад
значит тебе не нужно
@ParadiseIn-c6m
@ParadiseIn-c6m 14 дней назад
@@kuliev.vitaly абсолютно...
@phat80
@phat80 19 дней назад
Знает, что для РФ недоступно должно быть все это и все равно лезет… не люблю наглых людей.
@jijiDwuv
@jijiDwuv 19 дней назад
Чё 😂
@kuliev.vitaly
@kuliev.vitaly 19 дней назад
LLama открыта для всех в том числе для России. Никаких ограничений нет.
@phat80
@phat80 19 дней назад
@@kuliev.vitaly Но сам говорит, что если вам недоступно скачивание, скачивайте через VPN.
@phat80
@phat80 19 дней назад
@@kuliev.vitaly Перепроверил, скачивание Llama 3 закрыто для РФ и Китая. И не просто так.
@wirtdonners4212
@wirtdonners4212 17 дней назад
Ты ещё скажи, что виндой пирацкой пользоваться нельзя?!
Далее
Doors Harpy Hare (Doors 2 Animation)
00:16
Просмотров 869 тыс.
Run Llama3 70B on GeForce RTX 4090
0:43
Просмотров 4,1 тыс.
Vinchin - Backup система для ВСЕГО!
31:54
Как собрать домашний сервер
29:29
Что такое Docker?
6:50
Просмотров 298 тыс.