@@lol-js2ow ну я вообще в нейросетях не разбираюсь. Пользуюсь phind, bard и иногда gpt. Единственное неудобство - не могу скормить им свой инди проект чтобы общаться с ними с учетом его контекста (не по работе). Тратить месяц на тесты, скапчивание, гуглинг, перебор всего этого зоопарка, если чел который разобрался может посоветовать или сказать что такого нет - нафиг надо.
Лучшая локальная модель это codelama. Работает хуже и медленней гпт3, но зато на своей машине. Понимает запрос на Рус. Я юзал 34B. Все что меньше совсем плохи. Юзал через lmstudio. По сути софт от н-видиа это копия lmstudio.
@@MitrichDX ну модели на 35b+ параметров выдают неплохой результат вполне, хотя и долго генерят на моей 3060. Кстати отчасти это проблема того что у меня еще оперативки мало, было бы больше 16гб думаю и на 35b параметров нормально крутились бы
@@MitrichDX в лм студио многие модели плохо распознают русский это во-первых. Во-вторых не знаю какие вы пробовали модели, я пробовал несколько моделей на 7, на 13, на 35b параметров (не помню конкретные названия), помню точно пробовал mixtral 8*7b и они все выдавали вполне нормальные результаты? (Я просто хз насколько вы интересовались темой, вы качали модели с наименьшим весом или нормальные версии гигов на 30-40?)
@@wlatol6512 Тестил в LM разные и смотрел результаты на гитхабе - для общения qwen лучше, для написание кода deepseek coder.Я тестил на вопросах на русском, это китайские нейросети они лучше
В целом вариант с загрузкой книг и прочего штука прикольная, я бы просто к папке файлов проекта путь задал =) Хотя наверное в подпапках искать уже она ничего не будет =) Но учитывая слабость удержания контекста как всегда смысл теряется =( Вообще давно было интересно, как самому обучить такую нейросетку под конкретно свои нужды, к примеру только поиск инфы по докам и её систематизация... Возможно ещё парочка дел не сложных, чтобы просто как секретарь работала... Но чую тут либо даже такое ни один комп даже с 4090 и кучей памяти не потянет или будет тупо медленно всё, либо процент тупняков и галлюцинаций будет где-то процентов 90 =)))) В общем либо нужно свою концепцию этих нейросетей нужно придумывать, которая будет более эффективная, либо продолжать пользоваться несравненными if else =)
Предпочитаю LM Studio потому как она позволяет запускать модели через свой сервер, что позволяет подключать модель к моим python скриптам. Но и простой част там тоже есть. Если кто знает ещё проекты, которые позволяют работать с моделями по API, кидайте, думаю всем будет полезно.
@@MitrichDX ну так то да, но на Английском тоже может пригодиться, вот и интересно, вдруг автор тестил, чтобы самому не качать и не распаковывать 40 гигов.
@@Dilfin90 Если ещё интересно, на моем опыте работает криво, закидывал вордовский документ, на 20 страниц, в итоге получил, что на темы в начале документа что-нибудь сгенерироваться может, и то ответ будет ну ооочень кратким, а на темы в конце файла нейросеть машет рукой и говорит, что в тексте про это не написано. Конечно, есть вероятность, что эта ранняя версия плохо работает с вордом или сам файл побился при переводе, русский то не понимает, но описываю свой опыт
@@Dilfin90 изначально да, потом перевел автоматически с помощью deepL, и уже переведенные закинул в нейросеть. сидеть вручную переписывать желания не было
решил установить данное чудо, думал хотя бы запустить смогу. Я его еле скачал на жесткий диск так как памяти не было, но он умудрился додуматься потом разархивироваться на диск с и теперь я страдаю и не могу найти откуда его удалить. Моя беда конечно, что изначально не указал куда его разархивировать, но как его удалить то теперь и куда он эти файлы устанавливал?
да должно ,там требования от 8 гигов памати Windows 11 обязательно.RTX 30 и RTX 40 вчера скачал пробывал на Win 10 накинуть не установилась.upd забыл сказать эта чтука весит 36 гигов
Спасибо за видео! Но, пожалуй, продолжу пользоваться бесплатным gpt 3.5, который не нужно скачивать Кстати, насчёт 3.5. Если уж и выбирать из бесплатного и доступного, то какие модели лучше, представленные в видео или gpt 3.5? Ещё есть бесплатная версия theb ai
Чёрт, я думал никто не будет задевать тему с тем что гпт4 отупела, по крайней мере в бинге. И самый кринж в том, что на стороне серверов отвечают что так и было, и вообще вы всё придумываете XD. Кто-то так же говорил что её дико зафайтнюнили что бы не писала xyйню. Раньше как было? Бинг начинает писать запрещёнку без особых сопротивлений, а какая-то нейронка сверху кроет его медным тазом. Сейчас этой подстраховки сверху нету, сразу основная нейронка фильтрует контект, от чего и отупела жёстко. Жду очень LLaMa 3 что бы получить уровень, как минимум, 3.5. Не верю что 70-120B параметров смогут достичь уровня четвёрки, как заявляли в мете.
На самом деле, самые стабильные резулуьтаты именно для общения надо запускать на CPU. На GPU хорошпя скорость для анализа и сугубо вычленения информации из предоставляемых файлов.
@@nikolaydd6219 Ты точно прочитал, что я написал? Да, на GPU будет работать быстрее, но качество генерации при этом будет адски хромать, потому что полностью водрузить модель хотя бы с 13B параметрами без компрессии и обрубков в видеопамять с большим контекстом и высоким уровнем креативности тебе понадобится 20Гб VRAM + еще 4-8Гб при изначальной подгрузке контекста и обращения к нему. И если так получается, что модель бьётся в горло и впритык помещается в VRAM GPU, то никакого "насыщенного" и "внятного" контекста у тебя не будет, а будет обычная модель-дурашка, способная лишь выполнять базовые запросы по типу instruct. Да, скорость генерации будет роскошная, чего для анатики/обобщения данных хватает с головой. Но для полноценного, мимикрирующего под человека, разговора с моделью нужно баснословное кол-во памяти. И так уж получается, что GPU с 8Гб/12Гб/16Гб VRAM оказываются в пролёте. А вот если ты загрузишь даже тот же 7B Mistral через CPU в RAM (которой легко много поставить и недорого), то да, скорость будет НИЖЕ (от CPU и скорости RAM зависит), но качество генераций будет КРАТНО выше, потому что модель с полным контекстом вполне комфортно полностью разместится в RAM. Можешь сам сравнить. Попробуй поговорить с моделью на GPU и CPU с огромным контекстом и большим кол-вом токенов на генерацию. Модель в VRAM GPU всегда будет выдавать односложные ответы, редко их креативно менять, даже если выставить очень высокую температуру, но зато будет выдавать ответы максимально быстро. На CPU + RAM ответы могут быть большим и креативными, ты можешь их бесконечно регенерировать и модель всегда будет выдавать новые и интересные интерпретации уже озвученных опций. Т.е GPU = максимальная скорость генерации для работы с большими массивами данных, где нужна сугубо аналитика, CPU = максимальное качество генераций и большой контекст.
@@nikolaydd6219 Ты точно прочитал, что я написал? Да, на GPU будет работать быстрее, но качество генерации при этом будет адски хромать, потому что полностью водрузить модель хотя бы с 13B параметрами без компрессии и обрубков в видеопамять с большим контекстом и высоким уровнем креативности тебе понадобится 20Гб VRAM + еще 4-8Гб при изначальной подгрузке контекста и обращения к нему. И если так получается, что модель бьётся в горло и впритык помещается в VRAM GPU, то никакого "насыщенного" и "внятного" контекста у тебя не будет, а будет обычная модель-дурашка, способная лишь выполнять базовые запросы по типу instruct. Да, скорость генерации будет роскошная, чего для анатики/обобщения данных хватает с головой. Но для полноценного, мимикрирующего под человека, разговора с моделью нужно баснословное кол-во памяти. И так уж получается, что GPU с 8Гб/12Гб/16Гб VRAM оказываются в пролёте. А вот если ты загрузишь даже тот же 7B Mistral через CPU в RAM (которой легко много поставить и недорого), то да, скорость будет НИЖЕ (от CPU и скорости RAM зависит), но качество генераций будет КРАТНО выше, потому что вся модель с полным контекстом спокойно поместится в RAM. Для эксперимента попробуй сравнить, насколько качественные ответы выдаёт модель при беседе на GPU, а затем на CPU. Результат тебя очень сильно удивит. Можешь ту же Mistral 7B выбрать и поговорить с ней какой-то время, а затем попробовать регенерировать ответ раз 10-20 подряд. На GPU тебе будет вылетать всегда +/- один и тот же ответ с незначительными изменениями в 1-2 токена. На CPU ответы будут стабильно креативно меняться вплоть до изменения структуры ответа и его исхода (согласие/не согласие, попытка увести тему беседы в другое русло/нежелание отвечать/встречный вопрос).
хмм вчера на ночь оставил скачиваться сегодня смотрю, вместо 35гб на диске 15 гб, да еще и половины файлов как на видео в папке нет мда ну и ладно, все равно, на мою 2080 вроде как не пойдет, хотя тогда непонятно, какого хрена делает РТХ в названии 🤨
С горем пополам. Мистраль сама что-то может понять и даже выдать на русском, а вот все преимущества в виде анализа файлов и видеороликов не работают. В консоли покажется, что файл на русском как бы обрабатывается, эмбединги создаются, но в итоге на любой вопрос нейронка скажет, что в файле про это не говорится. С английским, если честно, пока тоже не особо, только что сравнительно большой документ на английском скормил нейронке, в итоге по началу текста она что-то ответить смогла, а вот на вопросы на темы, что в конце файла уже говорила, что контекста об этой информации нет. Так что пока альфа сырая. Конечно, есть возможность, что файл побился при переводе, переводил не вручную, с помощью deepL