Тёмный

Где взять данные для предобучения LLM - Анатолий Потапов, Тинькофф 

Желтый AI
Подписаться 1,9 тыс.
Просмотров 8 тыс.
50% 1

Вы вдруг решили, что вам недостаточно LLaMA-2 и вы очень хотите сделать свою LLM. Где взять данные для предобучения? Большая часть проблем в воспроизведении результатов ChatGPT лежит именно в данных для предобучения. Модель берет все свои знания о мире с этапа претрейна, алаймент же позволяет их вытащить. Анатолий рассказал, какие есть тонкости и нюансы при подготовке датасетов для предобучения и что они уже сделали с командой.
Наш телеграм: t.me/tinkoffai
Дайджесты, статьи и анонсы митапов: t.me/itstinkoff
Жизнь команда изнутри и вакансии по направлениям: t.me/tinkoffjobs
Блог на Хабре: l.tinkoff.ru/h...
#ai #ml #rl #тинькофф

Опубликовано:

 

21 сен 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 21   
@idma94
@idma94 Месяц назад
А в итоге, под капотом Gemini, и Bert 😅
@achmedzhanov_nail
@achmedzhanov_nail 7 месяцев назад
Интересные моменты подсвечены, если собираетесь обучить свою LLM, это хорошая вводная чтобы понять масштаб задачи подготовки данных.
@VasilyVasilyVasily
@VasilyVasilyVasily 6 месяцев назад
Вопрос по слайду с семантической дедупликацией: внутри кластера очистка происходит чисто семантически, или есть какая то проверка на истину каждого выражения? Например, если в кластере несколько похожих семантически ответов на одну тему, но только один из них верный. Вы сказали что оставляете один пример в своей эпсилон окрестности, он же может быть ложным в своем кластере?
@vlad-n-ag
@vlad-n-ag Месяц назад
Не совсем понятно, какие преимущества даёт большая языковая модель по сравнению с набором специализированных, которые можно затем комбинировать под разные задачи. Обучать их проще, инференс - на порядки дешевле, результаты могут получаться сопоставимые с тем, что получается на выходе LLM.
@mqtrade5743
@mqtrade5743 Месяц назад
Напиши плиз какие специализированные модели есть? Первый раз слышу просто
@vlad-n-ag
@vlad-n-ag Месяц назад
@@mqtrade5743 - классификаторы - суммаризаторы - переводчики - преобразователи (text-to- -speech, text-to-image, text-to-textб и т.д.) Можете поискать на Обниморде более предметно. Например модели Михаила Утробина для перевода русский/английский/китайский.
@ekolvah
@ekolvah 6 месяцев назад
а почему не взять англоязычный датасет и перевести его на русский язык ? вместо создания самому русскоязычного датасета собирая и фильтруя русскоязычные данные со всего интернета
@Fenixtremo
@Fenixtremo 3 месяца назад
Не существует переводов естественных языков без потери качества
@vlad-n-ag
@vlad-n-ag Месяц назад
Есть переведённые с помощью гугла датасеты на русский язык, например Open orca. Качество русскоязычной генерации обученных на таких данных моделях имеет отчётливый акцент этого переводчика и заметно уступает русскоязычным текстам естественного происхождения.
@Aidar_Zaripov
@Aidar_Zaripov 5 месяцев назад
Когда Russian LLM можно будет скачать дайте знать пожалуйста.
@vlad-n-ag
@vlad-n-ag Месяц назад
Есть русская базовая модель Сбера. Доступна для скачивания на Обниморде.
@blackbigdeath
@blackbigdeath 4 месяца назад
Нормально, только почему используете термин Расстояние Жикарда, если есть Расстояние Левенштейна?
@vlad-n-ag
@vlad-n-ag Месяц назад
Расстояние Левенштейна - минимальное число правок содержимого одного из множеств, чтобы оно стало идентично другому. Сходство Жаккара - отношение числа общих элементов двух множеств к числу элементов обоих множеств (расстояние Жаккара = 1- сходство Жаккара). Судя по формуле на слайде используется сходство Жаккара.
@blackbigdeath
@blackbigdeath Месяц назад
​@@vlad-n-agспасибо
@FeelUs
@FeelUs 6 месяцев назад
Когда уже LLM сами начнут краулить и отбирать то что им интересно?...
@alsjeu
@alsjeu 2 месяца назад
а что им интересно?
@FeelUs
@FeelUs 2 месяца назад
@@alsjeu задается промптом
@firstnofate
@firstnofate 2 месяца назад
Докладчику бы самому не помешало почистить свою речь от мусора.
@user-vl9km6ot1h
@user-vl9km6ot1h 7 месяцев назад
Докладчик че переминаться с ноги на ногу. В туалет что ли хочет или что . Невозможно смотреть
@achmedzhanov_nail
@achmedzhanov_nail 7 месяцев назад
да какая разница, суть на слайдах
@ekolvah
@ekolvah 6 месяцев назад
в аптеке успокоительное рекоммендую ;)
Далее
People Cling To Trees As Typhoon Slams Into Shanghai
00:34
Мониторинг LLM в production
32:57
Let's build GPT: from scratch, in code, spelled out.
1:56:20
People Cling To Trees As Typhoon Slams Into Shanghai
00:34