Где взять данные для предобучения LLM - Анатолий Потапов, Тинькофф

Подписаться 1,9 тыс.

Просмотров 8 тыс.

50% 1

Вы вдруг решили, что вам недостаточно LLaMA-2 и вы очень хотите сделать свою LLM. Где взять данные для предобучения? Большая часть проблем в воспроизведении результатов ChatGPT лежит именно в данных для предобучения. Модель берет все свои знания о мире с этапа претрейна, алаймент же позволяет их вытащить. Анатолий рассказал, какие есть тонкости и нюансы при подготовке датасетов для предобучения и что они уже сделали с командой.
Наш телеграм: t.me/tinkoffai
Дайджесты, статьи и анонсы митапов: t.me/itstinkoff
Жизнь команда изнутри и вакансии по направлениям: t.me/tinkoffjobs
Блог на Хабре: l.tinkoff.ru/h...
#ai #ml #rl #тинькофф

Опубликовано:

21 сен 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 21

@idma94 Месяц назад

А в итоге, под капотом Gemini, и Bert 😅

@achmedzhanov_nail 7 месяцев назад

Интересные моменты подсвечены, если собираетесь обучить свою LLM, это хорошая вводная чтобы понять масштаб задачи подготовки данных.

@VasilyVasilyVasily 6 месяцев назад

Вопрос по слайду с семантической дедупликацией: внутри кластера очистка происходит чисто семантически, или есть какая то проверка на истину каждого выражения? Например, если в кластере несколько похожих семантически ответов на одну тему, но только один из них верный. Вы сказали что оставляете один пример в своей эпсилон окрестности, он же может быть ложным в своем кластере?

@vlad-n-ag Месяц назад

Не совсем понятно, какие преимущества даёт большая языковая модель по сравнению с набором специализированных, которые можно затем комбинировать под разные задачи. Обучать их проще, инференс - на порядки дешевле, результаты могут получаться сопоставимые с тем, что получается на выходе LLM.

@mqtrade5743 Месяц назад

Напиши плиз какие специализированные модели есть? Первый раз слышу просто

@vlad-n-ag Месяц назад

@@mqtrade5743 - классификаторы - суммаризаторы - переводчики - преобразователи (text-to- -speech, text-to-image, text-to-textб и т.д.) Можете поискать на Обниморде более предметно. Например модели Михаила Утробина для перевода русский/английский/китайский.

@ekolvah 6 месяцев назад

а почему не взять англоязычный датасет и перевести его на русский язык ? вместо создания самому русскоязычного датасета собирая и фильтруя русскоязычные данные со всего интернета

@Fenixtremo 3 месяца назад

Не существует переводов естественных языков без потери качества

@vlad-n-ag Месяц назад

Есть переведённые с помощью гугла датасеты на русский язык, например Open orca. Качество русскоязычной генерации обученных на таких данных моделях имеет отчётливый акцент этого переводчика и заметно уступает русскоязычным текстам естественного происхождения.

@Aidar_Zaripov 5 месяцев назад

Когда Russian LLM можно будет скачать дайте знать пожалуйста.

@vlad-n-ag Месяц назад

Есть русская базовая модель Сбера. Доступна для скачивания на Обниморде.

@blackbigdeath 4 месяца назад

Нормально, только почему используете термин Расстояние Жикарда, если есть Расстояние Левенштейна?

@vlad-n-ag Месяц назад

Расстояние Левенштейна - минимальное число правок содержимого одного из множеств, чтобы оно стало идентично другому. Сходство Жаккара - отношение числа общих элементов двух множеств к числу элементов обоих множеств (расстояние Жаккара = 1- сходство Жаккара). Судя по формуле на слайде используется сходство Жаккара.

@blackbigdeath Месяц назад

@@vlad-n-agспасибо