Вы вдруг решили, что вам недостаточно LLaMA-2 и вы очень хотите сделать свою LLM. Где взять данные для предобучения? Большая часть проблем в воспроизведении результатов ChatGPT лежит именно в данных для предобучения. Модель берет все свои знания о мире с этапа претрейна, алаймент же позволяет их вытащить. Анатолий рассказал, какие есть тонкости и нюансы при подготовке датасетов для предобучения и что они уже сделали с командой.
Наш телеграм: t.me/tinkoffai
Дайджесты, статьи и анонсы митапов: t.me/itstinkoff
Жизнь команда изнутри и вакансии по направлениям: t.me/tinkoffjobs
Блог на Хабре: l.tinkoff.ru/h...
#ai #ml #rl #тинькофф
21 сен 2024