Лекция. Законы масштабирования LLM

Подписаться 38 тыс.

50% 1

Занятие ведёт Игорь Котенков.
На занятии обсудим то, что такое scaling и то, почему трансформеры скейлятся лучше.
Телеграм-канал автора: t.me/seealloch...
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
Поддержать канал можно по ссылке dls.samcs.ru/s...
За нашими новостями можно следить здесь:
Наш канал в TG: t.me/deep_lear...
Официальный сайт: dls.samcs.ru/
Официальная группа ВК: dlschoo...
ФПМИ МФТИ
Официальный сайт: mipt.ru/educat...
Магистратура: mipt.ru/educat...
Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
Онлайн-магистратура "Цифровая экономика": digec.online/
Лаборатории ФПМИ: mipt.ru/educat...

Опубликовано:

1 окт 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 1

@АлексейСвищев-н7к 3 месяца назад

Тут целый ряд вопросов возникает. Касательно инференса и MoE - понятно. Нужно корректировать. 1 . Другой вопрос касательно реальных задач. Насколько лосс, размер модели, количество токенов в обучении коррелирую с результатами в бенчмарках? Может быть, увеличив свои бюджеты в 3 раза - мы получим лишь весьма незначительный прирост в целевых задачах. 2. Насколько обосновано выходить на плато? Допустим, ограничение в инференсе 1 млрд параметров и нужно получить максимально качественную модель при разумно-неограниченном вычислительном бюджете. Сколько данных будет пределом для такой модели (после которого она уже не будет получать преимуществ). Что случится если модель выйдет на плато (начнет переучиваться)? Как это будет связано со значениями в бенчмарках? 3. Говоря о количестве данных, что мы можем сказать об их качестве? Разнообразии? Ведь все занимаются очисткой данных как минимум и это сильно помогает на бенчмарках. А если говорить о синтетике, тут появляется вопрос об их разнообразии и правдоподобии. Может, просто создать случайные последовательности символов? Их бесконечно. Или все-таки нужно заботиться о слабо измеримых параметров данных (самый простой пример факты реальные и факты ошибочные).