Deep Learning School

Deep Learning School

233
2 139 249

Подписаться

Официальный канал школы "Deep Learning School" от Физтех-Школы прикладной математики и информатики МФТИ и Лаборатории нейронных систем и глубокого обучения МФТИ.

Мы - бесплатная онлайн-школа глубокого обучения. Обучаем работе с нейросетями с основ до продвинутого уровня.
Наш сайт: dls.samcs.ru
Наши курсы на Stepik: stepik.org/org/dlschool

Поддержать школу: boosty.to/deeplearningschool

Лекция. Законы масштабирования LLM

41:42

Лекция. Законы масштабирования LLM

19 часов назад

Лекция. Метрики и неожиданные навыки GPT-3

40:08

Лекция. Метрики и неожиданные навыки GPT-3

19 часов назад

Лекция. GPT-3 и Sparse Attention

45:11

Лекция. GPT-3 и Sparse Attention

21 час назад

Лекция. GPT - 2

45:11

Лекция. GPT - 2

21 час назад

Лекция. GAN - 3

31:07

Лекция. GAN - 3

Месяц назад

Лекция. GAN - 4

21:45

Лекция. GAN - 4

Месяц назад

Лекция. GAN - 2

16:25

Лекция. GAN - 2

Месяц назад

Лекция. GAN - 1

24:51

Лекция. GAN - 1

Месяц назад

Лекция. GPT-модели - 3. Новые способности и обучение GPT-моделей

35:43

Лекция. GPT-модели - 3. Новые способности и обучение GPT-моделей

Месяц назад

Лекция. GPT-модели - 2. На заре GPT. История создания GPT-1

22:38

Лекция. GPT-модели - 2. На заре GPT. История создания GPT-1

Месяц назад

Лекция. GPT-модели - 1. Обучение без учителя и даныне в трансформере

36:22

Лекция. GPT-модели - 1. Обучение без учителя и даныне в трансформере

Месяц назад

Лекция. Вариационные автокодировщики с дискретным латентным пространством (VQVAE)

9:55

Лекция. Вариационные автокодировщики с дискретным латентным пространством (VQVAE)

2 месяца назад

Лекция. Введение в генеративные модели

12:32

Лекция. Введение в генеративные модели

2 месяца назад

Лекция. Автокодировщики и где они применяются

11:24

Лекция. Автокодировщики и где они применяются

2 месяца назад

Лекция. Generative Latent Optimization

7:30

Лекция. Generative Latent Optimization

2 месяца назад

Лекция. Вариационные автокодировщики с непрерывным латентным пространством (VAE)

25:55

Лекция. Вариационные автокодировщики с непрерывным латентным пространством (VAE)

2 месяца назад

Лекция. Архитектура Transformer. Decoder, QKV Attention

23:22

Лекция. Архитектура Transformer. Decoder, QKV Attention

3 месяца назад

Лекция. Архитектура Transformer. Введение, Transformer Encoder

35:42

Лекция. Архитектура Transformer. Введение, Transformer Encoder

3 месяца назад

Лекция. Машинный перевод, архитектура Seq2Seq

43:46

Лекция. Машинный перевод, архитектура Seq2Seq

3 месяца назад

Лекция. Механизм внимания (Attention)

30:04

Лекция. Механизм внимания (Attention)

3 месяца назад

Семинар. Введение в PyTorch

1:09:19

Семинар. Введение в PyTorch

3 месяца назад

Лекция. LSTM, GRU

32:35

Лекция. LSTM, GRU

4 месяца назад

Лекция. Введение в Transfer Learning и Self-Supervised Learning

15:18

Лекция. Введение в Transfer Learning и Self-Supervised Learning

7 месяцев назад

Лекция. BERT и его вариации. Masked Language Modelling

21:12

Лекция. BERT и его вариации. Masked Language Modelling

7 месяцев назад

Лекция. Предобучение seq2seq-моделей

12:23

Лекция. Предобучение seq2seq-моделей

7 месяцев назад

Семинар. Файнтьюнинг BART для задачи суммаризации текста

18:30

Семинар. Файнтьюнинг BART для задачи суммаризации текста

7 месяцев назад

Семинар. Attention и Трансформеры

27:29

Семинар. Attention и Трансформеры

8 месяцев назад

Введение в искусственный интеллект. Quo Vadis, AI?

1:15:04

Введение в искусственный интеллект. Quo Vadis, AI?

9 месяцев назад

Векторные базы данных и создание стартапа с Андреем Васнецовым

57:54

Векторные базы данных и создание стартапа с Андреем Васнецовым

10 месяцев назад

Комментарии

@Enerdzizer 2 дня назад

А кто может пояснить почему работает арифметика сложения и вычитания с эмбедингами и при этом смысл слов соответствует ? Король женщина королева

@user-vs3tt8xc6j 3 дня назад

Тут целый ряд вопросов возникает. Касательно инференса и MoE - понятно. Нужно корректировать. 1 . Другой вопрос касательно реальных задач. Насколько лосс, размер модели, количество токенов в обучении коррелирую с результатами в бенчмарках? Может быть, увеличив свои бюджеты в 3 раза - мы получим лишь весьма незначительный прирост в целевых задачах. 2. Насколько обосновано выходить на плато? Допустим, ограничение в инференсе 1 млрд параметров и нужно получить максимально качественную модель при разумно-неограниченном вычислительном бюджете. Сколько данных будет пределом для такой модели (после которого она уже не будет получать преимуществ). Что случится если модель выйдет на плато (начнет переучиваться)? Как это будет связано со значениями в бенчмарках? 3. Говоря о количестве данных, что мы можем сказать об их качестве? Разнообразии? Ведь все занимаются очисткой данных как минимум и это сильно помогает на бенчмарках. А если говорить о синтетике, тут появляется вопрос об их разнообразии и правдоподобии. Может, просто создать случайные последовательности символов? Их бесконечно. Или все-таки нужно заботиться о слабо измеримых параметров данных (самый простой пример факты реальные и факты ошибочные).

@user-ud4ws4zz3h 3 дня назад

Радослав, у Вас одна из самых лучших подач материала! Спасибо большое за лекцию! ☺☺

@Enerdzizer 4 дня назад

Отличное объяснение, структурированно и лаконично🎉 ну и естественно приятный лектор) пс в 16:01 все таки не вектор столбец умножается а вектор строка..

@mvlad7402 4 дня назад

Что за запись - ничего не слышно!

@user-bj2yn8mp4r 6 дней назад

Поясните, пожалуйста, почему на эмбеддингах работает векторная арифметика (например, королева = король - мужчина + женщина)? Из того, как мы их получили, следует, что в них закодирован их контекст, поэтому эмбединги похожих слов будут похожи, т.е. их косинусное расстояние будет большим. А вот то что на данных эмбеддингах будет работать векторная арифметика, мне не совсем понятно.

@user-bj2yn8mp4r 5 дней назад

Нашел объяснение: Alex Gittens, Dimitris Achlioptas, and Michael W. Mahoney. 2017. Skip-Gram − Zipf + Uniform = Vector Additivity. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 69-76, Vancouver, Canada. Association for Computational Linguistics.

@dd-pe5dp 7 дней назад

что посмотреть, если тут ничего не понятно

@FonarPodGlazom 7 дней назад

А где же модуль 2 часть 2?((

@user-jc5ky2ei5l 7 дней назад

Спасибо! Очень интересно

@idaklimanova9913 9 дней назад

Татьяна, огромная благодарность вам и всей команде. Невероятный материал!!

@notmyfall 9 дней назад

Спасибо за простое и наглядное объяснение

@user-tp5gk2uz3u 14 дней назад

Можно сказать что если я задам то как найти носки в комнате, которые я потерял и хорошо натренирую модель по поиску носков, то трансформер найдёт паттерны для нахождения инопланетных рас ?

@roman_orlov 16 дней назад

Поначалу довольно интересный подкаст, потом начинается вкусовщина от спикера местами доходящая до токсичности. Выглядит очень странно, кандидат должен быть и жнец, и жрец, и на дуде игрец. Но при этом не должен быть олимпиадником, кэгглистом, курсистом (но курсера это другое) {вставить сюда категорию людей, которая не нравится спикеру}. Совсем потряс комментарий про то, как спикер сдерживался от того, чтобы не похихикать над семью звездочками, хотя кажется, что семь звездочек, даже если и выполнено в плане копипаста технологий, все равно довольно таки не плохой результат, может не повод для большой гордости, но странно высмеивать так. При чем очень элитарными выглядят рассуждения в духе, вот они взяли что-то и поменяли там немного, и вот получился хороший результат, а по сути они ничего и не сделали в плане рнд. Какое-то обесценивание на ровном месте. Хотя, если мы возьмём статьи в некоторых областях, и посмотрим как именно они развивались, всё-таки будет складываться ощущение, что идеи то старые, просто к ним какие-то новые трюки применены для ускорения или же новые вычислительные ресурсы использованы. Сам спикер отмечает, что у человека должно после собеседования остаться желание рекламировать кампанию, но у меня тяжёлый осадок остаётся после прослушенного, слишком много пафоса и элитарности.

@user-tp5gk2uz3u 17 дней назад

Добрый день, Вектор h^{d}_{1}, возможно, прогоняем через полносвязную сеть fc^{d}_{1}, а не через fc^{d}_{0} для получения "Good"

@MrKerimos 17 дней назад

Объясняется математиком для математиков, а надо бы программистом для программистов, потому что это конечные исполнители. Вы сами не путаетесь деуподетенаомегаподетддтт? Это дань динозаврам, чтобы они вам ночью не снились? Это все можно записать в виде программы, использовав человекочитаемые обозначения для функций и переменных, и станет все понятно. Не экономьте пиксели, они не кончатся.

@user-tp5gk2uz3u 18 дней назад

Спасибо за видео! Кругом много видео на тему NLP, вроде бы все об одном и том же говорят, но до конца непонятно всё равно и можешь потратить час времени и ощущение как будто на 30% понял тему, а тут новичку как-то приятнее въезжать в материал, потому что много примеров и картинок, это хороший труд, складывается впечатление, что Вы думали головой перед тем как подавать материал слушателю, а не рассказывали на ходу что знаете. Есть парочку вопросов: 1) Может быть я не очень понял, но вначале Декодеру всегда подаётся <BOS>. Если модель уже построена и я хочу вывести её в продакшн. Например, я подаю модели "Меня зовут Ринат", то как модель из <BOS> поймёт первое слово "My"? Это всё делается благодаря тому что я уже подал Энкодеру "Меня зовут Ринат", и уже через ОБУЧЕННЫЕ веса я получаю свой h^d_0 и благодаря этому вектору Декодер из <BOS> должен получить "My" в качестве y с крышкой? 2) Не сразу понятно порой в каком порядке выкладываются видео, где первое видео, где последнее. Может как-то помечать их, условно серия видео "A1, A2, A3,..." от лектора №1, потом серия видео "B1,B2,B3,..." от лектора №2. Как будто нумерации хочется.

@lex4757 18 дней назад

Интересно!

@user-oq7ju6vp7j 21 день назад

Мне нравится как чат и лектор на одной волне)

@user-rt1dt5kx3p 21 день назад

Ошибка в определении линейной зависимости. Забыл сказать, что \beta_i, = 1,...,n, не все равны нулю. 4:45 такую ерунду наговорил, каша в математических терминах. Совсем не факт, что веса будут уменьшаться, они и увеличиваться могут. Это что такое "применяться градиентный шаг"?

@sb9185 21 день назад

Зачем нужен FC layer ?

@user-oq7ju6vp7j 22 дня назад

Лектор хорошо рассказывает

@user-st4ih8cu6l 23 дня назад

Благодарю вас!

@user-st4ih8cu6l 23 дня назад

Благодарю вас!

@varivodasergei 25 дней назад

Спасибо. Для меня очень полезная лекция, закрыла несколько важных пробелов в знаниях. А когда ждать следующую?

@stalkermustang 14 дней назад

по секрету скажу что еще несколько есть у меня на канале (не рофл), а вот когда ждать те, что после них - это вопрос!

@DeepLearningSchool 14 дней назад

По GPT у нас на канале еще лекции есть. Части 1 и 2. А следующими видео из серии будут уже видео по GAN

@kodiSong 26 дней назад

Людям, что работают с компьютером гораздо приятнее видеть тёмный фон и белые буквы на нём, особенно вечером

@user-jc5ky2ei5l 29 дней назад

Лекция и шапка - огонь!

@ivan_inanych 29 дней назад

Universe of Data - генеральная совокупность

@tarkhidden 29 дней назад

Спасибо! Как считаете, стоит с самого начала смотреть новые видео, которые вы выкладываете? Обучение без учителя, например. К аббревиатуре GPT стойкое отвращение >_<

@DeepLearningSchool 14 дней назад

Почему бы не посмотреть? :) Если что-то будет не так, то дадите знать в комментариях.

@aammssaamm Месяц назад

Какая косноязычная каша во рту. Произношение английских слов вообще за гранью. Вам нужно нанять логопеда и учиться проводить профессиональные презентации.

@user-dp2po9wi2t 27 дней назад

А может быть вам начать тренировать своё умение слушать и умение ценить то, что вам дано бесплатно?

@aammssaamm 27 дней назад

@@user-dp2po9wi2t Я зарабатываю достаточно, чтобы не тратить время на такой отстой.

@DeepLearningSchool 14 дней назад

Надеемся, что с точки зрения фактического содержания нареканий нет)

@aammssaamm 14 дней назад

@@DeepLearningSchool Кто ж будет слушать? 😂 У вас, как всегда, всё через жопу. 😂

@user-bj2yn8mp4r Месяц назад

Спасибо! Хорошая подача материала, но очень поверхностно, хотелось бы поподробнее.

@user-ob1jz8yl6x Месяц назад

ОЧень подробно и точно! Особенно понравилось про связь 3 слоя - 5 слоев, тоесть получается как и перцептроне все последующие слои связаны со всеми предыдущими.

@BrainUniverse Месяц назад

У вас на 17:25 softmax неправильный)

@xandrviking1113 Месяц назад

В русском языке нет слова льнейно ? Есть слово лИнейно !!! Куда букву И потерял ?

@xandrviking1113 Месяц назад

Лектор так себе конечно, глотает слова, с дикцией проблема. Ничего не понял, хотя знал эту тему давно.

@user-zd6sf8zo5y Месяц назад

20:41 Но в этом случае размерность вектора а будет равна m, а не d (размер эмбеддинга). И складывать вектор внимания a с x или у мы не сможем. 21:55 Аналогичная проблема. Мы получим n векторов размерности m (которая вообще говоря не совпадает с размерностью эмбединга) @DeepLearningSchool

@whiteraidr Месяц назад

Супер материал, и очень понятная подача, спасибо

@justaseeker5530 Месяц назад

На слайде "Идея Transformer" доброе утро переведено, как good night

@mihey0_0 Месяц назад

Есть ли стажировка в Сербии?

@user-vc3qz1oi4o Месяц назад

блин как здорово и интересно, если б так нам в вузе объясняли на парах...все были бы отличниками))

@Apaximatic_Play Месяц назад

понятно, я думал эти сети работают хитрее, а это оказывается тупо фильтры

@justaseeker5530 Месяц назад

Нео, ты меня слушаешь или смотришь на девицу в красном?

@1stface Месяц назад

Очередная хрень на 50 минут про свертку, которой уже пруд пруди ; и ничего про детальное обучение сети - особенно фильтров, в которых сами рассказчики ни черта ничего не понимают.

@user-ku4nn5pw8p Месяц назад

На слайде из 9:50 опечатка - должно быть DL[q(z|x, pfi) || p(z)]. И лекторша проговорила эту ошибку Еще опечатка на слайде из 11:04 в 1 строке - должно быть q[z, x | phi], а не q[z, phi| x]. Ещё на 3ей строчке этого же слайда почему-то стоит минус между лоссами реконструкции и регуляризации

@baidiuk1 Месяц назад

хах, тут скорее во всей формуле на слайде 9:50 в знаменателе вместо p(z) должно быть p(z | x, phi) . На 11:04 ошибок нет. Не важно q(z | x, phi) или q(z | phi, x). Минус в лоссе тоже верный, мы перевернули дробь под логарифмом, чтобы получить D_KL - это дает минус.

@Hermit-iv4xd Месяц назад

... "не знаю" ...

@user-fk4dx7sc8r Месяц назад

Красотка

@andreyzykov1059 2 месяца назад

я латентное пространство

@Superflywheel 2 месяца назад

Красное платье 👍

@igordobrynin3684 2 месяца назад

и ремень и туфли

@hsqlk 2 месяца назад

Хорошее объяснение: кратко, но в достаточном объеме для понимания темы

@user-iv5co4lu9g 2 месяца назад

Нихера не понял ваще…

@yuryyarovikov3323 2 месяца назад

А вы с первого видео смотрите?

@yuryyarovikov3323 2 месяца назад

ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-3aAUxo1G1ks.html

@hsqlk 2 месяца назад

пересмотри видео через пару дней, потом будет легче

@user-ku4nn5pw8p Месяц назад

Грубо говоря, VQ-VAE - это про то, как апроксимировать довольно гибкие, сложные непрерывные распределения дискретными точками, которые более легковестные. То есть эти N точек (вектора из codebook'а) - это центроиды каких-то уплотнений, кластеров из реального распределения. Насколько я понял, тут обычный лосс (как MSE из AE) разбивается на 2 лосса - энкодера и декодера. Мы хотим, чтобы вектора из энкодера плотно группировались у N точек, которыми мы хотим апроксимировать пространство (это encoder loss, от которого текут градиенты по всей CNN энкодера) и мы хотим, чтобы восстановленное изображение из сжатого латентного пространства было максимально похожим на входное (это reconstruction loss, от которого текут градиенты по всей CNN декодера). Ну и т.к. мы инициализировали эти N точек рандомно, то с чего вообще мы взяли, что с помощью их вообще можно что-то нормально апроксимировать? Давайте и их двигать, но по чуть-чуть (добавив коэффициент бэтта), чтобы модель успевала сходиться. А то получится, что центроиды двигаются в сторону итоговых точек энкодера, а эти точки уже сместились в сторону центроидов, оказавшись в другом месте. В итоге так и будут они в противофазе туда сюда прыгать. Резюмируя еще раз: Есть реальное распределение в латентном (сжатом) пространстве, в VAE мы его апроксимировали композицией нормальных распределений (это как разложение функции в ряд Фурье на 100 синусод или в ряд Тейлора), а потом в VQ-VAE мы это распределение еще раз упростили до набора центроидов локальных уплотнений плотности.

@user-ku4nn5pw8p Месяц назад

Если что-то не понятно еще, то пиши)