跟李沐学AI

49
1 555 877

26:15

Llama 3.1论文精读 · 3. 模型【论文精读·54】

28 дней назад

23:37

Llama 3.1论文精读 · 2. 预训练数据【论文精读·54】

28 дней назад

18:53

Llama 3.1论文精读 · 1. 导言【论文精读·54】

Месяц назад

1:20:39

GPT-4论文精读【论文精读·53】

Год назад

1:06:29

大模型时代下做科研的四个思路【论文精读·52】

Год назад

1:01:52

Anthropic LLM 论文精读【论文精读·51】

Год назад

1:23:38

HELM 全面语言模型评测【论文精读·50】

Год назад

1:03:29

多模态论文串讲·下【论文精读】

Год назад

1:07:11

InstructGPT 论文精读【论文精读】

Год назад

55:47

Neural Corpus Indexer 文档检索【论文精读】

Год назад

1:12:16

OpenAI Whisper 精读【论文精读】

Год назад

23:39

在讲 OpenAI Whisper 前先做了一个剪视频小工具

Год назад

1:12:25

多模态论文串讲·上【论文精读】

Год назад

1:15:43

CLIP 改进工作串讲（上）【论文精读】

Год назад

1:04:26

CLIP 改进工作串讲（下）【论文精读】

Год назад

1:27:55

DALL·E 2【论文精读】

Год назад

1:03:26

ViLT 论文精读【论文精读】

Год назад

33:23

Chain of Thought论文、代码和资源【论文精读】

Год назад

58:48

GPipe论文精读【论文精读】

Год назад

1:02:13

Pathways 论文精读【论文精读】

2 года назад

1:37:39

参数服务器（Parameter Server）逐段精读【论文精读】

2 года назад

18:58

9年后重读深度学习奠基作之一：AlexNet【论文精读】

2 года назад

1:08:32

视频理解论文串讲（下）【论文精读】

2 года назад

51:15

视频理解论文串讲（上）【论文精读】

2 года назад

52:31

I3D 论文精读【论文精读】

2 года назад

1:19:56

斯坦福 2022 年 AI 指数报告精读【论文精读】

2 года назад

44:01

DeepMind AlphaCode 论文精读【论文精读】

2 года назад

47:59

OpenAI Codex 论文精读【论文精读】

2 года назад

52:57

双流网络论文逐段精读【论文精读】

2 года назад

Комментарии

@Ake178178sVideo 14 часов назад

for lots of java codes，any embedding model is good for RAG, or we have to use fine-tuning on a model?

@binwangcu 18 часов назад

聊VLMo，”视觉训练的transformer能直接用在语言上”。厉害

@techbays675 5 дней назад

沐神视频不能停啊，没有你的视频 Research 搞不下去啊，线上导师

@gabelliemann322 5 дней назад

回头看，模型切割放在GPU就是现在LLM的情况，实属远见

@yshliu4434 7 дней назад

讲得太好了，牛

@曼曼曼慢 8 дней назад

老师好，虽然但是，我不清楚老师是哪里人哈，褒义词的读音建议老师查一下哈~（继续听讲）

@xhinker 10 дней назад

这位老哥去搞 LLama 3.1 了，不得了

@paralellun8485 14 дней назад

33:11 GPT2

@paralellun8485 14 дней назад

19:08~23"00 3.1 Unsupervised pre-training 20:30 為什麼要相加 ?? 24:52 看不懂式(3)(4)

@shutiao561 15 дней назад

ru-vid.comdBQ-UdlIEoE?si=ef4x2WosplWwDYG0 这种视频有大佬知道是怎么做出来的吗？萌新求教

@paralellun8485 16 дней назад

23:35 殘差連接 ?? 51:41 第三個注意力層??

@jsksiraybjgzvjieqp-u6d 18 дней назад

Allen Sarah Miller Steven Anderson Steven

@MaxwellClerkJames-f5x 20 дней назад

牛逼了，最喜欢听李老师讲业界八卦，小组内斗，撕逼日常。大佬，多来点。

@newtom5238 20 дней назад

现在看来，这种级别的先进运算集群可不是小打小闹。meta的这个集群，论算力，特别是考虑核间通讯损耗的真正有效算力，让前不久还排在榜首的超算中心，现在看来也就像少儿中心了。不看好国内小绵羊运营商最近上马的运算中心了。要为这种完全没有标准的基建做验收，还得靠真正懂行的赤子，写高水平的代码，从而检测不断移动的指标，加之需要妥善的部署并评估运维损耗的问题，这又涉及到设计实验并统计。定力不足或责任心不足的人，要搞点水分虚报参数，或在采购上以次充好，实在容易且难以察觉。所以，靠关系拿公帑的，国企这种权责不清的，根本不适合这类业务。只看好华为字节阿里这种，兼具财力和狼性的公司。

@readthefuckingmanual 21 день назад

@jiesu2575 23 дня назад

讲的太好了，感谢老师，感谢互联网！！！！！！

@balabalabalabalabala 24 дня назад

我认真听了的。褒义词和裹义词。

@fuzhixu1405 24 дня назад

what! 沐神更新视频了？

@陸海量 26 дней назад

懂了我这就去买ipad(狗头

@wangharold6926 26 дней назад

老师如何评价Qwen2？

@brozuh2364 26 дней назад

这个地方data parallel应该是指fsdp，不是训练的data。fsdp和model parallel (tensor parallel)之间的差别很细微。

@deter3 27 дней назад

你的专业应该就不是大语言模型方面，讲解的技术洞察力方面极度一般。

@海涛张-m1u 27 дней назад

大佬的讲解真是入木三分，对大模型的学习太有帮助了

@jiayizhang7406 27 дней назад

刚做LLM就看到沐神回归！

@pimoney7846 27 дней назад

AI会不会构建出一种全新的语言体系，来取代目前的中文和英文？

@menglilingsha 28 дней назад

沐大师 11分41秒显示FFN dimension 是12288(70B), 是8192*1.5但huggingface model 对应70B model的intermediate size 是28672=8192*3.5. 12288好像是gpt 3.5的size。论文中7B和405B也和HF上的intermediate size不一样。这里是我看错了还是笔误了？

@JoshJu 26 дней назад

刚看了一眼arxiv上的pdf (2407.21783v2) FFN dimension 70B也是28672，大概率是早期版本笔误

@allandogreat 29 дней назад

李老师生二胎了

@alsonyang230 29 дней назад

1:26:50, 这里我有点不理解，有大神能解释一下吗？听起来好像是说如果把CLIP再结合上自监督（self-supervision）和伪标签（self-training ）这两种方法的话，他会更强。但在我理解里CLIP就是用自监督（self-supervision）做出来的，是我理解错了吗？虽然CLIP跟一般的自监督不一样，但总归就是用不是绝对正确的label+contrastive learning去完成这个学习。如果CLIP不能定义为用的self-supervision的话，那他要怎么用上self-supervision这个方法在这种mutimodal的setup呢？另一个方式去理解这句话是，CLIP正是因为结合了这两个方法，所以比传统的监督学习（supervised learning）更强。但这么理解的话，CLIP是怎么用上了self-training了呢。。