Тёмный
跟李沐学AI
跟李沐学AI
跟李沐学AI
Подписаться
DALL·E 2【论文精读】
1:27:55
Год назад
ViLT 论文精读【论文精读】
1:03:26
Год назад
Pathways 论文精读【论文精读】
1:02:13
2 года назад
I3D 论文精读【论文精读】
52:31
2 года назад
Комментарии
@Ake178178sVideo
@Ake178178sVideo 14 часов назад
for lots of java codes,any embedding model is good for RAG, or we have to use fine-tuning on a model?
@binwangcu
@binwangcu 18 часов назад
聊VLMo,”视觉训练的transformer能直接用在语言上”。 厉害
@techbays675
@techbays675 5 дней назад
沐神 视频不能停啊, 没有你的 视频 Research 搞不下去啊, 线上导师
@gabelliemann322
@gabelliemann322 5 дней назад
回头看,模型切割放在GPU就是现在LLM的情况,实属远见
@yshliu4434
@yshliu4434 7 дней назад
讲得太好了,牛
@曼曼曼慢
@曼曼曼慢 8 дней назад
老师好,虽然但是,我不清楚老师是哪里人哈,褒义词的读音建议老师查一下哈~(继续听讲)
@xhinker
@xhinker 10 дней назад
这位老哥去搞 LLama 3.1 了,不得了
@paralellun8485
@paralellun8485 14 дней назад
33:11 GPT2
@paralellun8485
@paralellun8485 14 дней назад
19:08~23"00 3.1 Unsupervised pre-training 20:30 為什麼要相加 ?? 24:52 看不懂式(3)(4)
@shutiao561
@shutiao561 15 дней назад
ru-vid.comdBQ-UdlIEoE?si=ef4x2WosplWwDYG0 这种视频有大佬知道是怎么做出来的吗?萌新求教
@paralellun8485
@paralellun8485 16 дней назад
23:35 殘差連接 ?? 51:41 第三個注意力層??
@jsksiraybjgzvjieqp-u6d
@jsksiraybjgzvjieqp-u6d 18 дней назад
Allen Sarah Miller Steven Anderson Steven
@MaxwellClerkJames-f5x
@MaxwellClerkJames-f5x 20 дней назад
牛逼了,最喜欢听李老师讲业界八卦,小组内斗,撕逼日常。大佬,多来点。
@newtom5238
@newtom5238 20 дней назад
现在看来,这种级别的先进运算集群可不是小打小闹。meta的这个集群,论算力,特别是考虑核间通讯损耗的真正有效算力,让前不久还排在榜首的超算中心,现在看来也就像少儿中心了。不看好国内小绵羊运营商最近上马的运算中心了。要为这种完全没有标准的基建做验收,还得靠真正懂行的赤子,写高水平的代码,从而检测不断移动的指标,加之需要妥善的部署并评估运维损耗的问题,这又涉及到设计实验并统计。定力不足或责任心不足的人,要搞点水分虚报参数,或在采购上以次充好,实在容易且难以察觉。所以,靠关系拿公帑的,国企这种权责不清的,根本不适合这类业务。只看好华为字节阿里这种,兼具财力和狼性的公司。
@readthefuckingmanual
@readthefuckingmanual 21 день назад
NB
@jiesu2575
@jiesu2575 23 дня назад
讲的太好了,感谢老师,感谢互联网!!!!!!
@balabalabalabalabala
@balabalabalabalabala 24 дня назад
我认真听了的。褒义词和裹义词。
@fuzhixu1405
@fuzhixu1405 24 дня назад
what! 沐神更新视频了?
@陸海量
@陸海量 26 дней назад
懂了 我这就去买ipad(狗头
@wangharold6926
@wangharold6926 26 дней назад
老师 如何评价Qwen2?
@brozuh2364
@brozuh2364 26 дней назад
这个地方data parallel应该是指fsdp,不是训练的data。fsdp和model parallel (tensor parallel)之间的差别很细微。
@deter3
@deter3 27 дней назад
你的专业应该就不是大语言模型方面,讲解的技术洞察力方面极度一般。
@海涛张-m1u
@海涛张-m1u 27 дней назад
大佬的讲解真是入木三分,对大模型的学习太有帮助了
@jiayizhang7406
@jiayizhang7406 27 дней назад
刚做LLM就看到沐神回归!
@pimoney7846
@pimoney7846 27 дней назад
AI会不会构建出一种全新的语言体系,来取代目前的中文和英文?
@menglilingsha
@menglilingsha 28 дней назад
沐大师 11分41秒显示FFN dimension 是12288(70B), 是8192*1.5但huggingface model 对应70B model的intermediate size 是28672=8192*3.5. 12288好像是gpt 3.5的size。 论文中7B和405B也和HF上的intermediate size不一样。这里是我看错了还是笔误了?
@JoshJu
@JoshJu 26 дней назад
刚看了一眼arxiv上的pdf (2407.21783v2) FFN dimension 70B也是28672, 大概率是早期版本笔误
@allandogreat
@allandogreat 29 дней назад
李老师生二胎了
@alsonyang230
@alsonyang230 29 дней назад
1:26:50, 这里我有点不理解,有大神能解释一下吗? 听起来好像是说如果把CLIP再结合上自监督(self-supervision)和 伪标签(self-training )这两种方法的话,他会更强。但在我理解里CLIP就是用自监督(self-supervision)做出来的,是我理解错了吗?虽然CLIP跟一般的自监督不一样,但总归就是用不是绝对正确的label+contrastive learning去完成这个学习。 如果CLIP不能定义为用的self-supervision的话, 那他要怎么用上self-supervision这个方法在这种mutimodal的setup呢? 另一个方式去理解这句话是,CLIP正是因为结合了这两个方法,所以比传统的监督学习(supervised learning)更强。但这么理解的话,CLIP是怎么用上了self-training了呢。。
@dvshong794
@dvshong794 Месяц назад
一下放出来三个,收益良多
@menkiguo7805
@menkiguo7805 Месяц назад
终于来了 激动
@nobodydeemoplayer164
@nobodydeemoplayer164 Месяц назад
看完這個有想到之前也有看過李老師介紹pathways的影片,但其實還是沒很懂 但pathways的設計好像真的很厲害
@weizhang4520
@weizhang4520 Месяц назад
👍
@kongfu2884
@kongfu2884 Месяц назад
如沐春风🎉
@solnone
@solnone Месяц назад
Thanks
@geliangzhu9146
@geliangzhu9146 Месяц назад
沙发。好好学习。
@solnone
@solnone Месяц назад
Thanks!
@marvelzeng7222
@marvelzeng7222 Месяц назад
褒(果)义词是什么梗?
@AterasMenethill
@AterasMenethill Месяц назад
请问一下李沐博士, Palm achieves a training efficiency of 57.8% hardware FLOPs utilization, 视频说达到了“理论峰值一倍以上”,57.8%不应该是“一半以上”吗?谢谢你的分享。
@shuntianli9651
@shuntianli9651 Месяц назад
super master
@TINGCHEN-t4v
@TINGCHEN-t4v Месяц назад
Llama 3.1最差劲。问,回锅肉的做法,居然说回锅肉是广东省的一道名菜。做发,完完全全是广东的炸五花肉。简直不要提了。
@applefishful
@applefishful Месяц назад
感谢沐神分享
@JNL899
@JNL899 Месяц назад
大神有时间讲一下Mixtral MoE?
@kenzilynn-x9e
@kenzilynn-x9e Месяц назад
李老师,能不能讲一下matmul free架构的论文😊😊
@samchan4818
@samchan4818 Месяц назад
这种看了一个小时,知识进不了脑子的感觉太奇妙了😍
@jiajiang8449
@jiajiang8449 Месяц назад
李老师终于更新了,等了好久了
@Veda_RIKO
@Veda_RIKO Месяц назад
感谢老师的详细讲解和无私分享!小白学到了很多🌹
@leixu7993
@leixu7993 Месяц назад
老师讲的真的很好,常看常新
@hanyanglee9018
@hanyanglee9018 Месяц назад
不过随口说一句,稀疏W不一定是好事情。如果你的w变稀疏了,应该考虑一下离散化。 Edit: 忘了这边说的是机器学习了。。。深度学习手感不一样,不好意思。
@hanyanglee9018
@hanyanglee9018 Месяц назад
沐神沐神沐神,我云过cmu 15 213
@ShutongChen
@ShutongChen Месяц назад
爷爷你关注的up主更新了