Тёмный

【人工智能】如何搭建10万个H100的GPU集群 | 40亿美元成本| 电力150兆瓦 | 并行化挑战 | 网络拓扑结构 | 可靠性与恢复 | 成本优化 

Best Partners TV
Подписаться 46 тыс.
Просмотров 11 тыс.
50% 1

今天我们来聊一个非常硬核,但是对于一般人来说可能不一定有用的话题,那就是如何搭建一个10万个H100 GPU的集群。
原文链接:www.semianalysis.com/p/100000...
成为此频道的会员,即可享受提前一天,观看频道最新发布视频的福利:
/ @bestpartners
#人工智能 #gpu #h100

Опубликовано:

 

2 июл 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 69   
@austinsu5838
@austinsu5838 28 дней назад
早說嘛!原來這麼簡單,明天就來搭建一套😂
@bestpartners
@bestpartners 28 дней назад
赞,我就知道有人有一片园区的😁
@scottie2475
@scottie2475 2 дня назад
感覺現在的AI中心很像1940年代計算機的初期,那時的電腦架構(IBM Mark 1 )就是計算,指令,資料,存儲,輸出,輸入各有一套設備,然後用各種線纜串連起來運行,當時的電腦就是一個數據處理中心。 如果歷史唯一不變就是不斷的重複過去,那可以期待30年後目前最強大的X.AI中心,相等算力將會縮小到一台桌上型電腦的大小。別跟我說什麼量子計算,量子計算再怎麼發展也取代不了目前的傳統計算,這跟飛機再麼快也不能取代汽車一個道理。
@FooFighter5212
@FooFighter5212 28 дней назад
我也是飘了,连这样的节目也敢看了😂
@auroroabc
@auroroabc 27 дней назад
还开了倍数……
@carloshsueh9195
@carloshsueh9195 27 дней назад
演算法真是太看得起我了,還推薦我這樣的影片,可見對我還有點期待😂
@scchen2011
@scchen2011 27 дней назад
很棒的一集,benchmark的算力作法😊😊
@fan5188
@fan5188 27 дней назад
哇,原来跟我一起看大飞视频的还有Nvidia的大佬。十分荣幸😊
@samzong
@samzong 26 дней назад
真硬核,学习到了
@hugo-sd1zi
@hugo-sd1zi 8 дней назад
現在歐美已經開始數據稀缺了,大公司要花重金購買原生數據庫,否則就會造成重複訓練過載效應,這在中國的大市場與大工業下,數據遠比算力增長快的多,因此中國廠商反而是重金購買算力晶片.....
@wonmanintp
@wonmanintp 26 дней назад
老馬就要建個10萬個H100,再建個30萬顆GB200 總價要90億美刀
@zhaocaixiaoDU
@zhaocaixiaoDU 28 дней назад
优秀
@user-zb7ex4ue3y
@user-zb7ex4ue3y 28 дней назад
謝謝
@icatzhao6780
@icatzhao6780 28 дней назад
牛逼啦
@changxu21
@changxu21 28 дней назад
让我想起了五六十年代的巨型计算机,而算力还不如当今的计算器。也许大飞描述的10万卡,再过十年也就一个机柜的算力。
@bestpartners
@bestpartners 28 дней назад
嗯,真搞不好
@Guavaava
@Guavaava 28 дней назад
​@@bestpartners感觉很难。现在制程升级速度慢了很多很多
@readthefuckingmanual
@readthefuckingmanual 27 дней назад
@@Guavaava 算法上还有很多的可以优化的
@hugo-sd1zi
@hugo-sd1zi 8 дней назад
量子電腦,可能放在手錶上了....
@YudanGu
@YudanGu День назад
所以大部分问题还是钱的问题……能拿出4000亿的话……
@HarimotoSatoshi
@HarimotoSatoshi 27 дней назад
大飞忘记讲最关键的一个话题,即如何搞定40亿美元,期待更新中😂😂😂
@bestpartners
@bestpartners 27 дней назад
哈哈,这是个好话题
@zohar6006
@zohar6006 28 дней назад
老黃都幫你安排的整整齊齊
@user-fp2xk6tu9l
@user-fp2xk6tu9l 27 дней назад
不管在簡單的工作,當它的規模大到一定程度的時候,都會變成極度複雜的工程
@hugo-sd1zi
@hugo-sd1zi 8 дней назад
最後集群數據交換的時間比計算的時間還長得多,整合數據的時間比所有計算的時間還長,就會改用量子計算機來取代....
@mactive
@mactive 29 дней назад
大飞以后会有机会搭建的
@kangcc912
@kangcc912 26 дней назад
是不是可以戰略合作。 google、open AI等 共同搭建,各自訓練。 以君子協議 或其他契約 限制公開的D day, 可能同時同天,也可能基於其他參數調整發布的先後順序。
@hugo-sd1zi
@hugo-sd1zi 8 дней назад
業務競爭,老大飽,老二餓,老三死.....
@havenqi3261
@havenqi3261 28 дней назад
指明了devops的未来😂
@zhiboli8306
@zhiboli8306 28 дней назад
学习了,虽然大概率用不到🤣
@hugo-sd1zi
@hugo-sd1zi 8 дней назад
就跟了解登月技術一樣,聽聽,就算有錢也不一定會自己去做的
@yangyang1412
@yangyang1412 28 дней назад
哥 你很幽默喔 你覺得你的ta有誰有能耐或需求要知道怎樣搭100k h100 cluster
@kaizhu1142
@kaizhu1142 28 дней назад
Leaf交换机就可以,不需要翻译成叶交换机。
@bestpartners
@bestpartners 28 дней назад
ok
@vincentwang9599
@vincentwang9599 29 дней назад
这期硬核系列 不过依旧感兴趣 对想了解AI产业的人来说 (大飞最近换收音设备了吗)
@bestpartners
@bestpartners 28 дней назад
没换,是收音有什么问题么
@vincentwang9599
@vincentwang9599 28 дней назад
@@bestpartners没什么问题,不过听上去有种空旷感,个人感觉是回音造成的。
@bestpartners
@bestpartners 28 дней назад
@@vincentwang9599 好的,我看看怎么调整下
@changxu21
@changxu21 27 дней назад
我想问一下各位大佬,未来ai算力是趋于集中还是趋于分散或者分布式?对于2-5年没什么好讨论的集中更多算力才能训练更大的模型,如果把时间尺度放到10-20年是一个什么趋势?
@hubertw9752
@hubertw9752 27 дней назад
个人认为:基于目前的GPU技术,AI算力希望不断扩容但是电力无法支撑算力集中,趋势是跟随电力资源去分布算力。如果下一代专门针对LLM的TRANSFORMIER计算的专用芯片成功推出,能耗承几十倍的下降,算力分布会向集中靠拢。电力的供应和消耗成为驱动因素。
@changxu21
@changxu21 27 дней назад
似乎有些思路了,也就是说算力本身是趋向于集中,而受限于电力供应,不得不考虑能源分布,而导致算力分散。是这个意思吧?从生物界也许能推出这个结论,单个生物体的神经元规模越来越大,就像人类为了发育足够的脑容量,"早产"出生。
@hubertw9752
@hubertw9752 27 дней назад
@@changxu21 目前GPU的解决方案是把并行计算发挥到及至,在处理有大量数据背景的AI问题上远超CPU。就是老黄说的“加速运算”。但都是数据及运算分离的,大量资源消耗在数据搬运上,所以能耗惊人。因为电力瓶颈所以算力分散。美国好像目前有多达16家创新公司在搞核电。哪天核能突破,电力瓶颈就会消失。即便算力集中了可是数据中心的位置又会受到散热、水源左右,会建在远离城市的海边、湖边或两极;人脑不然,860多亿神经元,整个功率大概20W。据称结构是存算一体的。计算机是硅基的而人脑是碳基的。从材料到信息原理,人脑到底是如何工作已经能否被“仿生” 还是一个未知数,无法类比。
@zcq6516
@zcq6516 27 дней назад
只要scaling law没有看到尽头,集群的规模也看不到尽头
@hugo-sd1zi
@hugo-sd1zi 8 дней назад
最後整個地球就是一台量子計算球團,能量是包裹太陽的戴森球....
@Guavaava
@Guavaava 28 дней назад
我好像读了这篇文章的一部分,因为舍不得花钱订阅读全文😂
@bestpartners
@bestpartners 28 дней назад
其实最后就剩了一点了,不多了,免费可阅读的部分占了 85% 左右
@Guavaava
@Guavaava 28 дней назад
@@bestpartners 舍不得花钱看全文的人肯定都没有40亿😂
@yanjh222
@yanjh222 28 дней назад
讲个好故事,找马一龙啊
@netoearth
@netoearth 28 дней назад
冯诺依曼体系不存在了,物理学不存在了,超高速网络,存储,架构全部需要重新设计了,苹果还在死守8G不动摇!
@LeonZhangxiaolin
@LeonZhangxiaolin 28 дней назад
膜拜这位大佬,求联系方式
@bestpartners
@bestpartners 28 дней назад
原文链接放视频简介里了
@LindaZhang-fh2ck
@LindaZhang-fh2ck 28 дней назад
好奇怪谁会有需要看这个,老黄要沦落到这样推销的地步还需要一些时间吧。
@mengmeng4312
@mengmeng4312 28 дней назад
😂😂😂
@frank_zhao
@frank_zhao 27 дней назад
可惜只是泛泛讲了下,没有细节
@bestpartners
@bestpartners 27 дней назад
还得多细啊,你是有40亿美元打算搭一个么😁
@frank_zhao
@frank_zhao 27 дней назад
细节比如用备份设备替换,那业务要怎么适配,如何替换故障轨道的gpu;再比如为什么是7:1收敛比,有什么讲究,阿里是15:1,等等了
@frank_zhao
@frank_zhao 27 дней назад
没别的意思呀,我只是想了解些细节,因为自己不懂
@bestpartners
@bestpartners 27 дней назад
@@frank_zhao 没事,这得有机会慢慢做了,随便一个问题拿出来可能都得讲半天了
@yuguo7138
@yuguo7138 28 дней назад
谁借我40亿美元我自己搭个练习一下。
@user-qz9mx8pr4r
@user-qz9mx8pr4r 27 дней назад
本来以为会增加一些没用的知识,可点进来之后,虽然每个字我都认识,但说的是啥?一句没听懂!!😮‍💨😮‍💨😮‍💨
@3742185
@3742185 28 дней назад
有40億美元我還不放著給他生利息就可以過上好日子了,幹嘛瞎折騰
@user-it7ds3px6b
@user-it7ds3px6b 28 дней назад
我支持核電
@hugo-sd1zi
@hugo-sd1zi 8 дней назад
最後整個地球就是一台量子計算球團,能量是包裹太陽的戴森球..
@corgirun7892
@corgirun7892 28 дней назад
懂了,这是博通的带货广告
@bestpartners
@bestpartners 28 дней назад
博通得给我广告费了🤣
@forcebender5079
@forcebender5079 28 дней назад
这集的标题应该是:“如何让NVIDIA的显卡卖的更快”,没兴趣看广告,撤了。
@bestpartners
@bestpartners 28 дней назад
嗯,我应该管老黄要广告费啊🤣
Далее
从GPU到IPU:忘记英伟达吧,未来在这里!
9:40
WE GOT ACCESS TO GPT-3! [Epic Special Edition]
3:57:17
Просмотров 280 тыс.