AMD MI300與AI到底有沒有搞頭?

Подписаться 21 тыс.

Просмотров 31 тыс.

50% 1

「少林功夫加唱歌跳舞有沒有搞頭?」
從觀眾的反應看來似乎是沒搞頭的
但是這絕對不是這個概念本身的問題，而是因為五師兄跟大師兄只練過功夫
你叫他來練唱歌跳舞，實在是太勉強了。
同樣的，MI300加上AI，這個概念聽起來完全沒問題，
但是根據市場的反應來看，怎麼好像叫好不叫座呢?....
影片章節:
00:00 開場白
02:42 AI training和inferencing
05:21 生成式AI的硬體需求與挑戰
09:00 MI300 vs H100
11:08 Nvidia DGX的通訊技術以及 Network Topology簡介
15:00 MI300的缺點
15:42 MI300失敗了嗎?
18:09 主委加碼淺談Nvidia L40
18:53 系統設計才是王道

Наука

Опубликовано:

24 июл 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 276

@Tech4AllYall 10 месяцев назад

果然太久沒上片，說好要加章節結果完全忘記😅 00:00 開場白 02:42 AI training和inferencing 05:21 生成式AI的硬體需求與挑戰 09:00 MI300 vs H100 11:08 Nvidia DGX的通訊技術以及 Network Topology簡介 15:00 MI300的缺點 15:42 MI300失敗了嗎? 18:09 主委加碼淺談Nvidia L40 18:53 系統設計才是王道

@Tech4AllYall 10 месяцев назад

另外補充幾點: 09:14表格裡的數字單位是TFLOPs，MI300A的數據是由AMD提供，但是官網上並沒有註明2,507 TFLOPs是在多少的使用率(GPU utilization)之下得出來的數字；H100 SXM5的數字則是取自於Nvidia官方資料如果對於Network Topology有興趣的人可以去Dr. Ian Cutress的影片，裡面講的更詳細 (ru-vid.com/video/%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE-8teWvMXK99I.html) 如果是對Google TPUv4有興趣的人，可以看看他們官方發表的文章，裡面有提到他們客製的OCS通訊設備，用的不是ring bus/mesh/crossbar，而是一個3D甜甜圈(對，你沒看錯就是甜甜圈，正式名稱叫做3D twisted torus)的topology

@user-ux7uj6iz7g 10 месяцев назад

華爾街的笨蛋：好的,搬一台超級電腦來狙擊他的資產~~

@user-mm7ot5zq2c 9 месяцев назад

AMD MI300的特色之一就是整合CPU與GPU,可以大幅減少CPU與GPU通訊上的限制,減少硬體資源的浪費,榨乾GPU的性能,雖然MI300沒考慮串聯多個伺服器,但十分有利於中小企業,這正是nVidia比較疏於照顧的市場

@user-mm7ot5zq2c Месяц назад

當你拿AMD與nVidia的AI伺服器做比較時,你其實等於是拿香蕉與草莓在做比較,哪個比較香甜?AMD最具有優勢的是x86 CPU與GPU的整合方案,並非AMD無能力提出單純GPU與GPU之間的串連的NVLink,而是AMD的方案是考慮x86 CPU與GPU的整合(GB200已經不用x86 CPU)。換言之,當你的比較方案完全排除x86 CPU,那就只是nVidia的業配文,不值得一看,因為少了x86 CPU,只有GPU,根本沒辦法用在x86 AI運算上,nVidia自己另創ARM CPU,也就是GB200,市場接受度還是未知,這麼快就喊AMD完了,是搞笑?APPLE也是另創ARM CPU,那是APPLE本身在軟體上也很強,nVidia在軟體上也只是小學生,剛起步而已

@JarryLu 10 месяцев назад

原本還以為這頻道沒有要繼續經營下去了🥲

@Tech4AllYall 10 месяцев назад

別高興得太早喔😇

@bailianqi2698 10 месяцев назад

@@Tech4AllYall 你的意思是還有大的在後邊？

@windholygainsborough3653 10 месяцев назад

我也是這麼以為的，局座去忙工作放棄YT了，沒想到忽然跳出這個推薦影片!!!!!!!

@jaycez3971 10 месяцев назад

Hahaha

@Tech4AllYall 10 месяцев назад

哈哈我自己也說不準，不想給大家錯誤的期待好像接下來就會穩定上片，我只能答應大家每次出片都會有一定的品質

@Cdictator 10 месяцев назад

第一次听你的节目，感觉做的很好，条理清晰，浅显易懂。赞一个👍!

@user-ir2sy9ut1e 10 месяцев назад

講的相當好啊感謝讓我了解到很多之前不知道的東西 ps:我很喜歡你的節目呢不管講解還有語氣表情的表達都很不錯讓我很喜歡繼續看你的影片

@sianghuang7277 10 месяцев назад

終於等到啦！架構型YT唯一支持

@user-dw9tk6vh8f 10 месяцев назад

謝謝您分享您的經歷與見聞，採用深入淺出的舉例，讓我瞭解AI產業相關的聯結，系統整合的重要。

@DavidLonelyHK 10 месяцев назад

回來了真好, 很喜歡你的分析 👍

@user-on9uk7mi6v 10 месяцев назад

啊啊啊爺爺公賣局更新啦希望大大您好好準備頻率不用高沒事的但希望每次更新都很有品質🙏

@takahirokan 10 месяцев назад

感謝分享，每次都能學到很多。之前還以為以後都看不到您的影片了🥲

@yrrekad 5 месяцев назад

太清晰了！希望你能多發片！

@legiongun7678 9 месяцев назад

內容十分充實，解開了一些不瞭解的地方，感謝。

@user-it7ds3px6b 10 месяцев назад

感謝講解 , 滿滿的真材實料 !

@810602jay 10 месяцев назад

睽違一年多頻道突然復活了!! 🥰🥰🥰

@F1ve-seveN 10 месяцев назад

等了好久終於出新片了🥺

@yifter4043 10 месяцев назад

太讚了，等這個主題等好久，謝謝你

@w02190219 10 месяцев назад

很棒ㄟ很喜歡這樣的影片說明方式! 很有學習的感覺

@gigabytechanz9646 10 месяцев назад

MI300 的目標客戶是中小企業，一般祗用1-4張 GPU 做 fine-tune, 最緊要 VRAM 多! 這卡正好合乎要求！

@farosislee83 6 месяцев назад

这么个啥波一回复居然还有这么多赞？所以微软是小企业哦，甲骨文脸书是小企业哦，连amd为啥没急着做switch都没搞明白就在这儿瞎勾巴扯，mi300首先是要抢inference市场，而不是training

@isthiswhat3961 10 месяцев назад

WOW 歡迎回歸! 還以為你不拍了

@rw227 10 месяцев назад

邊看邊落淚...終於回來了

@linkengyu 10 месяцев назад

終於更新了👍

@oggysecond 10 месяцев назад

學到很多，影片製作辛苦了🙏

@neil1619 10 месяцев назад

終於等到更新了！

@EmpressHsiao 10 месяцев назад

等很久了!!! 快點!!!

@Tech4AllYall 10 месяцев назад

久等啦～

@Laurence9651 10 месяцев назад

終於回來了！🎉

@morgan91204 10 месяцев назад

終於回來了有夠感動🥲

@user-sm1uq7nx1f 10 месяцев назад

歡迎大哥回歸真的是乾貨滿滿

@user-br5wt3hf6y 10 месяцев назад

太好了又看到你了你的節目品質很好

@lokeung0807 10 месяцев назад

歡迎回來🎉

@planck731 10 месяцев назад

回來了～感動

@samwu8070 10 месяцев назад

很有內容，有吸收到新知。

@Kyodouglas 10 месяцев назад

終於更新了！

@user-vq7dw6py9d 4 месяца назад

听到过最娓娓道来，系统性能听懂的视频，赞👍

@user-ql6jm6vt4i Месяц назад

天啊我今天才注意到你的新影片

@henry41224 10 месяцев назад

久違的更新

@limitli1117 9 месяцев назад

Twitter有人推荐。看完感觉太厉害了。知识量强大。讲述清晰。❤

@chiishenq 10 месяцев назад

局座回歸，期待中~ 我最近也在研究MI300，特別是MI300A型採用UMA ，看到有國外用 APPLE M2 ULTRA 192GB 跑AI訓練模型 C/P值超高，或許AMD 可以開發類似產品不走HBM 改走 DDR5拚記憶體容量

@yaus0527 10 месяцев назад

😂M2 soc2soc沒有比較強對小模型M2 cp高 MI300在大模型比較好

@Tech4AllYall 10 месяцев назад

接下來模型只會越來越大、參數越來越多，我們還是不要對單一一個處理器有太大期望😅

@Johnathan-_- 10 месяцев назад

確實我用m1 16g記憶體就可以跑1920*1080的stable diffution，統一架構記憶體在ai領域以個人研究個人應用確實很有優勢

@jerrylee8207 10 месяцев назад

嗚嗚嗚終於等到更新了

@amia0328 10 месяцев назад

終於更新了

@user-tn3kj3id8n 10 месяцев назад

非常感謝解說如此清楚😀 最近IBM New Analogue Chip看來是很前瞻的設計，是否能講解一下😂 存算合一使是否才是打破馮諾依曼瓶頸？

@MrDoraHo 10 месяцев назад

MI300 開發的時候就多是為了科學運算吧主要科學運算的特性跟AI training 有點不同科學運算主要都是做numerical simulation, 都是用Float64居多而且現在的numerical code 主要都是memory bound, 所以不是用的不是CPU上DDR八通道就是GPU上HBM 如果你把MI300跟上面兩點相比一下, 就發現prefect match了

@stonk5603 10 месяцев назад

你終於回來了等你好久

@judahxiiiyoung7320 10 месяцев назад

我靠，你終於回來了！你不要走啊！ #好了評論完了可以開始看影片了

@dare-to-come-down-ice-bird 10 месяцев назад

感動竟然回來了！！！！

@Tech4AllYall 10 месяцев назад

我剛剛連你名字一起看，看成還敢回來啊冰鳥

@handswasher 10 месяцев назад

Long time no see ! Missing you !

@user-zs6rm1bd2h 10 месяцев назад

這頻道很專業加油

@philsheu712106 10 месяцев назад

邊看邊落淚...終於回來了+1

@Steve-tn9ep 10 месяцев назад

A great AI101 session. 👍

@nengkong3071 10 месяцев назад

哇好久没看到更新了

@mmo1239 10 месяцев назад

回歸了感動

@user-oc9is4ml4e 10 месяцев назад

優質頻道，讚

@drsecu4352 10 месяцев назад

未看先留言支持一下，畢竟下部片不知道要等多久😂

@Tech4AllYall 10 месяцев назад

你懂

@kevinlantw 10 месяцев назад

其實有點可惜沒有講到關於應用上MI300有多大的門檻要跨這件事。看新聞，就知道所有在做AI的大公司都瘋狂的在搶NVIDIA的AI運算硬體，我都開玩笑說NVIDIA的產量限制了整個人類的進步XD 那為麼有更好的硬體不去用，還要跟人去搶NVIDIA的產品？有原因的嘛～真的光是硬體設計夠優秀是沒有用的，沒辦法把軟體開發環境等整個生態系建立起來，搞得大家用起來門檻很高很麻煩，沒辦法“It just works"，那就是失敗。大部份會去做AI Training的人剛開始入門的時候用就是學的某個框架，之後要大量使用的時候，也都會直覺得待在這個生態系。因為我只是要training model，專注的是思考新的訓練的方法，參數怎麼調等等，不太想花時間在轉換生態系這件事上面。舉個例子，大家用Windows，是生態系的關係，不是因為Windows有多好。Linux即使再好，再安全，再開放而且都能客製化還免費，這跟「一般使用者」沒有什麼關係，他們還是不想花時間在轉換生態系這件事上。再舉個例子，寫程式不就是有個基本的文字編輯器（notepad或vi）跟terminal就好了嗎？幹嘛要用IDE還被綁住？如果今天是學術機構（不像企業有那麼強的時間跟競爭壓力），或有天才型工程師，能不受框架限制把所有硬體都運用自如，那很好啊？！就可以去用MI300或其它的硬體，沒必要被NVIDIA綁架。不過很可惜的是，真正需要大量AI硬體的大企業，他們有時間跟競爭的壓力，他們就是那個會被生態系綁架的那個「一般使用者」。

@user-xk4xf1rf5m 10 месяцев назад

您回來啦!!!!!!!!!

@Tech4AllYall 10 месяцев назад

原來是連爺爺的部分啊

@artnotes 10 месяцев назад

好久没看到这人了，嘿嘿，大佬又出来了。不过AI训练一般用Float32，或者NV自己的TensorFloat32（简化精度，保留动态）。推理用INT8比较多。不过LLM这些主要依靠的Attention还是需要用浮点数否说损失比较大（虽然也研究用简化的INT8）。用INT8-INT4 有2个好处一个是计算速度变快对于便携系统来说主要是这个好处。但是对于LLM来说是另外一个好处。就是内存访问量变小了。LLM推理速度一般是哪内存速度限制了，因为权重太多每次推理相当于要把内存都扫描一遍。不过说到训练其实也有2种模式。一个是小模型通常采用内存换速度。也就是在Forward的时候记录所有的数据，在BackProp的时候直接录用FW的数据计算Gradient。不过随着模型变大，要Cache就不太可行了，那么就只能记录部分数据，剩下的重新计算。到了最后只能用速度换内存。也就是不记录任何数据，吧整个结构设计成可逆的。算到FW终点之后，BP的时候完全再反过来随便一遍。这也是LLM常用的模型。所以LLM 非常吃频宽和计算速度。而一般的小模型带上所有的Cache可能也就10G左右。

@BKmvLog 10 месяцев назад

辣個創作者回來了！

@diss56789 7 месяцев назад

推推優質頻道另外可否講一下ROCm 6呢? AMD是否有持續改善在軟體開發環境上的劣勢呢?

@Tech4AllYall 7 месяцев назад

有，這個部分可以參考MosaicAI在六月發佈的消息，他們其實已經使用MI250X一陣子了，簡單來說我自己對ROCm還蠻有信心的，我更擔心的可能是硬體方面，Nvidia未來每年都會推出新的GPU/AI accelerator，AMD不能只透過堆料的作法來跟別人競爭，況且Nvidia光是這幾個月就推出了不少針對AI軟體而做出的更新，老黃不會傻傻的沒有動作讓對方追上

@diss56789 7 месяцев назад

@@Tech4AllYall 了解感謝回覆~

@limitli1117 8 месяцев назад

一直期待您的分享和看法！！英特尔最新 HPC 和 AI 计划的大量更新，包括有关第五代 Emerald Rapids 和未来 Granite Rapids Xeon CPU、Guadi 3加速器、对标Nvidia H100 GPU 的新Max 系列 GPU 基准测试的新信息

@Tech4AllYall 8 месяцев назад

Intel純論產品而言的確是非常有趣，但再好的產品如果不能在適當的時機上市，那就難免陷入生不逢時的問題，就像Ice Lake Xeon還有Sapphire Rapids遇到的瓶頸一樣，產品不錯，但原先預想的對手產品早就已經在市場上流通已久，等到上市的時候已經太遲

@Baliyoho 10 месяцев назад

強勢回歸！

@asddnbn 10 месяцев назад

大哥回來啦

@petercandylee 10 месяцев назад

NVLink is a connection between the CPUs and GPUs , so between sockets. The Infinity Fabric is many things more as it's build within the CPU/GPU, provides a link between dies and across sockets. Infinity Fabric isn't a kind of hypertransport but a superset of it. NVLink 是 CPU 和 GPU之间的连接，也是插槽之间的连接。 Infinity Fabric (AMD) 具有更多功能，因为它构建在 CPU/GPU 内，提供芯片之间和跨插槽的链接。 Infinity Fabric 不是一种超传输，而是它的超集

@samuelyeung03 10 месяцев назад

等你好久了

@petercandylee 10 месяцев назад

From Tom’s Hardware The MI300 3D design allows for incredible data throughput between the CPU, GPU and memory dies while also allowing the CPU and GPU to work on the same data in memory simultaneously (zero-copy), which saves power, boosts performance, and simplifies programming.

@user-cb6tg8xl9q 10 месяцев назад

等好久了

@corychan1223 10 месяцев назад

先讚再看

@user-nu5mb9qw8v 10 месяцев назад

昨天來翻看舊片，今天竟然更新了 😂😂

@Tech4AllYall 10 месяцев назад

原來是你貢獻的流量🥺

@ChihMinChao 10 месяцев назад

重磅回歸

@yaus0527 10 месяцев назад

回來了🎉🎉

@ryoushousou8774 10 месяцев назад

終於回來了。我都懷疑您是不是在美國遭遇槍擊案了🤣

@Tech4AllYall 10 месяцев назад

I’m the one who knocks 😎

@LightnessRevant 10 месяцев назад

極端的例外： Crisis初代就是直接用未上市的G80晶片做開發平台

@leechen7235 10 месяцев назад

very well articulated

@dreamerfish929 10 месяцев назад

大師兄回來啦！

@Tech4AllYall 10 месяцев назад

食神歸位～

@蒼之月日常 10 месяцев назад

爺爺你喜歡的貧終於更新了xd

@johnnytshi 3 месяца назад

Actually, in LLM, higher memory is way more important. If you have to sync intermediate values, it's a lot slower. So if the chip can hold the entire model, that would be the fastest, with data sharding only.

@harrison_chiu 10 месяцев назад

什麼，竟然回來了開心

@VGNYuanYuan 10 месяцев назад

之前有聽過用M2 Ultra來做成離線使用的AI（LLaMA)，因為他的統一記憶體剛好符合AI需要的大型記憶體

@Tech4AllYall 10 месяцев назад

但問題在於這些離線AI模型品質和速度其實跟不上現行商業等級的，而且也不會有人為了可以離線使用AI砸大錢買一台192 GB的M2 Ultra Mac Studio，畢竟現在只要能上網就能免費用ChatGPT等等的免費AI

@user-bl8gd6yu6e 9 месяцев назад

HBM跟UMA完全不是一個等級唯一的好處只有記憶體大但頻寬只有人家的 1/3 ~ 1/5 加上處理單元數量差太多整個加成效應會很大 NVIDIA 先前之所以想買ARM 說穿了也是看中這一點 GPU目前也是需要高性能的CPU相輔相成可惜沒成功～～～

@Robertyiwan 10 месяцев назад

感谢回归！

@user-to9ls8sw1x 10 месяцев назад

目前超級電腦的CPU連結還是和以前的大型電腦的方式一樣，只是設備更快而已，有機會介紹超級電腦的CPU連結方式嗎？英國的IMS T800是用4面都有一個BUS和其他CPU連結的通訊方式，兩點間的中間CPU是By Pass ，當初看雜誌是這麼介紹，不知有無記錯。

@Tech4AllYall 10 месяцев назад

這個還真的要去做點功課，但我的直覺是，這些超級電腦很多設計是不對外揭露的，我們能找到的資料可能不多或是很舊，我可以試著去找找看啦，也蠻有趣的

@user-to9ls8sw1x 10 месяцев назад

謝謝@@Tech4AllYall

@user-bl8gd6yu6e 9 месяцев назад

MI300 問題除了串接成一個巨大算力之外他的軟體生態發展晚本質上是沒辦法跟NVIDIA比較的現在所有訓練推理模型預設都是跑TensorFlow以及PYTORCH 在CPU市場也是一樣過去AMD的cpu 只有支援雙路即使他的threads 已經非常非常的龐大但是intel早已經支援八路多路系統最主要差異在於串接後記憶體的容量整個上來在傳輸上面目前並沒有一個比較快的跨晶片傳輸即使是nvlink記憶體延遲仍然十分龐大主要在於要共享資料的時候必須要穿透彼此晶片的cache或者記憶體穿透出去就是慢現在晶片的die與功耗越來越大也許以後單個wafer生產製作成一個晶片的會越來越流行另外就是更大晶圓的生產.

@petercandylee 7 месяцев назад

如果深入研究 AMD 目前的产品、MI300、其路线图和人工智能领域，人们会意识到它将成为一个重要的参与者。十年前，英特尔在数据中心 CPU 领域的主导地位比 NVDA 在 GPU 领域的主导地位更强，前者为 100%，后者为 85%。 AMD一度濒临破产。英特尔希望AMD能够生存下来，并借钱给AMD，这样就可以避免美国政府的垄断诉讼。如今，AMD 正在像廉价的周日自助餐一样吃英特尔的午餐。硬件、软件和网络是人工智能基础设施的三个主要构建模块。 1. 硬件 MI300 (AMD) 比 AH100 (NVDA) 更先进：更多内存、带宽和 TOPS（每秒万亿次操作）。使用 16 位数学进行的 AMD 和 NVDA 基准比较测试显示了这一优势。 NVDA 通过使用 8 位数学运行相同的测试来谴责它，并显示出更好的结果。 AMD 反驳，NVDA 没有回应。 AMD 小芯片设计和 3D 内存封装比 NVDA 具有固有的硬件优势。另一个重要事实是MI300使用了台积电5/6纳米节点，而AH100则使用了台积电4纳米节点。 AMD可以通过切换到台积电4nm节点来快速超越NVDA。 2、软件毫无疑问，NVDA 在软件方面遥遥领先。 AMD通过收购Xilinx招募了大量软件人才。 AMD 开源方法得到了软件开发商的热烈支持--Microsoft、Meta、AWS、Oracle、PyTorch、Hugging Face……。随着开源人工智能软件的成熟，NVDA 的市场份额将大幅输给 AMD。 3. 网络以太网是数据中心网络的标准，但如果AI集群规模庞大，它的速度会比NVDA的NVLink慢。网络之王正在开发高速版本的以太网来挑战 NVLink。当它到来时，NVDA Networks的优势也将消失。

@ryankofish 10 месяцев назад

講的太精彩了，真正的戰場是 PUE

@2011eric 10 месяцев назад

天啊失蹤人口終於回來了

@petercandylee 10 месяцев назад

MI300 GPU chiplets share the unified memory. Can they not communicate with each other using the shared memory?

@user-sb5vz8ux4e 10 месяцев назад

您終於想起您的yt帳號了...

@tp27273529 10 месяцев назад

!!!!想說ig跟yt都沒有更新是不是不做了竟然又有影片了!!!

@Tech4AllYall 10 месяцев назад

說真的，我即使是之前還有固定在更新影片的時候也都懶得更新ig哈哈哈😆

@unclesam8565 10 месяцев назад

博主分析的关于inference 的有误 MI300x 的推理能力很强主要是每个gpu 有192G vram 大概每个nose 放4个 mi300x 利用infinity fabric 连接可以接近有800G 容量可以舒舒服服跑GPT3类似的模型。mi300 在LLM inference 上性价比完爆H100 并且MI300x 的产能有优势。

@Tech4AllYall 10 месяцев назад

數據，尤其是inference都是兩家公司官方的資料，而且這還沒考慮到實際的FLOP utilization。退一萬步來說，真的那麼棒那怎麼大家都去買H100呢😊

@petercandylee 10 месяцев назад

There are a couple of reasons why MI300 is not selling 1. It is not ready - it won't be ready until next year 2024. 2. The older versions (MI250, MI100) are not selling well because the supporting software is not mature. But this will change because large software houses Microsoft, Pytorch, and Hugging Face are helping AMD to optimize its software. Large tech companies want to have a second source.

@sjcabbw 6 месяцев назад

SOC, system on chip, 系統一直在被集成一個單一晶片. 所以根本無所謂系統重要或晶片重要 , 因為今天的系統可能就是明天的晶片.

@user-rc6qo5zs8q 10 месяцев назад

完全同意！特斯拉的Dojo就在整个系统(Full Stack)下功夫。

@Tech4AllYall 10 месяцев назад

沒錯，這就是system engineering

@matrisys 10 месяцев назад

獨到的見解，AI設計上的一股清流

@Roku__1116 10 месяцев назад

突然看到推薦影片還以為是舊影片🥹

@xiaolong174 10 месяцев назад

datacenter tax 比单纯TDP重要，软件决定系统资源的利用效率

@f125532170 10 месяцев назад

哎呀～找到YT密碼啦

@MurphyChu 10 месяцев назад

哇! 失蹤人口回歸

@Tech4AllYall 10 месяцев назад

失蹤人口自己投案了

@watergod420 10 месяцев назад

挖賽，這支影片讓我茅塞頓開。不然我就是發佈會台下的那些華爾街笨蛋XD

@samuelyeung03 10 месяцев назад

我有個突發奇想既然nv link頻寬那麼大有沒有可能透過nv switch 增加下級記憶體為不影響性能的情況，大部變數還是儲存在gpu內部，常數全部放在下級記憶體，這樣的話對常數的讀取還會加快。而且可以更改軟體，training的時候隨機鎖定部份變數然後儲存到nv switch上的ddr6 省下內的空間可以放下大一點點的模型雖然應該不會加大很多但再配合大量ddr5應該或許有效當然啦，可行性未知，也會消耗大量電源

@yaus0527 10 месяцев назад

在GH100架構上 NV就是把所有 memory 弄成一個池 Data access可以機過機

@samuelyeung03 10 месяцев назад

@@yaus0527 我的意思是在nv switch上再外掛記憶體

@yaus0527 10 месяцев назад

@@samuelyeung03 沒有好處本身NVLINK 已經是 IO需求極工的晶片還加上Memory 面積會加得很多