付费内容解禁特斯拉FSD V12 端到端自动驾驶解析

Jackson在美国

Подписаться 4,3 тыс.

Просмотров 55 тыс.

50% 1

Видео Поделиться Скачать Добавить в

付费内容解禁端到端自动驾驶解析
为什么自动驾驶不需要雷达？
普通人能看懂的AI技术原理不管是FSD V12还是ChatGPT，看完让你都弄懂！！

Опубликовано:

30 сен 2024

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 256

@jiaweihu3194 2 месяца назад

12:50这里老司机的举例感觉不太恰当，再有经验的司机也有少数没遇见的情况，比如上个月的夜间高速坍塌，死亡几十人。你就是开了一百年的车，该看不见还是看不见，而激光雷达就是为了应对这种极端场景。后续拿雷达比喻成新司机，更是不妥。在现阶段自动驾驶还不成熟阶段，鼓吹纯视觉方案，有种特斯拉精神股东即视感。

@kevinlai4542 2 месяца назад

你的意思是激光雷达能预测高速坍塌🤔 ？

@jiaweihu3194 2 месяца назад

@@kevinlai4542 激光雷达，低照度环境下几十米外的深坑还是看得见的。不知道你怎么理解成预测高速坍塌。

@terry1708 2 месяца назад

任何理解基本物理的人都知道，无论是视觉的摄像头，还是激光雷达或者毫米波雷达，都会有自身优势和缺陷。这些都是自动驾驶的眼睛。而AI算法和算力是自动驾驶的大脑。眼睛不好，大脑再强也有极限。同样高水平的大脑，眼睛强比眼睛弱好，在特别情况下更是如此。举个例子，小雨天对面开了远光灯，对摄像头是致命的。大暴雨沙尘暴对激光雷达和摄像头都要命，但是4D毫米波雷达就还好。所以为特斯拉辩护的人，我想说，你可能只是入教了，迷信了。

@bena69 2 месяца назад

相信特斯拉单视觉比雷达+视觉更强的人你就别跟他解释和聊天了，因为他们连基础的物理学都不懂。

@yevgeny5756 2 месяца назад

咋可能啊，激光雷达又不是神仙，也有分辨率的，也要有训练场景的。

@lee5403 3 месяца назад

兄弟，你真的很适合当trainer. 之前无意间看到你一期节目就开始关注你，到现在这期感觉你水平又提高了好多。我看过很多讲解端到端技术的博主，但你讲的真的深入浅出，一听就是内行，让人对端到端技术充满信心，说实话，我听得有点小激动.我就是单纯喜欢特斯拉的技术和愿景，作为一个投资美股多年，去年最高盈利100%，结果被特斯拉一只股票拉低到只剩不到30%，但还是没卖一股的小散来说，你应该能明白我为啥看到你的视频会有点激动吧，哈哈. 能把复杂的东西讲得这么简单，真是难得的能力。加油，继续发布好的视频！

@jingguojiang6975 3 месяца назад

确实，这位博主也是我见过讲FSD中讲得最好的❤

@dada373678229 3 месяца назад

他讲的其实很多并不准确。。

@yanfang999 2 месяца назад

他这个视频只要不能证明视觉>视觉+雷达就是白扯，如果要考虑成本，不用自动驾驶成本更低。

@荒唐镜-s4c 2 месяца назад

自动驾驶真的智能了，早上送你上班，然后它就去自己跑滴滴了，兴奋吗😂😂@@yanfang999

@alibaba44rob Месяц назад

………………送你一句话：吹牛逼都好得很，the evail is in the details.

@terry1708 2 месяца назад

视觉＞雷达，但是视觉＜视觉+雷达

@俊罗-q9r 3 месяца назад

很惊讶这个视频会有 100+评论座位一个有2000+ 订阅的博主我给这条视频几点负反馈 1. 视频提到摄像头可以做到所有信息，信息不浪费喂给AI 学习。这简直是在胡扯，特斯拉的8个摄像头捕捉的视频内容本身就需要缝合拼接，摄像头镜头本身就是鱼眼图像是畸形的。所以抓取回来的视频肯定是有信息丢失的。其次你说AI 通过学习视频看什么车窗反光镜提前预判鬼探头刹车，这更是胡扯，当前摄像头的画质清晰程度根本就达不到，就算达到了，图像在做本地端上AI 推理计算的时候必然会压缩，而且更具这个就觉得会是一个关键的像素标记点真的对图标标注很业余。 2. 视频提到自动驾驶的终极路线是视觉。这个目前只能说目前视觉方案稍微领先，相比对于激光雷达而言，雷达带来的数据不但有精准的大小数据还有距离和时间，而且是三维一体的。如果全部通过摄像头来做也不是不可以，那就回到1，你有没有能力通过纯摄像头同时拿到物体大小，距离，时间，特斯拉通过 BEV 娘看模式+transfer似乎准确率在不断提高，但还是那个观点，姚明能灌篮，不等你你能灌篮。汽车的安全只有 0 和 100% ，无限接近的99.99999999%没有意义 3. 把1亿个司机的开车视频给他看，他就会了？？？？？如果选出这1亿个司机室标准的好且守法的司机。先让AI 看10一亿个好司机标注了然后回来喂？ 4. 人确实是靠眼睛来开车，但是不能成为纯视觉就是自动驾驶解决方案的充要条件。按你这个逻辑，早期的飞机都靠人眼，那战斗机为啥后面还要上雷达？不要一味迷信马斯克，作为一个大V 博主，可以有自己的观点，但劝你善良。

@JacksonSHR 3 месяца назад

123 说的都不对，第四更是离谱，这个世界上最离谱的比喻就是飞机了，请问车需要在几马赫的速度行驶的同时发现几公里外的目标吗？能举出这个例子来你其他的问题我连理都不想理你了，完全没脑子。告诉你如果飞机在 120 公里以下飞行并且周围全是遮挡只需要看三百米之内，他也不会用雷达

@TpBrass0 2 месяца назад

首先魚眼鏡頭校正根本不是給AI的任務再來calibration 根本是做爛的問題而且你很怕拼接不好的話你會增加各鏡頭感知範圍再去除邊角料後再去處理圖像壓縮？你是買不到卡只能用1050跑嗎？後面這機率說明簡直民科都不如高中畢業沒？

@kimixiami2325 Месяц назад

0和100%, 这么可笑的说法，大概是幼儿园学算术的水平

@kobedirk 3 месяца назад

其實模塊化有個淺顯易懂的例子，要是你開車的時候是閉上眼睛聽副駕告訴你前方有什麼東西來進行決策的話，我看你還能多好的開這趟車，不車禍也難。

@horngbill6010 3 месяца назад

想像用 fsf v11 开车多可怕

@waffenss1234567 3 месяца назад

所以v11不適合無人必須人類全時用眼睛雙手隨時介入

@horngbill6010 3 месяца назад

@@waffenss1234567 v12 系統有 bug，需要專注前方路況，免得反應不及。

@wuhao-de1yn Месяц назад

up，建议对比一下极端天气条件下，视觉与雷达的区别。

@RQcube 3 месяца назад

這個視頻很適合丟給還不太懂AI有強大的人看，感謝分享

@bling-bling8 Месяц назад

真是這樣嗎？🤪😜😂😂😂😂 模仿人類視覺，難道不知道人類視覺盲點嗎？比如：起霧、下大雨……造成視線模糊，這FSD能行嗎？🤪😜🤣🤣🤣

@ChengJian-u3l 3 месяца назад

神经网络和雷达不矛盾。雷达可以补充视觉方案看不到的信息，神经网络的一切优势都可以在雷达信息上应用。特斯拉不用雷达我认为就是为了省钱，马斯克在这个点上有些偏执了。但考虑到做出这个决策时激光雷达确实又大又贵，也可以理解。

@TpBrass0 2 месяца назад

那為啥不再多裝一組camera就好😂 360 lidar必要性已經被tesla證明在自駕認為中可以捨棄了 lidar只剩可以寫死的corner case有點用但那種也不需要lidar了浪費錢一般雷達就好喔對了lidar和雷達是不同東西

@RadiantReverie-h88 2 месяца назад

雷达是整个实时路况地图的输入参数，因为成本不用激光雷达，现在特斯拉是有4d毫米波雷达

@JasonCheng88 2 месяца назад

其實路上道路坍塌、天坑，需要人們提出需求讓科技廠商研發預警科技，這時候這種設備也是會出現在市場上，是汽車選配可以自己加錢裝。道路上出現坍塌、天坑的問題這是相關管理單位的責任，端對端的純視覺自駕對標真人自駕，真人躲不掉路面的缺陷，特斯拉自駕也一樣躲不掉，若真需要裝雷達，雷達版特斯拉會是一個選配吧😅

@allenclue Месяц назад

真的，純視覺最多也是做到人類程度的失誤率，但一般人對自動駕駛的要求必定更高，所以在大雷雨濃霧地形崎嶇黑暗視線不佳的狀況下，視覺不足以駕駛時，用雷達或甚至用3D雷達搭配影像辨識，大概才是大眾的期待，但這樣開發時間更長，特斯拉股價會沉浮更久😂😂

@pochelee8326 Месяц назад

⁠@@allenclue意見很專業！是從事科技業的人嗎？

@颜造城 3 месяца назад

纯属瞎扯我觉得要能够真正实现自动驾驶要让机器能够理解我们真实的物理世界物理规律那个时候也到了AGI 时代。所有现在离自动驾驶还很远的路

@yanfang999 2 месяца назад

他这个视频只要不能证明视觉>视觉+雷达就是白扯，如果要考虑成本，不用自动驾驶成本更低。不出事故的老司机可能一年没开几次车，或者路况一直很好等等，仅此而已。其实说再多都是扯，美国现在开启自动驾驶的人有多少，比例多大？事故率怎么样？扯技术有啥用？

@TpBrass0 2 месяца назад

英文很難我知道但是都有chatgpt了丟進去翻譯沒很難😂😂

@MadPCsuperb 3 месяца назад

对激光雷达的优势错得厉害. 他不只是精准测量距离还可以测量很远的距离 “很远”是重点比普通摄像头强三倍距离. 在高速行驶时，这个优势是非常有用的.加上激光雷达可以在天气恶劣的情况下看得比摄像头清楚很多例如大雾，下大雨下雪等等我觉得未来应该是用激光维达加上摄像头加上机器深度学习完成Level Five的主动驾驶

@user-Ivan_Chan 3 месяца назад

所以你的设想【完全自动驾驶】后面要加上超能力的，基于人类无法正常驾驶的情况下，比如大雾下大雨下雪这类极端气候，“激光雷达”PLUS“摄像头”还能发挥作用？？！！。为什么？这不是悖论吗？好好开车和不要开车是两种情况，不需要有超能力啊。天气极端的时候，路上是没有车的。

@okldr 3 месяца назад

目前没有算法把视觉和雷达觉融合，用雷达的厂商都是使用的历史遗留。不过一旦有算法融合雷达觉，可以比较容易的合并进v12的模式里。不过按交通法规来说，纯视觉已经足够好了，足以超过绝大多数人类驾驶员。

@SSNickYang 3 месяца назад

並沒有⋯激光雷達受惡劣天候影響是很大的，毫米波雷達才可以穿透你說的那些東西；然後激光雷達標榜可以看很遠，但有可能遠的東西看不出來是什麼，因為點太稀疏了，視覺其實用一個長焦鏡頭，遠也可以看很遠⋯

@SSNickYang 3 месяца назад

@@okldr無論視覺跟激光雷達或毫米波雷達融合都是最早期的技術⋯早期視覺深度訊息不準或無法取得，都是用這兩者融合補足深度訊息的

@MadPCsuperb 3 месяца назад

@@user-Ivan_Chan 不只是极端可能只是一点点rgb 以径不行了

@hankdonald7812 2 месяца назад

端到端指的是输入是原始数据，输出是最后的结果。在整个学习过程中，不进行人为的子问题划分，完全交给深度学习模型直接学习从原始输入到期望输出的映射。而非端到端呢，就是输入不是直接的原始数据，而是在原始数据中提取的特征(如feature)，这一点在图像问题上尤为突出。因为图像像素数太多，数据维度高，会产生维度灾难，所以原来一个思路是手工提取图像的一些关键特征。

@ludovic2003 2 месяца назад

可以解释一下传统的cv跟控制系统分离的架构。这个历史讲清楚了就比较好理解了

@tysoonfang1999 2 месяца назад

特斯拉连续两个季度销量大幅下降，现在都看不到比亚迪的尾灯了，因此最近大量视频在吹捧特斯拉，但是特斯拉没啥可吹了，只能吹特斯拉的没有经过大量验证的FSD了，想借此强行提拉特斯拉的销量，这简直是痴心妄想。

@controllin6142 Месяц назад

纯视觉方案，不靠谱。我觉得不要争谁比数好。作为成年人，两个都要。

@williamliu2160 3 месяца назад

不管是v11还是v12，我从来不觉得特斯拉在技术层面和实际效果上做到比人类司机开得好会有问题，但是问题在于端到端模型的不可解释性如何说服法律和监管机构😂

@刘梦丹-h1b 2 месяца назад

鬼扯视觉大于雷达说的好像雷达不会建模似的雷达只是更清晰视觉是平面的雷达是立体的视觉挡住了就无法解析雷达挡住了也可以解析所以雷达更安全

@jayu1943 2 месяца назад

雷达的基础是视觉视觉都做不好谈论雷达纯粹是外行

@ML-vy7uq 2 месяца назад

某鹏据说也放弃了雷达，该用神经网络，那他又没有超级计算机，他要如何实现这个学习的过程？谢谢

@blazetank 2 месяца назад

坐等老马开源

@ML-vy7uq 2 месяца назад

@@blazetank 他没有超级计算机开源也没用啊

@canyou6882 2 месяца назад

这个视频的雷达这块就是瞎扯淡

@fsdeveryday 3 месяца назад

兄弟说得都没错, 理论上更正确，但我今天在过一个有故障的路口时，有警察在指挥，车很多，我也不是第一辆车，在让我这个方向的车流开始移动时，并且我前面的车和我都是要直行通过路口，但我的车却停下了，应该是把警察当成行人了😅

@TSLA99T 3 месяца назад

路政的那个例子讲的非常好

@JacksonSHR 3 месяца назад

感谢大佬

@sym660817 3 месяца назад

抓到野生大佬

@yw6648 3 месяца назад

今天fsd 12.3.6在我车上犯了三个很傻的错误一次是在停车场corner高速前进丝毫没有看到转角并且减速转弯的意思另一次是在空无一人的停车场转角停了十秒不知道该往哪里走，第三个是map data明明说要出停车场左拐但是试了三次他都偏偏右拐。这让我感觉fsd v12根本没有推理能力完全是靠模仿人类驾驶也就是elon说的reason by analogy而不是fist principle，一旦遇到没遇到的情况他就不会了，而不是通过以往的训练数据去推理，这么简单的没有人的停车场都可以卡住🤣稍微有点推理能力就该知道往哪走啊

@yw6648 3 месяца назад

V12还是reasoning by analogy，他是总结规律而不是真正的从first principle去理解为什么要这么开，fsd必须要融入LLM来补充逻辑推理这一块短板

@WarrenQiu 3 месяца назад

整个视频里提到，摄像头的输入信息细节是最多，也是非常好，完全从源头，说出了传感器融合方案的缺点，看似做加法，其实是巨量的信息丢失

@heydude5087 Месяц назад

雷达不能穿墙？。。。。。摄像头不能吧雷达反而能我觉得雷达+摄像头看谁能运用到极致才是解决方案两种方法单一的都有壁垒我最后的那个对比讲的太牵强了我相信你自己准备素材的时候这个对比也是你最费神的地方吧？你可能自己都不想有想明白你只想要尽可能的让你的结论成文就是端对端更好你是为了结果而论证而已已经没有说服力了

@猪必胜 3 месяца назад

如果你可以證明出白菜一定比青菜好，我就相信視覺比雷達好。

@davidjin8147 Месяц назад

纯视觉目前就是不如sensor，因为现在的摄像头用的也才几百万像素。想要实现人眼这么清晰，需要达到5.76亿像素才行。不然现阶段就还是先用sensor配合摄像头比较好

@weisun-p7c 2 месяца назад

如博主这么说，这个AI司机就永远毕业不了，会永远在学习过程中，且永远没有毕业的那一天，也就是只能试用，却不能得到应用😂

@荒唐镜-s4c 2 месяца назад

？？？？就算开了10年的老司机敢说自己毕业了吗？？？

@zhehuang7130 3 месяца назад

你视频里说毫米波雷达没法穿墙是不客观的，信噪比会下降但的确是可以穿的。毫米波雷达经常能看到前方排着队的很多辆车。即使是在完全遮挡的情况下，在鬼探头的情况，行人作为一个运动物体，雷达其实是能够更早的捕捉到这个运动。毫米波雷达其实是一个很好的信息补充，特别是在极端天气下。

@brianforest 3 месяца назад

你的理解是錯誤的。第一，對於橫越馬路的行人這個運動物體雷達是無法辨識的，因為橫向運動無法產生多普勒效應，無法偵測物體是在運動狀態。第二，毫米波雷達的解像力很差，尤其是在穿越車車輛空隙所產生漫射與干擾，根本無法正確的辨識一個完整的人。更何況要早期辨識出行人的一隻腳及局部，那幾乎是不可能的任務。這樣的情形就算是解像力高出一截的激光雷達大概率也辨識不出來。

@zhehuang7130 3 месяца назад

@@brianforest 这取决于雷达的安装角，不是所有雷达都是面对正前安装的，只要有非切向速度就可以被检测到。你说的“解像力”也就是径向分辨率和角分辨率，径向分辨率是取决于设定的雷达最大距离，取样率，以及带宽，角分辨率取决于天线的数量和间隔。雷达可以做得很大，甚至级联芯片来做到很高分辨率，但就是和成本的取舍。不能说雷达就是比不上，抛开成本说效率肯定不客观，技术进步了雷达也是很有希望的。

@jamescooper777 3 месяца назад

⁠@@zhehuang7130光達LiDAR 不單是LiDAR 單元的成本考量而已，還有後端電腦的算力要更多、消耗電量也增加光是解算極高分辨率的雷達回波又要匹配電腦要足夠的運算力，還要處理雷達回波和Camara影像的融合感知的時間同步，這是融合感知棘手的問題與成本又要消耗運算力

@zhehuang7130 3 месяца назад

@@jamescooper777 光雷达和毫米波雷达是两种不同传感器。我们讨论毫米波雷达的话，一般来说雷达系统里面会有一个处理器，专门用来处理电平信号，然后给PC端的就已经是点云的数据了。要说算力对比的话用HD Camera一样每帧也要处理很多像素，其实运算上没你想象那么大的差距。然后帧对齐的话以前都是用时间戳有时还得插帧，现在帧率都上来了以后直接统一trigger就好。

@Guavaava 3 месяца назад

错的地方多了去了。即使感知模块跟决策模块分开，决策模块也是可以使用传感器融合后的数据进行训练的。这个博主说的好像不搞图像到控制的端到端，就不能使用神经网络似的。

@publicpublic9222 2 месяца назад

你是说蝙蝠的雷达不行？

@keitheveland7761 5 дней назад

讲得太好了，自动驾驶是神经网络ai的一个应用，因此也明白了为什么英伟达股票大涨

@netterdrachen1687 2 месяца назад

我觉得目前的人工智能还没有真的达到智能，而还是捕捉输入信息，分析信息特征，寻找这个特征对应的操作，其实本质上还是模块。引入AI不过是在最后一个模块中不再人工产生对于动作，而是用机器学习。

@alibaba44rob Месяц назад

很多关键的地方说的就过于理想化了。你说的这些庞杂的路况情况，神经网络也不一定能搞定，马斯克又不懂自动驾驶。而且工程师还没有办法进行具体优化，只能继续大力看看有没有奇迹。

@devinzhu6586 2 месяца назад

包进一个黑盒就万事大吉了吗😂

@kejiehuang1249 2 месяца назад

两种模式的区别就好像国内应试教育学的哑巴英语和有语言环境学的沉浸式英语的区别，机械性记忆和整体感知的差距

@nz8666 2 месяца назад

我已经跟我闺女说好了，等她过几年学了驾照，开始开车上学的时候，我就给她买个FSD的车，再怎么样也肯定比她开车靠谱的多😂

@明哥-b2p Месяц назад

😅人才

@枯树-z3x Месяц назад

就喜欢这种用最通俗的讲解让普通人一下子明白了最新科技的技术含金量，这种视频更大的意义我认为是让大陆的普通人再也不会被国产新能源企业虚假宣传忽悠了。

@xiangxiao191 3 месяца назад

作者其实并没有具体了解过最新的激光雷达路线的实现。现在主流车企的激光雷达主要是对纯视觉识别困难的情况的一个补充，而不是单纯靠激光雷达进行测距。

@JacksonSHR 3 месяца назад

你其实没看明白我的内容，我的意思是视觉不需要补充

@sprite3084 3 месяца назад

那請你把21:17的影片長度在看一次，這時間是讓你聆聽解說，不是讓你吃爆米花的

@waffenss1234567 3 месяца назад

激光的補充就是測距激光的資料量很少無法辨識形體他無法補充距離以外的資料因為其他部分視覺都明顯更好

@Guavaava 3 месяца назад

@@waffenss1234567激光雷达是可以给出周围空间的物体的形状的，跟摄像头数据融合后相当于给了摄像头每个像素在空间中相对于车的位置，当然你要说只是测距也算说得过去。

@luoyangwaterman9152 Месяц назад

全自动驾驶是个无解的难题，目前传感器弥补不了人类视觉的不足，尤其恶劣天气情况下

@jamesho1308 6 дней назад

上述明顯告訴所有人你是測試自動駕駛的白老鼠，但沒有盡頭。

@RQcube 3 месяца назад

自動駕駛需要的是預判不是精準，預判的安全是遠超精準的，預判提前減速就可以避免事故發生，而不是去考驗激光雷達的精準配合硬體的煞車性能來避免事故。

@newcar168 2 месяца назад

你如果可以用英文更好很多專業的用詞英文會更妥當看了你還是在美國

@velhlkj Месяц назад

簡單一句話就解釋了，V12才是真AI，V11不是AI而是狀態機。

@mengxu9104 Месяц назад

看完以后我觉得训练猴子做司机可能更靠谱一些。

@ray911abc 3 месяца назад

多从生意的角度考虑，少从技术的角度考虑，你就想通了

@Deathpaldin 3 месяца назад

非常清晰易懂！持续关注。

@WarrenQiu 3 месяца назад

看完了，完全不懂，根本提不出问题，只能持续学习。可能是我想的太简单，也可能是我想的太复杂

@hoisea 3 месяца назад

現在的華為ADS 2.0其實是什麼架構? 將來的ADS 3.0又是什麼架構呢?

@nono-xc8os Месяц назад

纯视觉方案只是车企的最优方案，而不是消费者端的最优方案。车企在成本和辅助驾驶方面做出妥协后最优方案是纯视觉。不论AI训练多发达，纯视觉方案的天花板远远低于激光雷达方案，这是先天决定。

@Daxionglife 2 месяца назад

还没lv3大家自行斟酌😊😊😊😊lv2驾驶员负责lv3商家负责。。

@edmunds4635 3 месяца назад

感谢您的分享，我在大学学到神经网路的就是这个原理，但是您可以从工程师的角度分享这背后实现的细则，我会推给任何想要了解fsd的人

@gansengkee2768 3 месяца назад

人驾车都会有一些违规行为，那AI能判断出来吗？还是会把这种行为也学起来

@jamescooper777 3 месяца назад

目前的FSD 12.3就已經會變通，在紐約曼哈頓時代廣場這種狹窄道路，腳踏車、人力三輪車、4人協力車、貨車公車都有，Tesla FSD V12也是沒在看車道線的，要擠大家一起擠，不會擠輸人，不會傻在那邊😂 例如雙線道路邊有車臨停，只剩半個車道寬，它看對方沒有來車，就會不減速自己直接跨線繞過去我猜沒有人會遇到違規停車不是這樣繞過去吧？

@In_aas_kso_kso_kdlx_kdk 3 месяца назад

FSD搞定印度搞定中国可得天下。

@shieldtt4562 2 месяца назад

特斯拉人类驾驶员的驾驶会被评分，90分以上的优秀驾驶员可能才是给AI学习的

@stevenlee-hl3ny 3 месяца назад

自動駕駛肯定要使用A I發展的途徑很多，不要自以為是。

@huangtom-e6d 2 месяца назад

你要分析问题就先抛开立场，纯视觉到底能不能模拟真人驾驶，可以模仿百分之99但是最重要的百分之一模仿不出来，因为真人司机还会根据声音，当地驾驶环境，行人交通素质，等各种不能被视觉模仿的因素做出判断，这种判断是人类大脑综合这些信息做出来裁决，你视觉根本模仿不了，这个所谓的AI根本无法达到。还有你对老司机对距离的感知来类比ai也不需要距离，我就觉得搞笑了，你还真把“ai”当人吗？人作为一个个体身体上的传感器到底有多少有多精密人类有研究清楚吗？更何况现在对人脑的研究还不如对在太空的研究透彻呢，就感大言不惭

@jerrywang2231 Месяц назад

有一个点不同意，不管是激光雷达还是毫米波雷达甚至以后的麦克风捕捉的声音都可以送到端到端系统训练，阻塞因素在于成本和可靠性，而不是架构上不需要。

@BlackBerryAndXiXi 2 месяца назад

如果遇到大雾的天气，纯视觉方案都看不清了，怎么保证自动驾驶呢？雷达方案能够精准测距，反而能够提前识别到风险，所以是不是纯视觉

@大力贝壳 Месяц назад

transfomer 神经网络有一个最大的问题，基于注意力的方式那就不会追寻最正确的答案。不信你会发现现有的大模型参加的考试，都不会有考满分的情况。人类开车时或许有一些问题时，可以通过常识或者本能来处理，但是大模型一旦出现问题，可能会很可怕。

@paulpaul7777 2 месяца назад

simple and powerful explanation :)

@inv8570 Месяц назад

有点二极管😂

@crzheng8528 19 дней назад

精彩！唯一一个看了2遍的视频。

@xinyuexie9967 Месяц назад

AI对信息的感知和解释能力非常低，需要大量数据训练才能勉强接近人类，端到端将v11的输入和输出进行了系统的连续化，在相同训练资源下v12的输出并不更准确而是更全面，v12相对v11没有本质提升，而且需要更多数据

@生与活Lifeandliving 2 месяца назад

不从技术层面，从常识层面说，你的逻辑都是之前的1有问题，之前的2有问题，现在的没有问题。要是出来一个新的，就说之前的有问题，现在的没有问题。技术进步本来就是一步一步的，人类至今的科技本来就是搭积木，很多我们还没有办法解释，只是发现了这个状态。可以多做介绍，少做科普

@吴俊江 2 месяца назад

如果路面上的桩桶或者指示牌和市政设定的比例不一致的话，FSD会出现距离误判的对吗，比如市政桩桶高度是1米，有个熊孩子离老远放了一个2米高的充气桩桶，视觉信息上是相当的，其他环境元素也都按比例缩放，那FSD就傻了对吗

@arbor318 2 месяца назад

谢谢分享，听完了觉得v12好危险，你必须相信那个端到端的大脑。不了解它的学习过程，我是不敢开，也不敢做的。不想做机器学习的小白鼠，用自己的生命去给机器训练corner case。

@felixing2012 2 месяца назад

其實真正開車還有開車經驗以外的經驗和技術，就是AI學所有老司機以外的一些開車的各種情況，舉個例子：有時候，開車的時候，再某些情況為了要解決一些問題不得不做出常理以外的操作，就像AI會因為路上有人搶劫或為了要幫忙什麼事情把車在安全範圍內擋住某個路面的地方？AI會因為路上有些騎電動車的不文明行為突然對他警示甚至不讓？有些地區路面路況差甚至有尖銳的不易察覺的邊緣，正常行駛會對車不好,令可繞路，有的地方地下污水橫流，那，，，“味道”簡直無法形容，快速經過怎麼洗車洗的乾淨？人類就可以聞到，而下雨時，AI能判斷是路面雨水橫流？還有，有時候路上一些不文明司機，怎麼去應付？怎麼判斷對方不是故意還是看手機或者真的不是故意的？能通過時，從側窗看一下裡面司機表情和乘客知道大致原因嗎？突然刮風是否不必要經過一些地方還有太多太多了，不便敘述，這些都和開車技術和經驗無關

@GeJiayu 3 месяца назад

等等，請問已經確認特斯拉的FSD是感知到決策一進一出的完全端到端了嗎？聽大劉科普是說只有決策是端到端🤔

@JacksonSHR 3 месяца назад

确认，大刘的理解有误

@GeJiayu 3 месяца назад

@@JacksonSHR 感謝解惑👍

@horngbill6010 3 месяца назад

定义上不同，不能说对错

@GeJiayu 3 месяца назад

@@horngbill6010 求解釋，目前理解是下面這樣，怎麼個定義不同法？端到端：視頻->模型->執行非完全端到端：視頻->感知模型->感知結果>決策模型->執行

@horngbill6010 3 месяца назад

端到端是属生成式.AI 一种，使用超级电脑进行大数据资料训练基础模型（Foundation Models），以少量的数据进行基础模型的微调，车上专用神经网络芯片执行此需求，由输入端到输出端的驾驶指令稱端到端。

@zhchbob 3 месяца назад

首先应该承认机器学习从影像中提取知识的能力已经超过了人类，所以端到端训练会强于人工编程出来的系统。但是，神经网络模型的可解释性也很重要，它能够大幅增强人类对AI自学模型的信心。而且我不认为让FSD学会解释自己理解的世界是很难的事情，毕竟LLM在这方面很成功了。所以xAI对FSD很重要，而FSD也有助于xAI理解世界。

@JacksonSHR 3 месяца назад

LLM 也没理解，你觉得他理解了，实际是简单的映射，你输入文字映射到回答的文字上，没有理解过程，条件反射

@horngbill6010 3 месяца назад

GPT 才是 Generative Pre-trained Transformer LLM是语言基础模型映射到文字，还需要merchine and deep learning ，完全学会理解人类物理世界不是这样容易，端到端学习不是车机上ai 芯片算力做得到。

@zhchbob 3 месяца назад

@@JacksonSHR LLM看上去是简单的映射，因为他是基于前半段句子内容来预测下一个单词。但仔细想想，LLM的映射的基础是嵌入，而嵌入本身就需要对训练数据集的理解和抽象（香港大学马毅教授所谓的“压缩”）。特别是多模态LLM，有助于实现对世界规律的理解，建立真正世界模型。至于推理预测的模式，无论是当前这种基于上下文的预测还是所谓的白盒模型算法，都不重要。因为这些只是对于世界模型中所存储的信息的提取和解释方法。仔细想一想我们人类的智能思维模式。我们也是先通过观察来理解这个世界，并在脑海中建立起抽象信息（如好的、邪恶的、可靠的等感觉），然后通过将这些概念同特殊的语言词语连接来交流。各种语言有不同的语法顺序，但并不影响我们解释自己的世界观和预测。同样，LLM AI的核心在于其基石模型在多模态时代已经越来越具有世界模型的潜力，虽然其推理方法还很原始（基于前几个tokens来预测下一个token），但有效就行。人类可以通过肢体比划来交流，LLM总不会比这更差。

@zhchbob 3 месяца назад

@@horngbill6010 你说的没错，GPT是AI的核心，但是LLM提供了人类同GPT进行交流的接口。仅仅靠道路视频显然无法理解人类世界，这就好像二维世界的蚂蚁（都是瞎子）无法理解三维世界，人类无法理解看不到的红外光、超声波所展现的世界形态，我们所感知的都是局部世界。同样FSD理解的道路世界也是一种局部世界，FSD AI能够将这种局部世界的信息进行压缩并形成抽象的概念和规律（这个局部世界的NATURAL LAW），这同人类对可观测世界的理解方式并无不同。当然，处于更高维度的人类如何理解FSD的世界观是个挑战。另外，我并没有说每辆汽车可以自己训练AI。但他们都可以推理和通过LLM来解释当前AI对当前路况的理解。

@Alex-yl3qu 23 дня назад

讲得太好了！！

@felixing2012 2 месяца назад

還有一個,神經網絡Ai系統會注意到車內部什麼的情況，並非車身故障系統可以檢查出來的問題而停車查看？比如說貌似車後備箱或底盤有什麼東西卡住發出聲音，車再不小心沾了什麼在晃動等等，細鐵絲,,, 積水雖然不深但是有一攤，但是前面有個高點的減速帶，旁邊公交站有人，趕時間開快了就直接把水濺到人看到某些特殊車輛是否要繞過：能識別豪車？能識別前面園區保安臨時指揮？還有路過一些農村鄉下，即使兩邊有人站著因為某種風俗，最好也不完經過，要倒車先從別的地方走等等

@maodijim 28 дней назад

说得非常

@Json-Walker Месяц назад

通俗易懂

@ludovic2003 2 месяца назад

这解说一堆错误

@albertlu8407 3 месяца назад

很好奇優良駕駛要怎麼篩選出來呢或是糟糕駕駛要怎麼去除呢

@jamescooper777 3 месяца назад

以Tesla而言，它車上有充足的Log記錄各種操作行為和車體移動的動態，有前視Camera不斷錄影，車內有看著駕駛行為的Camera，從Log中和行車錄影就能先篩出一批中性的安全駕駛老司機至於怎麼知道怎樣的Log和哪些錄影值得採用？這在機器學習實務領域從2014年至今也已經有「自動標註auto labeling」的軟體技術和工具，大量協助標注員和訓練師挑選訓練材料

@waylonwong369 Месяц назад

我觉得也要搞个雷达或者红外线热成像吧或者夜视仪，万一那天黄沙漫天，乌漆麻黑异象丛生直接眼瞎了

@澄橙橙 2 месяца назад

路政这个例子真的很好，就像现在国内疯狂推的萝卜快跑，交警在旁边指挥都完全没用只会傻傻的停在原地等待后台远程操控，要是AI的强大学习能力就没有这种问题了

@yinshantang 2 месяца назад

盐湖城中国城

@Hiro-ki4jq 2 месяца назад

雷达存在的意义不仅仅是为了测距精确，更重要的是在摄像头无法正常工作的时候起到双保险的作用。比如强逆光，进出隧道，能见度低等情况。实际场景中硬件是不会始终处于完美工况下的。

@anonymous_somebody 3 месяца назад

感谢 Jackson 的分享，受益匪浅！我有一个问题，是关于验证的。假设当前版本在某一个特定的路况下会产生接管，我理解 Tesla 应该会拿这些接管的视频去做训练，对于端到端来说，该怎么在训练后去验证，确保 FSD 下一次遇到这种情况能做出正确的决策呢？

@eaglezhou1243 2 месяца назад

一龙最近说端到端现在最大的问题就是，就是有些接管需要很多miles/时间以后才出现，这种极低密度的样本，其训练的效果是有限的，而且不同的端到端版本之间，很难说是哪个好。

@jadeteng5715 Месяц назад

可以设置仿真场景验证，还有去道路测试找相同场景，以及推送给内部用户收集数据？

@user-tb3nl6ej4l 2 месяца назад

那有个好奇的地方，关于路政挥手的问题。看了一亿英里或者十亿或者一百亿英里的保质保量视频后，如果有人恶意在路口穿黄衣哪怕不是写着“路政”二字，他只在衣服上写个“跑致”，V12能学会识别？如果这种恶意行为发生后，不该左转它左转了，而且左转会产生巨大的决策灾难，那V12看了那么多视频能解决这个问题？如果不能怎么靠冗余设计去避免？

@user-tb3nl6ej4l 2 месяца назад

这还只是一个例子，如果有人根据常规视频研究，去故意达成某一决策环境，让V12采集到，V12如何能判断这不是真实场景，是有人恶意在引导？如果不能解决这些因为自动驾驶兴起以后可能产生的新的问题，那V12和V11并没有什么本质区别。只是一个是程序化的流程判断，另一个是图片记忆判断，类似于给汽车加了一个快速找不同的后台，都无法达成自动驾驶