热搜词: 贝特瑞

六年全部白干, 马斯克砍掉自研芯片到底为啥?

俗话说得好,欲练神功,必先自宫。

为了应付接下来的车企混战,马斯克提刀就往自己身上砍?

就在几天前,彭博社报道了一则消息,说特斯拉突然叫停了研发六年的芯片项目Dojo,这是连命根子都不要了啊。

不仅工作全部白干,而且整个研发团队也直接作鸟兽散。

项目负责人彼得·班农原地辞职,还有约20名工程师也早已提桶跑路,投奔一家名为DensityAI的初创公司去了。

巧的是,这家公司的老板正是在2021年首次发布Dojo芯片的前特斯拉总监,加内什·文卡塔拉马南。

可以说,特斯拉裁员裁出了一家公司。。。

而于此同时,留在特斯拉的,就只剩一地鸡毛。

甚至有消息说,连Dojo的专利都不在特斯拉自己手上,以后想再继续干也没有机会了。

呃,这确实有点出人意料。

毕竟Dojo这玩意儿刚出来的时候,大家都还寄予了厚望。

众所周知,特斯拉智驾的特点是纯视觉算法,这个方案虽然上限很高,但下限也很低,关键就看算法的能力,而因为端到端架构,你要迭代算法,靠的就只有没日没夜的训练。

特斯拉开启Dojo项目的初衷,就是奔着训练来的,如果它做成了,就能让特斯拉FSD直接封神。

要知道,过去给智驾做训练的GPU,并不是为深度学习训练而设计的,而这个Dojo通过分布式2D架构,解决了高带宽和低延迟的问题,并且通过存算一体的设计,让训练的能效也更高。

这么一来,相比市场上主流的英伟达A100,Dojo在相同成本下的性能可以达到它的4倍。这对特斯拉来说,不仅能更好的训练智驾,还能打破英伟达在芯片上的垄断,让特斯拉成为真正的人工智能企业。

所以对于这个Dojo,老马认为它是“实现完全自动驾驶的关键”,摩根士丹利也预测,Dojo将会给特斯拉带来5000亿美元的市值增长。

但结果呢?上个月还说Dojo2量产倒计时,现在说没就没,就有点搞人心态了啊。

很多人会觉得,是不是特斯拉开始走下坡路了?为了省钱,连自己最关键的芯片业务也要裁?

脖子哥认为,确实有一部分原因,如今的特斯拉,真不比当年。

咱们打开财报咱们就知道,今年Q1和Q2季度,特斯拉最关键的营收指标开始下滑,同比分别减少了9.23%和11.78%。

而在这背后的销量数据就更是雪崩,7月份,特斯拉全球齐跌,在英国同比暴跌60%,德国则下滑55.1%,甚至在基本盘的中国也达不到过去的热度。

但是吧,特斯拉还远远没到山穷水尽的地步。前几天,它还花了43亿美元买LG的磷酸铁锂电池,甚至还用165亿美元定了三星的芯片单子。

区区十几亿的Dojo,特斯拉完全还是投的起的。

那要问背后原因是啥,老马其实自个儿就发帖说了,这么做主要是因为“没有必要分散资源同时开发两种不同AI芯片”。

没错,目前特斯拉确实是有两条芯片研发路线。一条是它的HW系列(Hardware,真不是华为),用在特斯拉的汽车上,另一条就是这个Dojo,是用在智驾训练上。

过去这是完全不同的两条平行线,但这次的AI6(HW6.0)明显有点超预期了,显著提升了算力和带宽,不仅能做FSD的终端芯片,也可以用于智驾训练,Dojo存在的必要性就被打上了问号。

按老马的性格,肯定不会把钱和精力浪费在毫无意义的地方。

当然,还有一个原因就是,Dojo的研发进度确实不尽如人意。目前Dojo2还没量产,而Dojo1也因为性能缺陷,成本奇高,基本没啥市场竞争力。

所以和更成熟的HW芯片相比,老马毫无疑问砍掉了根本看不到前景的Dojo。

不过呢,你要说Dojo从一开始就是一个错误吗?我真觉得未必。

马斯克其实看得很透彻,他曾公开表态“我认为Dojo的前景渺茫。但值得一试,因为回报可能非常高。”

说白了,有点赌狗的意思。

但这场豪赌并不是没道理的,咱们得结合当时情境,从头开始说起。

最早,特斯拉只有HW芯片,而且1.0版本用的还是Mobileye的全套产品。

但问题是,当时的Mobileye只是一个黑盒,不允许特斯拉参与修改算法,也不能共享数据,甚至功能也偏向保守,和特斯拉的理念实在合不来。

最终由于2016年发生的ModelS智驾事故,让特斯拉下定决心分手,结局不欢而散。

我估计是因为这次和Mobileye的失败合作,让老马就看清了一件事:和别人合作永远做不了自己想做的事,自研才是唯一的出路。

所以在此之后,特斯拉先是自研智驾,芯片用英伟达过渡了几年以后,到2019年,HW3.0就开始走自研路线了。

之后的HW4.0、HW5.0,也就是现在说的AI4、AI5,其实也都是特斯拉做的框架设计、神经网络优化和系统集成,只是利用了三星和台积电的工艺进行生产。

总之在智驾芯片上,老马踢掉了老黄,很快尝到了自研芯片的甜头。

随后老马很快又把矛头转向智驾训练。不过,因为HW的分离式内存架构更适合推理,而非训练,老马必须另开炉灶。

于是在2019年,马斯克在特斯拉自动驾驶日上,提出用Dojo来训练自动驾驶。随后,在2021年的AIDAY上,特斯拉就实现了Dojo超算的核心——7nm的D1芯片(还是这个老哥)。

这里大伙儿可能比较迷糊,马斯克把Dojo称为超级计算机,那和这个D1芯片有啥关系呢?

咱们可以这么来理解,其实Dojo就是一个体系森严的算力盒子,从低到高分为内核、芯片、瓦片、模组、机柜和ExaPOD。

一块D1芯片,其实是由354个核心(CPU)组成,而25个D1芯片,则组成一个瓦片,6个瓦片就是一个模组,2个模组是1个机柜,10个机柜是1个ExaPOD训练集群,最终算力能达到1.1EFLOP。

总之呢,从D1芯片到最后的训练集群,其实并没有那么简单。

2021年特斯拉只是展示了D1芯片和瓦片,而后一年,才安装了首个机柜,当时的目标,是在2023年建成七台ExaPOD。

然而很快,到2023年马斯克才发现,Dojo并没有那么十全十美,反而有可能将训练成本提高十倍以上,成功的可能性并不高。

但此时,老马的赌性占据了上风,开始左脑互博右脑了。。。

随后特斯拉不仅继续砸重金去做Dojo,动则好几亿美元,而且还接连提出了Dojo1.5、Dojo2和Dojo3,要真正实现Dojo,几乎是个无底洞。

然而结果呢,老马斥巨资打造的Dojo超算,性能也只和英伟达H100系统相当,于是只能把希望寄托在了Dojo2上。

相比Dojo1,第二代Dojo采用了台积电最新的InFO-SoW晶圆级封装技术,尺寸更小,损耗更低,效率也更高。

不过嘛,结局依然不理想。

虽然Dojo2的D2芯片算力,从之前的362TFLOPS提升到了3.62PFLOPS,是D1的10倍,但因为过于强调视觉训练,实际在通用AI场景中,依然打不过英伟达的H200GPU集群。

并且,芯片虽然由台积电代工,但良品率并不高,初期只有37%,在成本上没有任何优势。

说白了,Dojo2还远不够成熟,想要打败英伟达,还有很多的细节需要打磨。但时间不等人,如今的AI6彻底击穿了Dojo的未来,难道还要指望Dojo3?

这钱还不如留着应对一下关税。老马当机立断放弃Dojo,再次想起了老黄这个备胎。。。

而后他解释到,如今的AI5和AI6,从某种意义上,就是Dojo3。

但是吧,这个AI6至少要到2027年量产,用的是三星的2nm(SF2)制程技术,良品率奇低,只有40%-50%,差不多做两片,扔一片。

虽然特斯拉给了三星165亿美元的巨款,但三星依然是赔钱在给特斯拉供货,所以这块饼究竟能做成生么样,现在咱们也只能看看罢了。

总而言之,Dojo这事儿就是马斯克的一场豪赌,只不过赌输了而已。

为了不深陷泥潭,马斯克选择投降输一半,把全部精力投到更有希望的“神功”上去。

但是话又说回来,Dojo这事对车企来说,真算不上什么反例。

因为自研,本来就是条困难但必须走的路。

撰文:TC