思诺思是什么药| 舌炎吃什么药| 什么叫痉挛| 背部疼痛是什么原因引起的| 速干裤是什么面料| 口干舌燥吃点什么药| 得意忘形是什么意思| 限量版是什么意思| 梦见桥断了有什么预兆| 华人是什么意思| 教授是什么级别| 便秘吃什么蔬菜| 三维是什么意思| 阿贝数是什么意思| 血小板有什么作用| 须发早白吃什么中成药| 英语一和英语二有什么区别| 跳蚤什么样| 什么食物对心脏有好处| 头三个月保胎喝什么汤| 金银花什么时候开花| 什么叫前庭功能| 欲言又止是什么意思| 流水是什么| 58什么意思| 工口是什么意思| 雪媚娘是什么| 清明是什么季节| 吃什么补心| 小孩晚上磨牙是什么原因引起的| 鼻炎吃什么药见效快| 男性泌尿道感染吃什么药| 疰夏是什么意思| 梦见别人怀孕是什么意思| 梦见猪下崽预兆什么| 呼吸胸口疼是什么原因| 颈椎病吃什么药最好| 肥肠炖什么好吃| 冰心的原名是什么| 脖子痛挂什么科| 基础病是什么意思| 淋巴在什么位置| 一什么大风| 牙齿痛挂什么科| 落红的血是什么样子的| 中药用什么锅熬效果最佳| 血糖低有什么症状| 北属于五行的什么| 功德是什么意思| 为什么吐后反而舒服了| 感冒为什么会打喷嚏| 成都有什么特色美食| 国家三有保护动物是什么意思| 一天吃一个苹果有什么好处| 老年人喝什么奶粉好| 益生菌是什么东西| 肺部结节是什么意思啊| 煮玉米加什么才会香甜| 71年的猪是什么命| 韩红是什么民族| 赫五行属性是什么| 秋天喝什么粥好| 小孩拉肚子应该吃什么食物好| 睡美人最怕得什么病| 鼻窦炎吃什么药| 什么是根号| 顶臂长是什么意思| 音容笑貌的意思是什么| 天才是指什么生肖| generic是什么意思| 富贵包去医院挂什么科| 头发爱出油是什么原因| 蒙字五行属什么| 彩照是什么底色| 有情人终成眷属是什么意思| 海参为什么越小越贵| 狼来了的寓意是什么| 萨瓦迪卡是什么意思| 为什么腿老是抽筋| 顾客为什么购买| 赘疣是什么意思| 猫上门为什么不能赶走| 倒刺是什么原因引起的| 萎缩性胃炎不能吃什么食物| 命门是什么意思| 邓字五行属什么| 生命的本质是什么| 经常感觉口渴口干是什么原因| 鸡拉绿色粪便是什么病| 怀孕期间吃什么对胎儿发育好| kako是什么牌子| 梦见蜜蜂是什么预兆| 第一胎打掉会有什么影响| 经常抠鼻子有什么危害| 闷骚是什么意思| 喝黑芝麻糊有什么好处| 县人民医院是什么级别| 彼岸花代表什么星座| 拉肚子最好吃什么食物| mA是什么| 位置是什么意思| 什么时辰出生的人命好| 苛捐杂税是什么生肖| 阴阳人是什么意思| 脑梗输液用什么药| 脑炎什么症状| 斩金念什么| 苦荞茶有什么作用| 什么叫子宫肌瘤| 弯弯的什么| 女人补铁有什么好处| 属马与什么属相最配| 腰椎间盘突出有什么症状| 74岁属什么生肖| 胃怕凉怕冷是什么原因| 肚脐右边按压疼是什么原因| 维c吃多了有什么副作用| 眉毛白了是什么原因引起的| 喘粗气是什么原因| 痈疡是什么意思| 9月13日是什么日子| 艾字五行属什么| 罗可以组什么词| 医学ac是什么意思| 低压高什么原因| 舌炎吃什么药好得快| 宫颈机能不全是什么意思| 一路长虹是什么意思| 鱼鳞云有什么预兆| 什么养胃| 植发用什么头发| 血氧饱和度是什么意思| 莺是什么鸟| 四月初七是什么星座| 美字五行属什么| 骨密度z值是什么意思| 血常规用什么颜色的试管| 开户名是什么| 组织是什么意思| 阿尔茨海默病吃什么药| 小强是什么意思| 优字五行属什么| 抽血能检查出什么| 去湿气喝什么好| 冰醋酸是什么| 人为什么会怕鬼| 左手大拇指抖动是什么原因| b型阳性血是什么意思| 家里养什么鱼好| 兔跟什么生肖配对最好| 一本万利是什么生肖| 日月星辰下一句是什么| 世界上最毒的蛇是什么蛇| 白天不懂夜的黑是什么意思| 虬是什么动物| 砂仁后下是什么意思| 为什么睡觉会流口水| 什么地爬| 范仲淹是什么朝代的| 鹌鹑是什么| 头晕出虚汗是什么原因引起的| 右脸颊长痘是什么原因| 自主能力是什么意思| 说什么| 小孩打嗝是什么原因| 调理内分泌失调吃什么药效果好| 海里有什么动物| 曹操姓什么| 嘴唇周围长痘痘是什么原因导致| 鹿晗的粉丝名叫什么| 武五行属什么| 食道炎吃什么药| 未时属什么生肖| 精子吃了有什么好处| 炖鸡汤用什么鸡| 四个火是什么字| yet是什么意思| 1934年属什么| 高质量发展是什么| 伏特加是什么酒| 新疆是什么民族| 马鲛鱼是什么鱼| 感冒吃什么好得快| 蓝色配什么颜色好看| 低烧是什么原因| 30岁以上适合用什么牌子的护肤品| 手麻看什么科| 胎停了有什么明显症状| lgg是什么意思| 蛇遇猪就得哭什么意思| 一路繁花的意思是什么| 黔驴技穷什么意思| 大便特别臭是什么原因| 天山童姥练的什么武功| 经常抠鼻子有什么危害| 控线是什么意思| 梦到人死了是什么意思| 查乳房挂什么科| 肩膀骨头响是什么原因| 经常性偏头疼是什么原因| mrcp是什么检查| 女生发个wink什么意思| 什么花的花语是自由| 舌苔黑是什么病| 灰指甲用什么药效果好| 虎头虎脑是什么生肖| 粉色裤子配什么上衣| 调经止带是什么意思| 什么是交际花| 死鬼是什么意思| 哪吒代表什么生肖| 五官立体是什么意思| 藏拙是什么意思| 木变石是什么| 长期喝咖啡有什么危害| yolo是什么| 小孩子长白头发是什么原因| 叛逆是什么意思| 纳囊是什么妇科病| 维生素b2吃多了有什么副作用| 什么是气血| 山川是什么意思| 花椒泡脚有什么好处| 鼻窦炎有什么症状| 安阳车牌号是豫什么| 盗汗是什么症状| 肚子左边是什么器官| mys是什么意思| 手指缝痒是什么原因| 牛鞭是什么| 为什么一直打嗝| 末梢神经炎吃什么药| 皱纹是什么意思| 七月初七是什么节日| 156是什么意思| 月经淋漓不尽吃什么药| 革兰氏阳性菌是什么病| 睡觉起来脸肿是什么原因引起的| 上午九点是什么时辰| 长命百岁是什么意思| 陈酿是什么意思| rmssd是什么意思| 终板炎是什么病| 耐克属于什么档次| 梦见衣服是什么意思| 外伤用什么消炎药| 脉压差大是什么原因| 查摆是什么意思| 中国什么时候解放| 受持是什么意思| 婴儿吓着了有什么症状| 举世无双什么意思| 仰天长叹的意思是什么| 虎的偏旁是什么| 海胆是什么动物| 三个鬼念什么| 999是什么电话| 血脂和血糖有什么区别| 维生素b2起什么作用| 脸肿脚肿是什么原因引起的| 胃酸过多吃什么好| 老是胃疼是什么原因| 卤什么东西好吃| 安全生产职责是什么| 百度
侵权投诉
搜索
更多>> 热门搜索:
订阅
纠错
加入自媒体

晶圆级芯片,是未来

图片

今天,大模型参数已经以“亿”为单位狂飙。

仅仅过了两年,大模型所需要的计算能力就增加了1000倍,这远远超过了硬件迭代的速度。目前支持AI大模型的方案,主流是依靠GPU集群。

但单芯片GPU的瓶颈是很明显的:第一,单芯片的物理尺寸限制了晶体管数量,即便采用先进制程工艺,算力提升也逐渐逼近摩尔定律的极限;第二,多芯片互联时,数据在芯片间传输产生的延迟与带宽损耗,导致整体性能无法随芯片数量线性增长。

这就是为什么,面对GPT-4、文心一言这类万亿参数模型,即使堆叠数千块英伟达 H100,依然逃不过 “算力不够、电费爆表” 的尴尬。

目前,业内在AI训练硬件分为了两大阵营:采用晶圆级集成技术的专用加速器(如Cerebras WSE-3和Tesla Dojo)和基于传统架构的GPU集群(如英伟达 H100)。

晶圆级芯片被认为是未来的突破口。

01

晶圆级芯片,两大玩家

在常规的芯片生产流程中,一个晶圆会在光刻后被切割成许多小裸片(Die)并且进行单独封装,每片裸片在单独封装后成为一颗完整的芯片。

芯片算力的提升方式,是依靠增加芯片面积,所以芯片厂商都在不断努力增加芯片面积。目前算力芯片的单Die尺寸大约是26x33=858mm2,也就是接近曝光窗大小,但是芯片的最大尺寸无法突破曝光窗的大小。

曝光窗大小多年来一直维持不变,成为了制约芯片算力增长的原因之一。

晶圆级芯片则提供了另一种思路。通过制造一块不进行切割的晶圆级互连基板,再将设计好的常规裸片在晶圆基板上进行集成与封装,从而获得一整块巨大的芯片。

未经过切割的晶圆上的电路单元与金属互连排列更紧密,从而形成带宽更高、延时更短的互连结构,相当于通过高性能互连与高密度集成构建了更大的算力节点。所以,相同算力下,由晶圆级芯片构建的算力集群占地面积对比GPU 集群能够缩小 10-20 倍以上,功耗可降低 30% 以上。

图片

全球有两家公司已经开发出了晶圆级芯片的产品。

一家是Cerebras。这家企业从2015年成立,自2019年推出了WES-1,之后经过不断迭代,目前已经推出到第三代晶圆级芯片——WES-3。

WES-3采用台积电5nm工艺,晶体管数量达到夸张的4万亿个,AI核心数量增加到90万个,缓存容量达到了44GB,可以支持高达 1.2PB 的片外内存。

图片

WES-3的能力可以训练比GPT-4和Gemini大10倍的下一代前沿大模型。四颗并联情况下,一天内即可完成700亿参数的调教,支持最多2048路互连,一天便可完成Llama 700亿参数的训练。

这些都是集成在一块215mm×215mm=46,225mm2的晶圆上。

如果这个对比还不够明显,那可以这么看:对比英伟达H100,WES-3的片上内存容量是 H100的880倍、单芯片内存带宽是H100的7000倍、核心数量是H100的52倍,片上互连带宽速度是H100的3715倍。

图片

另一家是特斯拉。特斯拉的晶圆级芯片被命名为Dojo。这是马斯克在2021年就开始的尝试。

特斯拉Dojo的技术路线和Cerebras不一样。是通过采用Chiplet路线,在晶圆尺寸的基板上集成了 25 颗专有的 D1 芯粒(裸Die)。

D1芯粒在645平方毫米的芯片上放置了500亿个晶体管,单个芯粒可以提供362 TFlops BF16/CFP8的计算能力。合起来的单个Dojo拥有9Petaflops的算力,以及每秒36TB的带宽。

特斯拉的Dojo系统专门针对全自动驾驶(FSD)模型的训练需求而定制。思路是从25个D1芯粒→1个训练瓦(Training Tile)→6个训练瓦组成1个托盘→2个托盘组成1个机柜→10个机柜组成1套ExaPOD超算系统,能够提供1.1EFlops的计算性能。

02

晶圆级芯片与GPU对比

既然单芯片GPU和晶圆级芯片走出了两条岔路,在这里我们以Cerebras WSE-3、Dojo 和英伟达 H100为例,对比一下两种芯片架构对算力极限的不同探索。

图片

一般来说AI 训练芯片 GPU 硬件的性能通过几个关键指标进行评估:每秒浮点运算次数(FLOPS) ,表明GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力的强弱。内存带宽,决定了访问和处理数据的速度,直接影响训练效率。延迟和吞吐量,能够评估GPU处理大数据负载和模型并行性的效率,从而影响实时性能。

算力性能

Cerebras WSE-3 凭借单片架构,在 AI 模型训练中展现独特潜力。

一般来讲,每秒浮点运算次数(FLOPS) 能够表明GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力。WSE-3 的 FP16 训练峰值性能达到 125 PFLOPS,支持训练高达 24 万亿参数的 AI 模型,且无需进行模型分区处理。这个功能就特别适合以精简高效的方式处理超大模型。

与依赖分层内存架构(可能造成处理瓶颈)的传统 GPU 不同,WSE 的设计使850 个核心可独立运行,并直接访问本地内存,这样就有效提升了计算吞吐量。

在这方面,英伟达H100采用的是模块化和分布式方法。单个 H100 GPU 可为高性能计算提供 60 TFLOPS FP64 计算能力,八个互连的 H100 GPU 组成的系统,可实现超 1 ExaFLOP 的 FP8 AI 性能。

但分布式架构就存在数据传输问题,虽然NVLink 和 HBM3 内存能降低延迟,但在训练超大型模型时,GPU 间通信仍会影响训练速度。

在AI训练的表现中,Cerebras WSE-3会更加擅长处理超大型模型。2048个WSE-3系统组成的集群,训练Meta的700亿参数Llama 2 LLM仅需1天,相比Meta原有的AI训练集群,速度提升达30倍。

延迟与吞吐量

从数据传输来看,WSE-3 的单片架构避免了多芯片间的数据传输,显著降低延迟,支持大规模并行计算和核心间低延迟通信。速度快是单片的优势,与传统GPU 集群相比,WSE-3 可将软件复杂度降低高达 90%,同时将实时 GenAI 推理的延迟降低 10倍以上。

特斯拉Dojo Training Tile属于晶圆级集成,当然也能够大幅降低通信开销。由于是从Die到Die之间传递,在跨区块扩展时仍会产生一定延迟。目前,Dojo 能实现 100 纳秒的芯片间延迟,并且针对自动驾驶训练优化了吞吐量,可同时处理 100 万个每秒 36 帧的视频流。

英伟达H100基于 Hopper 架构,是目前最强大的AI训练GPU之一,配备18,432个CUDA 核心和640个张量核心,并通过NVLink和NVSwitch系统实现GPU间高速通信。高速通信。虽然多 GPU 架构具备良好扩展性,但数据传输会带来延迟问题,即便NVLink 4.0 提供每个GPU 900 GB/s的双向带宽,延迟仍高于晶圆级系统。

尽管能够凭借着架构特性实现单晶圆工作负载的低延迟和高吞吐量,但晶圆级系统如WSE-3 和 Dojo面临着可扩展性有限、制造成本高和通用工作负载灵活性不足的问题。

谁更划算?

从硬件购置成本来看,不同芯片的价格因架构和应用场景而异。

据报道,特斯拉单台Tesla Dojo 超级计算机的具体成本估计在3 亿至 5 亿美元之间。技术路线上,Dojo采用的是成熟晶圆工艺再加上先进封装(采用了台积电的Info_SoW技术集成),去实现晶圆级的计算能力,能够避免挑战工艺极限。这既能保证较高的良品率,又便于实现系统的规模化生产,芯粒的更新迭代也更为轻松。

Cerebras WSE 系统则因先进的制造工艺与复杂设计,面临较高的初期研发和生产成本。据报道,Cerebras WSE-2 的每个系统成本在 200 万至 300 万美元之间。

相比之下,英伟达单GPU的采购成本比较低。以英伟达A100来说,40GB PCIe型号价格约 8,000 - 10,000美元,80GB SXM型号价格在18,000 - 20,000美元。这使得许多企业在搭建 AI 计算基础设施初期,更倾向于选择英伟达GPU。不过,英伟达GPU在长期使用中存在能耗高、多芯片协作性能瓶颈等问题,会导致运营成本不断增加。

总体来看,虽然WSE-2能为超大规模AI模型提供超高计算密度,但对于需要在大型数据中心和云服务中部署多GPU可扩展方案的机构,A100的成本优势更为明显。

03

结语

常规形态下,集群算力节点越多,则集群规模越大,花费在通信上的开销就越大,集群的效率就越低。

这就是为什么,英伟达NVL72 通过提升集群内的节点集成密度(即提高算力密度)。在一个机架中集成了远超常规机架的 GPU 数量,使得集群的尺寸规模得到控制,效率才能实现进一步提升。

这是英伟达权衡了良率和成本之后给出的解决方案。但是如果英伟达继续按照这种计算形态走下去,想要进一步提升算力密度,就会走到晶圆级芯片的路上。毕竟,晶圆级芯片的形态是目前为止算力节点集成密度最高的一种形态。

晶圆级芯片,潜力无限。

       原文标题 : 晶圆级芯片,是未来

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号

    咳嗽有白痰吃什么药最好 bc什么意思 屎特别臭是什么原因 2月4号是什么星座 fda是什么
    宫内积液什么意思 中央候补委员是什么级别 qs是什么 肌酐测定低是什么意思 高压150低压100吃什么药
    微信什么时候开始的 交杯酒是什么意思 胆囊息肉是什么 气虚吃什么药 屁股眼痒是什么原因
    十一月七号是什么星座 女性下面水少是什么原因 ics是什么药 开火是什么意思 bur什么意思
    扬州瘦马什么意思hcv9jop8ns3r.cn 做梦梦见很多蛇是什么意思hcv8jop7ns8r.cn 鹿吃什么食物hcv9jop7ns4r.cn 神经递质是什么意思hcv8jop5ns0r.cn 下限是什么意思hcv7jop5ns1r.cn
    喉咙痛吃什么消炎药sscsqa.com 2003年的羊是什么命hcv8jop9ns7r.cn 什么钙片好hcv8jop9ns1r.cn 打飞机什么意思weuuu.com 18年属什么jiuxinfghf.com
    吃什么上火hcv8jop7ns9r.cn 喜欢喝冰水是什么原因hcv8jop1ns0r.cn 什么是尿毒症hcv8jop0ns3r.cn 女人梦见鱼是什么意思hcv7jop5ns0r.cn 舌苔白色是什么原因hcv8jop9ns2r.cn
    花裙子配什么上衣好看hcv9jop6ns2r.cn 肠道易激惹综合症是什么症状hcv9jop6ns2r.cn 梦见买肉是什么意思hcv9jop6ns5r.cn 梦见梨是什么意思fenrenren.com 两面派是什么意思hcv8jop5ns6r.cn
    百度