股價飆漲市值逼近蘋果...

分類: 最新資訊 短信詞典 編輯 : 短信大全發(fā)布 : 03-10

閱讀 :161

當(dāng)?shù)貢r間周四美股收盤，英偉達(dá)股價創(chuàng)歷史新高，市值超2.3萬億美元，3月8日盤前又漲超3%，直逼蘋果。近段時間，背靠生成式AI對GPU算力的大量需求，英偉達(dá)股價幾乎一路飆漲，多次創(chuàng)歷史新高。但水面之下，對英偉達(dá)的挑戰(zhàn)從來不止，一些變化正在發(fā)生。被視為OpenAI最大競爭對手的Anthropic近日發(fā)布Craude3模型，其最高版本在多項基準(zhǔn)測試中性能超過GPT-4。鮮少目光會注意到，Anthropic背后站著亞馬遜，獲亞馬遜投資后Anthropic用了其自研AI芯片Trainium和Inferentia訓(xùn)練和部署。谷歌等巨頭也在發(fā)力自研AI芯片。引起波瀾的另一個事件是，不久前AI芯片初創(chuàng)公司Groq宣稱其LPU（語言處理器）推理性能是英偉達(dá)GPU的10倍，成本僅為其十分之一。一名AI創(chuàng)業(yè)者試用Groq開放的產(chǎn)品后向記者感嘆“每秒520個token（文本單元），非常驚艷”。該芯片采用存算一體（近存計算）架構(gòu)，不完全等同于傳統(tǒng)GPU的馮·諾依曼架構(gòu)。受該芯片推出影響，一名近期獲得融資的國內(nèi)存算一體企業(yè)負(fù)責(zé)人也告訴記者，業(yè)界對這種針對AI的新架構(gòu)芯片關(guān)注度明顯上升了。芯片架構(gòu)創(chuàng)新和AI巨頭自研的動力，構(gòu)成挑戰(zhàn)英偉達(dá)的兩股暗流。談及顛覆或許為時尚早，但多股利益糾纏下，挑戰(zhàn)不會停止。Groq的架構(gòu)“革命”2016年，英偉達(dá)CEO黃仁勛將第一臺DGX-1超級計算機(jī)交給OpenAI，這臺超級計算機(jī)集成了8塊P100芯片，將OpenAI一年的訓(xùn)練時間壓縮到一個月。這是GPU推動大模型成型的絕佳案例。此前大模型猛然涌現(xiàn)時，布局高性能計算并搭建CUDA軟件生態(tài)多年的英偉達(dá)伸手接住風(fēng)口，憑通用性和完善軟件生態(tài)成為AI芯片最大贏家。但談及其芯片架構(gòu)是否最適合AI運(yùn)算，答案或許并不是。以英偉達(dá)為代表的主流GPU依賴高制程帶來性能提升，但可見的是，摩爾定律逼近極限，制造更高制程芯片的成本上升，計算、存儲分離的馮·諾依曼架構(gòu)芯片還面臨內(nèi)存墻和功耗墻，存儲器單元和處理單元之間需要數(shù)據(jù)傳輸，存儲帶寬制約了計算系統(tǒng)有效帶寬。記者此前參加的行業(yè)會議上，有從業(yè)者統(tǒng)計了20年間存儲器和處理器性能增長情況發(fā)現(xiàn)，兩者的鴻溝以每年50%的速率擴(kuò)大，比起算力增長，數(shù)據(jù)搬運(yùn)能力增長速度慢更制約大模型發(fā)展。業(yè)界已在探討如何避開馮·諾伊曼架構(gòu)弊端。既然存儲和處理單元數(shù)據(jù)傳輸存在損耗，那就縮短兩者之間的距離，英偉達(dá)的方法是采用DRAM（動態(tài)隨機(jī)存取存儲器）堆疊而成的HBM（高帶寬內(nèi)存）并與GPU一起封裝，使存儲和計算單元更近，增加存儲密度的同時減少傳輸損耗，提升帶寬，這正是SK海力士等存儲巨頭的著力方向，但這種方案還受HBM供應(yīng)緊缺限制且依賴臺積電等先進(jìn)封裝。要解決內(nèi)存墻還有一種方法，即改變馮·諾依曼架構(gòu)，轉(zhuǎn)而采用存算一體架構(gòu)，將計算單元和存儲單元合二為一，這種新架構(gòu)可用于GPU、LPU等多類芯片。Groq的LPU推理芯片是向存算一體架構(gòu)靠近的方案，它還改變了芯片產(chǎn)品模式，采用SRAM（靜態(tài)隨機(jī)存取存儲器）而不用HBM，放大SRAM高存取速度的優(yōu)勢，在芯片制程14nm的情況下，使大模型生成速度近500token/秒，超過GPU驅(qū)動的GPT-3.5的40token/秒?！耙杂ミ_(dá)H100為例，里面也有一個SRAM，從HBM進(jìn)來的數(shù)據(jù)還要到SRAM里走一趟，帶寬大概3.25Tb/秒。Groq這款芯片相當(dāng)于不再單獨(dú)接一個HBM，內(nèi)部帶寬可以達(dá)80Tb/秒，相比GPU HBM放大了近30倍?！鼻究萍级麻L陳巍告訴第一財經(jīng)記者，Groq團(tuán)隊從谷歌TPU（張量處理單元）團(tuán)隊出來，結(jié)合了原來的TPU架構(gòu)思路、近存計算和數(shù)據(jù)流架構(gòu)，在集群計算中表現(xiàn)出比較好的性價比。這款芯片推出后，以前阿里技術(shù)副總裁賈揚(yáng)清為代表的部分人士根據(jù)Groq LPU較低的內(nèi)存容量與英偉達(dá)H100對比，認(rèn)為同等吞吐量情況下Groq LPU的硬件成本和能耗高于H100。陳巍聚焦平均計算成本，量化計算后則發(fā)現(xiàn)Groq LPU服務(wù)器每token/s、每TOPS BOM模組/計算卡成本均低于英偉達(dá)H100，這還是在Groq LPU制程遠(yuǎn)不及5nm英偉達(dá)H100的情況下。陳巍告訴記者，Groq LPU采用的已是近存計算中較成熟的架構(gòu)，北美在2019年、2020年就陸續(xù)有可替代GPGPU的新架構(gòu)出來的消息，Groq這顆芯片推出基本在預(yù)期內(nèi)。一般而言，認(rèn)為存算一體架構(gòu)算力可領(lǐng)先同等工藝邏輯芯片或GPU 4代，12nm或16nm存算一體芯片大約可達(dá)7nm或5nm傳統(tǒng)架構(gòu)GPU的算力。未來存算一體與現(xiàn)有GPU技術(shù)融合是一個發(fā)展方向，或?qū)ΜF(xiàn)有傳統(tǒng)GPU形成替代。國內(nèi)針對AI需求也在布局存算一體架構(gòu)，記者了解到，千芯科技相關(guān)芯片通過互聯(lián)網(wǎng)公司內(nèi)測并在跑大模型，相關(guān)企業(yè)還包括億鑄科技、阿里達(dá)摩院、知存科技、蘋芯科技、后摩智能等，這些企業(yè)聚焦云端、車端或其他邊緣場景。在Groq采用的SRAM外，業(yè)界也在探索ReRAM等密度更高的存儲介質(zhì)方案。一些海外巨頭則嘗試入場布局存算一體。去年9月，美國AI芯片初創(chuàng)公司D-Matrix獲1.1億美元B輪融資，微軟和三星出現(xiàn)在投資方名單中，微軟還承諾D-Matrix今年推出芯片時評估該芯片供自身使用。另一家在開發(fā)數(shù)字存內(nèi)計算芯片的AI創(chuàng)業(yè)企業(yè)Rain AI此前被OpenAI CEO薩姆·阿爾特曼（Sam Altman）投資100萬美元，2019年，OpenAI便與其簽署意向書，計劃斥資5100萬美元購買Rain AI的AI芯片。硅谷巨頭發(fā)力“受益于英偉達(dá)，也受制于英偉達(dá)”可能是硅谷巨頭們過去一年追逐大模型時的寫照。在AI芯片市場處于領(lǐng)先地位的同時，英偉達(dá)可用于大模型訓(xùn)練推理的GPU產(chǎn)能一度受限且并不便宜。Meta創(chuàng)始人扎克伯格今年初提到，到今年年底，公司計算基礎(chǔ)設(shè)施將包括35萬張H100顯卡。Raymond James分析師此前表示，英偉達(dá)H100售價2.5萬~3萬美元。若按每張H100售價2.5萬美元計算，Meta這批顯卡價格將達(dá)數(shù)十億美元。薩姆·阿爾特曼則多次提及AI芯片供需問題，近期表示全球需要的人工智能基礎(chǔ)設(shè)施包括晶圓廠產(chǎn)能、能源等比目前人們規(guī)劃的更多。英偉達(dá)之外，其他廠商近期傳出更多造芯消息。今年2月回應(yīng)OpenAI7萬億美元造芯計劃傳聞時，薩姆·阿爾特曼稱“我們認(rèn)為世界將需要更多AI芯片。AI芯片需全球大量投入，超出我們想象”。有消息也稱軟銀集團(tuán)創(chuàng)始人孫正義正計劃籌集1000億美元資金來資助一家芯片企業(yè)。硅谷科技巨頭更早起步。英偉達(dá)老對手AMD在GPU領(lǐng)域追趕。亞馬遜有用于AI訓(xùn)練的定制芯片Trainium和AI推理芯片Inferentia，去年Meta發(fā)布了第一代AI推理定制芯片MTIA v1，谷歌則于2017年就推出了TPU，在此基礎(chǔ)上構(gòu)建AI產(chǎn)品。有消息稱，谷歌90%以上AI訓(xùn)練工作都使用TPU，Meta也有計劃在數(shù)據(jù)中心部署自己的AI芯片，減少對英偉達(dá)芯片的依賴。英偉達(dá)基于GPU構(gòu)建的CUDA軟件生態(tài)是其護(hù)城河，但單論一些硬件性能，英偉達(dá)GPU并非不可能超越，多家硅谷巨頭廠商繞開GPU領(lǐng)域后已在探索不同路徑。上海交通大學(xué)計算機(jī)科學(xué)與工程系教授梁曉峣在一場行業(yè)論壇中提到，奠定了英偉達(dá)AI時代算力基座的V100采用了Tensor Core單元，通過4×4矩陣塊運(yùn)算，而有廠商用了更大矩陣塊運(yùn)算達(dá)到更高效率和算力，谷歌TPU和特斯拉FSD芯片則用了脈動陣列，使芯片更高效。谷歌TPU、Meta的MTIA v1和Groq LPU均屬于ASIC（專用集成電路）。據(jù)記者了解，GPU作為處理器通用性和靈活性較強(qiáng)，但硬件可編程性較弱，ASIC則將算法固定在硬件上，靈活性較差但理論上能耗表現(xiàn)和性能可高于GPU。除以近存計算克服內(nèi)存帶寬瓶頸，Groq官網(wǎng)還提到，其LPU還旨在克服計算密度的瓶頸，對大語言模型而言，LPU計算能力大于GPU和CPU。這些ASIC實際表現(xiàn)如何？PyTorch是可利用英偉達(dá)CUDA加速GPU計算的深度學(xué)習(xí)框架。一名使用谷歌TPU和英偉達(dá)GPU的研究人員告訴記者，TPU使用的則是JAX框架， JAX本身的軟件開源生態(tài)還是比PyTorch差，一些PyTorch已實現(xiàn)的功能在JAX上還要實現(xiàn)一遍。當(dāng)正常運(yùn)算時，機(jī)器規(guī)模不大的情況下，英偉達(dá)GPU與谷歌TPU的效果差別不太大，但在機(jī)器規(guī)模增大后，TPU的優(yōu)勢凸顯，更簡潔高效，不需額外做太多工程優(yōu)化。面對有先發(fā)優(yōu)勢的英偉達(dá)，遷移也是其他AI芯片廠商面臨的挑戰(zhàn)。大模型在其GPU上跑后，若要遷移至其他AI芯片上需要遷移成本，但其他廠商也并非毫無辦法。以上研究人員表示，用Pythorch寫的只適用于CUDA的代碼，此前難以遷移，但PyThorch1.3開始提供支持，通過Pythorch XLA編譯器能較快適配到TPU。這意味著，在英偉達(dá)GPU上跑的大模型若要遷移至TPU，不需重寫所有代碼。但目前限制是，經(jīng)遷移的代碼在大規(guī)模集群訓(xùn)練時可能出現(xiàn)一些問題。在打破英偉達(dá)軟件優(yōu)勢、讓更多AI芯片廠商入場競爭的路上，OpenAI也在努力。OpenAI于2021就發(fā)布了開源的Triton1.0，其類似Python，旨在讓沒有CUDA經(jīng)驗的研究人員能高效編寫GPU代碼。去年年底AMD發(fā)布會上，OpenAI宣布Triton從接下來的3.0版本開始支持MI300等AMD生態(tài)。股價飆升一定程度上說明市場對英偉達(dá)仍舊看好，但競爭不會停止，望向未來，AI芯片仍具有很多可能性。

標(biāo)簽 : 最新資訊短信 03-10

提示：【方向鍵 ( ← )上一篇】【方向鍵 ( → )下一篇】

上一篇: vivoX100SPro通過認(rèn)證：或首發(fā)天璣9300+ 上一篇

下一篇: 光大銀行重慶分行舉行“陽光消保健康跑”活動下一篇

標(biāo)簽 : 最新資訊 03-10

国产92成人精品视频免费,大胆欧美熟妇xxbbwwbw,丁香色欲久久久久久综合网,99久久久国产精品免费无卡顿,国产麻豆日韩欧美久久

最新資訊]短信句子

股價飆漲市值逼近蘋果...

相關(guān)短信

最新短信

国产92成人精品视频免费,大胆欧美熟妇xxbbwwbw,丁香色欲久久久久久综合网,99久久久国产精品免费无卡顿,国产 麻豆 日韩 欧美 久久

最新資訊]短信句子

股價飆漲市值逼近蘋果...

相關(guān)短信

最新短信

国产92成人精品视频免费,大胆欧美熟妇xxbbwwbw,丁香色欲久久久久久综合网,99久久久国产精品免费无卡顿,国产麻豆日韩欧美久久