大模型時代,國產GPU的長征路 |Chat AI。

作者 | 楊逍,真梓

編輯 | 小石頭

人工智能已然掀起新一次產業浪潮。

近半月以來,人工智能領域大模型的消息層出不窮地傳出。

OpenAI出乎意料地推出大型多模態模型GPT-4;百度『文心一言』如約上線,在展示中呈現了文心一言在文學創作、數理邏輯推算、多模態生產等多元能力。

騰訊總裁劉熾平表示會持續優化混元AI大模型;字節則傳出了前達摩院大模型 M6 帶頭人入職,並參與語言生成大模型研發的消息。

大模型被認為有著帶來產業革命的力量,能為行業帶來切實的生產力變革。

谷歌率先宣佈開放PaLM大模型的API,並將生成式AI功能用於各種應用程序;微軟緊跟其後,宣佈推出 Copilot AI產品,表明GPT-4等模型已具備被引入生產工具的穩定性。

Adobe也宣佈將與英偉達合作 ,探索將大模型能力引入產品中。

一個人工智能的新時代即將展開。

人工智能領域的創業熱情被點燃,多位大佬官宣入局大模型賽道。

創新工場CEO李開復、前搜狗CEO王小川、前京東AI掌門人周伯文、出門問問創始人李志飛,阿裡技術副總裁賈揚清,這些聲名赫赫的大佬,正一齊踏入大模型賽道的創業河流。

然而,大模型的發展有算法、算力、數據三大重要因素,算力是大模型訓練的重要能量引擎,也是目前國內發展大模型產業的一大壁壘。

芯片能力直接影響著高算力訓練效果和速度,這背後都是錢。

芯片擁有數量的多少,也成為行業人士判斷企業大模型能力的重要指標。

在剛剛結束的GTC大會期間,英偉達不負眾望,推出了適用於ChatGPT的專用GPU,可以將推理速度提升10倍。

此外,針對中國用戶,英偉達還按照A800操作模式《A100芯片的降維版本》,推出了完全符合出口規定的H100的降維版本芯片,具體參數並未公佈。

然後,無論是此前針對中國的A800,還是H100中國版本,都和國外市場可使用的原版芯片存在差距。

國外芯片是否能夠撐起大模型的算力需求,成為行業內備受關注的問題。

尋找A100

OpenAI ChatGPT大模型能有今日風光,英偉達的A100功不可沒。

大模型的訓練需要龐大的算力資源,GPU是大模型的最佳算力發動機。

為了支撐OpenAI訓練出ChatGPT,微軟專門為OpenAI打造了一臺由數萬個A100 GPU組成的AI超級計算機,此外,還有60多個數據中心、幾十萬張GPU可以支持ChatGPT的推理工作。

國內雲計算相關專家認為,做好AI大模型的算力最低門檻是1萬枚英偉達A100芯片。

TrendForce研究則顯示,以A100的算力為基礎,GPT-3.5大模型需要高達2萬枚GPU,未來商業化後可能需要超過3萬枚。

據臺灣電子時報報道,微軟等客戶對英偉達的A100/H100芯片芯片需求強烈,目前英偉達訂單能見度已至2024年,高端芯片非常緊缺。

而國內擁有的超高算力芯片並不多。

據《財經十一人》報道,國內雲廠商主要采用的是英偉達的中低端性能產品,擁有超過1萬枚GPU的企業不超過5家,其中,擁有1萬枚英偉達A100芯片的最多隻有一家。

目前來看,公開表示擁有1萬張A100GPU的企業隻有幻方量化,為了發展量化金融業務,該公司構建了名為『螢火二號』的AI集群。

作為大模型的主要入局者,國內互聯網大廠擁有天然的數據優勢,自然不希望因算力被卡在大模型能帶來的廣闊世界和商機之外。

多位行業人士向36氪表示,自2022年9月,美國禁止向國內客戶售賣英偉達A100、H100和AMD的MI250人工智能芯片後,國內大廠就開始大舉囤芯片。

一位為企業采購算力的從業者告訴36氪,有廠家自去年下半年起就持續在市場中尋覓能拆出A100的各類整機產品,目的僅是獲得GPU芯片。

『機子太多,存放的地方都不夠用』

有接近百度的人士告訴36氪,百度擁有部分A100芯片,同時部署了少量昆侖芯。

而另一家較早推出大模型的企業,在市面上搶芯的動作頗為激進,『幾乎達到人盡皆知的程度』。

英偉達曾申請在2023年3月1日前,為A100的美國客戶提供所需的出口支持。

如今期限已過, A100芯片的獲取通道被鎖死。

英偉達特意為中國客戶提供的降維版本GPU A800成為最叫賣的產品。

此外,在3月的GTC大會上,英偉達發言人證實,將面向中國市場,推出符合管制要求的降維H100產品。

與A100相比,A800的計算性能沒有發生改變,但是它的數據傳輸速度被限制了,功耗增加了。

換句話說,A800獲得數據的速度變慢了,且使用起來更費電了,但,它的計算速度仍然優秀。

目前,A800 80GB的顯卡在京東上的售價達到了89999元,部分店鋪甚至賣到了93999元,甚至超過了A100之前的價格。

超算中心建設成本極高,除百度、華為等極少數公司會自行建設超算力中心,更多的企業通過租用超算中心算力的方式入局。

在ChatGPT引領AI熱潮後,數據中心的A100算力租用價格迅速上漲。

零散的算力資源已達到一張卡每小時10元,哪怕相對便宜的批量化算力資源,也漲價近20%達到一卡每小時6-7元。

就連A800的算力資源也變得緊缺起來,需要提前預定。

一位數據標註從業者告訴36氪:『在飛天平臺,現在想預定1000塊A100,一定是沒有的,如果想預定100塊A100的算力,那可以排隊試試』

如果,連A800都等不到,那使用英偉達高端GPU系列中,性能更差的V100進行訓練,也不失為一種可能。

在GTC大會上,面對強勁的算力需求,英偉達還新推出了雲算力平臺,企業可以租用算力,谷歌、微軟AZURE等雲算力平臺會為其提供算力支持。

黃仁勛表示中國也可以采用這個平臺,但需要由阿裡、騰訊等企業的雲平臺合作提供。

一切又回到了原點。

推理側是機會

雖然英偉達的產品可以降維使用,但國內大模型企業在訓練和推理時會受到底層算力的影響』

祥峰投資管理合夥人夏志進告訴36氪:『動態來看,海外企業會推出更大的模型,下一代需要的算力資源會更大,算力未來會是一個很大的挑戰』

國產GPU芯片是否可以支撐大模型的算力需求?

大模型對於算力的需求分為兩個階段,一是訓練出ChatGPT一般大模型的過程;二是將這個模型商業化的推理過程。

國產GPU可以做對信息顆粒度要求沒有那麼高的雲端推理工作,但大多目前無法處理超高算力需求的雲端訓練。

燧原科技、壁仞科技、天數智芯、寒武紀等公司都推出了自己的雲端GPU產品,且理論性能指標不弱。

3月17日,李彥宏也在亞佈力中國企業家論壇上分享,昆侖芯片現在很適合做大模型的推理,將來會適合做訓練。

登臨科技聯合創始人王平告訴36氪:『從現實角度來看,國內GPU新創公司的短期機會在推理側,推理側服務器需要采用一機多卡。

登臨的創新通用GPU產品Goldwasser具有更高的效率和能效比,能‍‍實現很好助力客戶實現降本增效,當然降本增效,也是現在以及未來雲廠商需要解決的問題』

摩爾線程全功能GPU顯卡可以完成AI模型的訓練、推理、精調全流程,目前可以進行ChatGLM和GLM系列模型的推理,並且支持超大大模型的分佈式推理和offload推理。

大模型訓練需要處理高顆粒度的信息,對雲端訓練芯片的芯片處理信息的精細度和算力速度要求更高,現階段國產GPU大多還不具備支撐大模型訓練所需的能力。

不同於多媒體和圖形處理的單精度浮點計算《FP32》計算需求,在超算領域,雙精度浮點計算能力FP64是進行高算力計算的硬性指標。

英偉達的A100同時具備上述兩類能力,而國內GPU芯片的雲端訓練公司,大多隻能處理單精度浮點計算,如壁仞科技《通用GPU芯片BR100》、天數智芯《『智鎧100』》、寒武紀《雲端推理思元270》的產品在FP32的理論指標上做得不錯,但沒有處理FP64的能力。

根據公開消息,目前國內唯一支持FP64雙精度浮點運算的隻有海光推出的DCU《協處理器》,但是它的性能隻有A100的60%左右。

王平認為,『國內通用GPU產品的確在滿足大模型訓練上與國際旗艦產品存在差距,但並非不可彌補,隻是此前行業在產品定義裡未朝著大模型方向做設計』

摩爾學院院長李豐告訴36氪,公司現階段已經可以支持3億參數量模型的訓練,2022年底就提前佈局了自然語言模型預訓練,自研了MusaBert模型。

目前,行業從業者在做相關的探索和努力,如思考能否通過Chiplet《將芯片堆疊或者並列擺放》、先進封裝的方式提高算力。

一位Chiplet領域的從業者告訴36氪,某GPU明星大廠就曾詢問能否通過Chiplet的方式達到大模型所需算力。

王平也表示,『針對大模型訓練市場,行業可以選擇做出有特性、在某些維度性能上超過英偉達的產品』

目前國產GPU公司都在朝著大模型領域去做佈局。

昆侖芯回復36氪:『昆侖芯2代芯片相較第一代產品大幅優化了算力、互聯和高性能,公司正在不斷研發新的產品和技術,為大模型和 AIGC 的應用提供更佳的性能體驗』

據王平介紹,登臨科技首款產品Goldwasser已規模化運用在多家行業知名企業的主營業務中,新一代Goldwasser產品針對基於Transformer的網絡和生成式AI類大模型的應用在性能有大幅提升,對標國際大廠的產品有明顯的能效比和性價比的優勢。

燧原科技宣佈對公司品牌做戰略升級,要打造AIGC時代的基礎設施;摩爾線程則表示將推出基於公司全功能GPU的AIGC算力平臺。

軟件是更高的壁壘

比起硬件性能上可接受的差異,軟件適配與兼容讓客戶接受更難。

當大模型和應用層面的競爭拉響,從商業角度思考,采用國產AI芯片參戰並不是好的選擇。

從硬件性能上,使用國產AI芯片計算會比采用英偉達A100慢,在分秒必爭的當下,『慢』是企業最不願意看到的場景。

此外,哪怕能通過堆芯片的方式堆出一個算力相當的產品,從服務器運營的角度,它的主板開銷、電費、運營費,以及需要考慮的功耗、散熱等問題,都會大大增加數據中心的運營成本。

因為算力資源常需要以池化的形式呈現,數據中心通常更願意采用同一種芯片,或者同一公司的不同芯片,來降低算力池化難度。

對客戶而言,把國產AI芯片用起來並不容易。

算力的釋放需要復雜的軟硬件配合,才能將芯片的理論算力變為有效算力。

國產AI芯片想要替換英偉達的GPU,需要突破CUDA生態和整個產業生態的壁壘。

摩爾線程有著自己的全功能GPU芯片,且推出了AIGC平臺,李豐告訴36氪:『最難的是生態的建立,我們要兼顧很多的生態兼容性。

先說CUDA,為了把GPU的算力能力進一步發揮,英偉達花了10年時間,投入3000多人打造了一個CUDA框架。

這套框架裡集成了很多調用GPU算力所需的代碼,工程師可以直接使用這些代碼,無須一一編寫。

如果沒有這套編碼語言,軟件工程師發揮硬件價值的難度會變得極大。

一位關注基礎軟件的投資人告訴36氪:『沒有CUDA ,調用GPU的代碼會寫到地老天荒,不可能所有的東西都自己寫』

尚處於創業階段的芯片設計公司,很難在生態上投入如此大的人力財力。

大多會選擇兼容CUDA架構,來降低客戶使用門檻。

也有部分公司會選擇自研加速器,如寒武紀就構建了自己的加速平臺;昆侖芯也面向開發者提供了類似英偉達CUDA的軟件棧,希望打造自己的生態,也能擺脫硬件需受CUDA更新的困擾。

即使有了這個編程框架,整個產業生態上的人也很難把這個芯片用起來。

目前世界上主流的深度學習框架都有基於CUDA進行加速的,整個產業中下遊軟件、驅動廠家等都基於此進行適配。

這構成了一個極強大的生態壁壘,就像蘋果系統內部的閉環生態,和window操作系統+上層應用軟件一樣。

對於企業來說,更換雲端 AI 芯片要承擔一定的遷移成本和風險,除非新產品存在性能優勢,或者能在某個維度上提供其他人解決不了的問題,否客戶更換的意願很低。

祥峰投資管理合夥人夏志進也告訴36氪:『軟件生態是好用不好用的問題,沒有CUDA會提高門檻,不是不可以用,隻是需要花很多額外的功夫』

芯片需要適配硬件系統、工具鏈、編譯器等多個層級,需要很強的適配性,否則會出現這款芯片在某個場景能跑出90%的算力,在另一場景隻能跑出80%效能的情景。

即使英偉達,為了更好發揮硬件的功效,對於大客戶也會提供一些人力,幫忙做軟件適配調試,軟硬兩方仍需要針對客戶做部署、調試。

對性能要求較高的大廠,還會設置專門的軟件部署師對硬件進行適配,來發揮硬件的最大性能。

這也是很多手機廠商會自研芯片來更好適配產品的原因。

共建生態,尋求解法

目前,國內從業者已經在構建生態上做努力。

在一個AI生態中,支撐大模型訓練需求,需要底層硬件、中間深度學習平臺、上層應用軟件的整體適配,互相支持。

硬件對上層軟件的支持情況,必須代碼寫出後,有人一步步躺坑,才能知道問題所在,改進硬件對軟件的支持效果。

一家C輪應用型軟件公司告訴36氪,自己需要對不同類型、不同版本的基礎軟硬件進行適配,每年花在適配上的支出超出千萬元。

百度飛槳已在推動和國內芯片適配。

2022年4月時,百度飛槳已完成和包括百度昆侖芯、華為昇騰在內的22家國內外硬件廠商,31種芯片的適配和優化,基本覆蓋國內主流芯片。

目前,昆侖芯和飛槳完成3級兼容性適配,登臨科技和飛槳也完成2級適配,沐曦集成電路和飛槳完成1級兼容性測試。

近期,華為的MindSpore被報道和愛可生向量數據庫兼容。

有信息顯示,沐曦之前也已加入昇思MindSpore社區。

另一個大模型領域重要玩家,智源研究院,其九鼎智算平臺也在和多家國內AI芯片公司合作。

未來,大模型訓練對算力的需求會越來越大。

比如,科研場景或訓練視頻類信息,都需要更大的算力支持。

英偉達等廠商也會不斷追求研發更高性能的芯片,海外企業可以購買英偉達算力更高的芯片,推動大模型訓練。

比如,微軟已經和宣佈加強和英偉達和合作,將GPU 從此前的 A100 升級到 H100。

參戰大模型競賽,算法、算力、數據環環相扣。

在最卡脖子的環節,如何縮小GAP,成為一個求共解的命題。

《感謝韋世瑋老師的采訪支持》