文心一言迭代數據曝光,QPS提升10倍,留給LLM玩家的時間不多了。

文心一言迭代數據曝光,QPS提升10倍,留給LLM玩家的時間不多了

楊凈 發自 凹非寺

量子位 | 公眾號 QbitAI

楊凈 發自 凹非寺

量子位 | 公眾號 QbitAI

文心一言上線內測一個月後,首份迭代數據曝光:

  • 一個月共迭代4次;
  • 模型推理效率提升10倍,最近一次帶來的推理提升達到123%;
  • 推理性能提升50%,模型算力利用率提升1倍。

簡單歸納就是說,迭代很快、不僅成本降下來了,順便還把性能提升了?!

要知道過去一個月內,全球網友們的熱情被這場技術風暴所點燃,人們玩得不亦樂乎,ChatGPT也overload了好幾次。

作為國內率先發佈的文心一言,是如何保持住高效迭代的?

在這份成績單中,找到了答案。

文心一言首月數據曝光

曝光的數據不多,但全都是 關鍵技術指標——

大模型 訓練與推理方面的數據,直接影響後續產品體驗效果的好壞。

首先,迭代方面。

百度飛槳支撐的大模型推理服務在4月19日再次迭代,搭載了支持動態插入的分佈式推理引擎。

據消息稱,這還是業內首創。

截止目前,已迭代至3.5版本,一個月共迭代4次。

具體到推理方面,QPS 《每秒查詢推理響應速度》提升10倍,模型推理性能提升50%,模型算力利用率提升1倍。

QPS 《每秒查詢推理響應速度》提升10倍,也就代表著是大模型推理效率的提升,推理成本降低為原來的10分之一。

換言之,在同等成本情況下可以為更多用戶提供服務。

模型推理性能提升50%。

大模型需要在用戶反饋中持續不斷的學習,推理作為大模型應用的關鍵,其性能的提升直接影響到產品側的效果。

而 算力利用率提升1倍,同樣也是降本增效的體現。

事實上,不管是迭代速度,還是從模型成本、性能以及效率等多方面的提升,而這背後文心一言之所以能夠高效迭代,飛槳的重要性不容忽視。

更確切地來說, 「飛槳+文心一言」聯合優化。

大模型不僅需要單純的「暴力美學」的支撐,同時還需要深度學習框架作為底層來支持高效、穩定的分佈式訓練。

此次數據就可以看到,飛槳即向上與模型「文心一言」,又向下與芯片算力都實現了協同優化,實現整體的效能提升。

而具體到推理過程,飛槳能為文心一言『定制』了一個精密生產流程,結合大模型算力、數據、參數量等特點來設計工藝,從而提升了推理效率和性能,幫助模型學習得越快越好。

大模型技術行業挑戰

這些迭代數據的背後,帶出了大模型技術的新行業挑戰值得探討。

隨著更多產業玩家的推進,我們已經明顯感知到 大模型投入大成本高。

如果沒有足夠的資金和計算資源,就連開發訓練這一階段都難以進行。

據最新消息,OpenAI每天需要支付70萬美元來維持ChatGPT基礎設施運行。

在此之前微軟也已經從中投入了數十億美元。

誠如每每有行業大佬選擇大模型創業,都有網友調侃:這點錢不夠燒的。

其次, 大模型優化難迭代要求高,需要自上而下的全局優化。

以往認知中,大模型核心技術突破來源於暴力資源累積,可以是超大規模計算資源的聚集、超大規模模型結構的設計、海量數據亦或是參數量的提升……

但事實上這牽涉到每個環節自上而下很強的經驗積累。

誠如OpenAI有業內人士消息稱,它將整個公司最優秀的算法研究員,拿去做數據規劃和處理。

現在在百度文心一言,也得到再一次印證:

大模型的突破和迭代,並非靠簡單三駕馬車《算力算法數據》來驅動,而是一整套從底層芯片框架到模型訓練推理等流程的系統工程化難題。

與此同時在這份數據中,也透露出了百度的經驗解法:

全局技術棧,端到端優化。

早在文心一言啟動邀測時,李彥宏就已經披露,百度將目前已有的AI技術棧自上而下分成了四個方面:應用層、模型層、框架層與芯片層。

四層架構之間端到端優化,進而來實現降本增效。

此次飛槳與文心一言的聯合優化,正好就是這套解法最直觀的展現。

飛槳之於文心一言,一方面其開源分佈式架構,可以支持模型大規模GPU並行訓練,以提升模型的性能和效率。

另一方面,連接了芯片層與模型層,將整套流程設計得更加精密和適配。

甚至業內人士這樣形象化地形容:

大模型就像汽車的發動機,要壓榨出發動機瞬時最大爆發力《QPS》以及最優的性能表現。

深度學習就像是發動機的動力源『變速箱『,可以讓發動機整體部件組合更精密、動力更強。

大模型就像汽車的發動機,要壓榨出發動機瞬時最大爆發力《QPS》以及最優的性能表現。

深度學習就像是發動機的動力源『變速箱『,可以讓發動機整體部件組合更精密、動力更強。

更關鍵在於,如果這幾層技術棧都是自主自研,那麼協同合作就會更高效,效率提升也會更加明顯。

這些又意味著什麼?

最後,在這些行業挑戰和百度經驗解法之中,也透露出了大模型發展的幾大趨勢。

首先, 大模型想要跑得快跑得穩,必須端到端優化。

OpenAI的成功一方面可以歸結於自身的人才技術以及長期投入,另一方面微軟從框架到算力的支持,也在其中做出了關鍵貢獻,這才有了持續驚艷全球的ChatGPT。

隻是當時這種端到端優化的范式沒有被太多強調關注。

而此次曝光的文心一言數據,則是更廣泛地證明了端到端優化的優勢。

以往大家所關注到的是大模型訓練中算力、算法以及數據的必要性。

但底層比如深度學習框架,對大模型訓練推理的重要作用也應該被大家所廣泛感知。

其次, 端到端優化的趨勢,也正在改變大模型賽道遊戲規則。

ChatGPT風暴席卷而來,巨頭們紛紛進場,大佬們前後腳創業,大模型人才被哄搶,每周都有上千個AI應用湧現……每個躬身入局的機構都在金錢、時間等方面進行搶奪與追趕。

在大模型的創業浪潮中,有人把入場券門檻認為5000萬美元,窗口期大概在半年到一年。

但現在這種端到端優化趨勢,正在讓創業窗口期越來越短。

原因無他, 大模型雪球效應已經開始展現。

以百度為代表的大模型玩家,正在形成『架構-大模型-應用-數據』飛輪加速閉環。

一方面,推理成本降低,加速大模型產業落地,甚至可能比上一波浪潮更快;另一方面,大模型迭代速度越來越快,產品應用具有長期持續性,商業壁壘更容易建立,對下遊生態玩家而言,這自然是剛需和利好。

但與之相關,大模型創業甚至產品發佈的窗口期也正在被壓縮,留給大模型創業玩家的湧現的時間也不多了——

他們不光要準備金錢、時間等這些外在資源儲備,還需要考慮自身產品能否還具有競爭力。

另外創業的必要性也正在減弱:就動輒大幾千萬甚至上億的入場券來說,既沒有必要重復造輪子,也沒有端到端核心積累優勢。

大模型創業的機遇,會開始朝著生態和應用創新傾斜。

但也正因如此,反而更加彰顯了大模型自主的重要性,因為太基礎、太底層、太需要把生態放在放心安心的國產層面了。

大模型趨勢再明晰不過,千行百業的落地價值也已經預見,入局是必然,但之前是否需要按照地緣區域或國界劃分『造輪子』卻沒有共識——有些論點裡,依然相信科學技術的進展會普惠到全世界。

然而隨著地球另一邊,OpenAI越來越Close,API輸出的區別對待,中國需要自己的大模型底座,正在成為共識。

有意思的是,這在芯片、深度學習框架、底層架構平臺的打造過程中,已經有過一輪討論,有過一輪經驗教訓,並且還被類比為了汽車產業中的『發動機』,最後明確『發動機』必須要自主,這樣產業才真正安全。

然而到了大模型競速中,對於『變速箱』的認知,之前因為對大模型認知不完備,存在不同聲音,但此役過後,應該無人再有異議了。

畢竟百度已經在打造、迭代的過程中,展現出了這種四層自研技術棧的端到端協同的必要性和重要性。

不過也正是這種必要性和重要性,進一步明示了大模型打造的殘酷的遊戲規則:

凡有的,還要加倍給他,叫他多餘;沒有的,連他所有的也要奪過來。

凡有的,還要加倍給他,叫他多餘;沒有的,連他所有的也要奪過來。

這背後既是端到端全棧帶動的壁壘,更是數據、應用驅動飛輪之下越滾越大的雪球。

隨著雪球向前,大模型產業落地的速度自然會加快,同時留給其他大模型玩家湧現的時間也越來越緊缺。

這種趨勢已經開始,這種趨勢還會持續。

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態