百度文心一言發佈倒計時十天,我們和背後的工程化團隊聊了聊。

百度文心一言發佈倒計時十天,我們和背後的工程化團隊聊了聊

嘉賓|謝永康、忻舟、靳偉 采訪 & 撰文 |Lisa 文心一言的發佈已經進入倒計時。在這個特殊的時間節點,InfoQ 接觸到了百度 AI 中臺的技術團隊,試圖了解將全面支持文心一言在產業快速落地的工程化能力具體是什麼樣子。 國外,OpenAI 宣佈正式推出面向商業用戶的 ChatGPT 和 Whisper 語音轉文字模型 API,開發人員可以通過 API 將 ChatGPT 和 Whisper 模型集成到自己的應用程序和服務中。

國內,百度即將發佈的文心一言已經與 400 餘家企業正式達成戰略合作。

大模型的出現讓沉寂了許久的資本市場再度熱鬧起來,投資人們近期不是在排會、就是在項目投決會上,相關概念股同樣漲幅可觀。從脈脈上放出的 AIGC 相關崗位來看,互聯網、電商、智能硬件等眾多領域的大廠全力開搶相關人才,知名獵頭 CGL 等公司掛出 10 萬月薪崗位開始搶人。

冷靜之下,本輪 AI 熱潮與此前幾輪呈現驚人的相似——熱點迸發,資本湧入,創業公司層出不窮,最終由於缺乏規模化落地,或不了了之,或大幅虧損。曾經被資本認為至少有 1000 億美元估值的格靈深瞳實際不到 50 億,而『AI 四小龍』過去一年則飽受『長期虧損、造血能力不足』的質疑。

歸根結底,AI 的規模化落地遠不是某一項技術突破就能實現的,除算力、算法、數據外還需要大量工程性、過程性工作的加入。從數據采集、標註到模型訓練、上線,任何一個環節出現問題都會影響最終的落地效果。

當新一輪的技術浪潮來襲,AI 工程化再次成為無法回避的問題。

那麼為什麼談論了這麼多年,AI 工程化依舊無法尋找到最佳解決方案?MLOps 是最優解嗎?如果是,這套方法論具體如何落地?可以給產業帶來哪些實際價值…… 本文,InfoQ 采訪了百度 AI 中臺總監忻舟,百度 AI 中臺產品架構師靳偉以及百度智能雲主任架構師謝永康,試圖探究上述問題的答案。

1 為什麼談論了那麼多年,AI 工程化問題依舊無法解決? 雖然 AI 工程化問題談論了多年,但一直沒有很好解決。主要原因在於如下三點:首先,行業內部一直缺乏統一的規范,這就導致解決方案質量良莠不齊,而 AI 開發流程長且復雜,從數據采集、數據標註、模型訓練、到應用,再到最後的數據回流和模型觀察,任何一個環節沒有規范都會出現問題。

其次是人才問題,過去,業內人工智能相關的研發人才相對稀缺,且多集中在頭部互聯網大廠,傳統企業基本都還在做數字化和自動化轉型相關的事情,還沒走到智能化轉型的階段。最近幾年,相關高校的人工智能學院建設成果顯著,向社會輸送了大批優秀人才,互聯網公司的人才也開始外溢到傳統企業,這讓傳統企業具備了向智能化轉型的基礎條件。

最後是企業內部多年積累下來的歷史問題非常復雜,比如企業的一個人工智能平臺所需要的數據需要從數十個系統獲得,而這些系統的對接工作需要花費大量時間和精力,分屬同一領域的不同企業的基礎設施並不完全相同,簡單復制粘貼是無法達到效果的。

這其中最關鍵的就是行業標準的建立,一套完善的標準意味著在大部分領域通用的解決方案能力。過去一年,中國信息通信研究院為了更好地將互聯網大廠的 AI 能力賦能產業,正式發佈了《人工智能研發運營一體化 (Model/MLOps) 能力成熟度模型第一部分:開發管理》標準,百度智能雲 AI 中臺解決方案參與了 MLOps 開發管理服務能力評測,成為國內在開發管理能力上達到旗艦級的 MLOps 平臺《面向產品方的最高等級》。

圖註:MLOps 開發管理部分評測的指標體系涉及 28 個能力子項,考察點近 200 餘項,是一個非常全面與系統的測評

簡單來說,這套標準是首個匯集 AI 開發全流程的最佳實踐寶典,可以幫助企業實現 AI 工程化落地,大幅提升 AI 研發和運營的質量和效率。那麼,這樣一套『旗艦級』的 AI 中臺解決方案其具體架構是如何設計的?效果如何?能為產業帶來哪些實際價值?

2 業內缺的不是 AI 中臺,而是全周期端到端 MLOps《Machine Learning Operations》是一套面向機器學習項目和研發運營管理體系,指在人工智能軟件項目的研發和運營過程中統一和管理需求、開發、測試、集成、部署和運營等環節,實現模型持續訓練、持續集成、持續交付、持續監控的快速迭代和有效銜接。

這套方法論其實早在 2015 年就誕生了,號稱遵循此設計的『AI 中臺』解決方案也不在少數,那為什麼沒解決問題呢?

因為大部分 AI 中臺都隻解決了『某一段』的問題,而百度智能雲 AI 中臺是少有的端到端的覆蓋 AI 研發和運營全生命周期的解決方案。

2020 年,百度智能雲將原有服務按照 MLOps 的過程整合為四大板塊,分別是數據樣本中心,專門做數據處理;開發中心,提供專業的開發平臺;模型中心,將開發中心訓練好的模型統一管理,方便後期評估;服務運行平臺,將模型最終發佈為一個在線服務或者端服務,這四大平臺基本涵蓋了 MLOps 全生命周期。

除此之外,百度智能雲在『安全可控『上也提供了眾多周邊企業級管控服務,比如模型風險管理,可以記錄從模型立項、模型研發、數據收集,模型訓練到模型上線和下線全流程的所有數據及評估過程,問題出現後可以迅速定位到責任人。另外針對結果,百度提供了模型的可解釋性,涉及訓練可解釋和預測可解釋兩部分。在訓練過程,企業可以得到模型的具體訓練方式以及哪些參數在發揮重要作用等信息;在預測過程,企業可以倒推到底是哪些數據或者決策路徑內的鏈條導致最終的結果是 Yes,這對註重安全的企業而言至關重要。

圖註:百度 AI 中臺架構圖

靳偉表示上述四大板塊加管控服務就是百度智能雲的 AI 中臺解決方案。那麼,這樣一套全周期端到端的解決方案到底有哪些優勢呢?

從實施路徑來看,業內一般有兩種實現方式:一是針對 AI 領域人才相對缺乏,自身 AI 能力尚未建設完成的企業,百度智能雲可提供全套的解決方案。而不是如過去一樣建一個 OCR、搞一個智能客服這樣的單點創新,是通過端到端把企業內部的底層 AI 基礎設施建好,未來才可能在此基礎上實現更多創新。

二是具備一定研發實力的企業,聚焦在個性化 AI 研發能力的構建,大幅提升 AI 模型落地應用推廣效率。在此情景下,基礎的方案可能完全起不了作用,隻有具備端到端能力的解決方案才能助力研發人員快速搭建出一套適合企業發展的方案。

從最終效果來看,百度 AI 中臺從需求和代碼管理、AI 模型生產、底層計算資源管理、數據管理及質檢全流程均完善的管理工具,能夠為企業客戶提供較為快速和較高質量的響應。

具體到單點功能上,其提供的自動標註能力相比於人工標註,成本平均降低 70%。特定場景下,數值遠超於此。在資源利用率層面,模型訓練本身是非常耗費 GPU 資源的,這在大模型時代尤為明顯。整個過程涉及資源合理利用、資源調度、虛擬化以及提升 GPU 的利用率等,而 MLOps 對此有明確的規范,百度的 AI 中臺基於這樣的規范實現,可以給到用戶更好地調度策略和虛擬化機制,確保資源利用率達到 80%,甚至 90%,這將為企業節省大量成本。

面向未來,百度的 AI 中臺將與大數據平臺實現深度聯動。忻舟表示大數據和 AI 天生就應該在一起,MLOps 與 DataOps 的結合正在百度內部發生。未來,用戶可以通過平臺產品的方式直接獲得這種能力,比如 AI 中臺、大數據中臺,也可以通過 SDK 的方式來獲取相應能力,企業可以不用關心具體的實現方式,專註於與現有業務的具體結合。

當然,在產業智能化升級的過程中,僅靠 AI 中臺顯然是不夠的,企業需要的是一個強悍的 AI 基礎設施,可以解決智能化轉型過程的一切問題。

3 強悍的不僅是 AI 大底座本身,而是燒錢也建不起的技術壁壘 百度 AI 中臺與百舸異構計算平臺兩大部分共同構成了百度的 AI 大底座,形成了國內僅有的涵蓋『芯片 – 框架 – 模型 – 應用』的 AI 生產全要素智能基礎設施。

其中,百度 AI 中臺整合了目前中國深度學習平臺市場綜合份額第一的『飛槳』和產業級知識增強大模型『文心大模型』,打通了百度的樣本中心、模型中心、AI 開發平臺、AI 服務運行平臺,實現從數據存儲到模型訓練、生產、部署、測試的全鏈路、批量化生產;百舸異構計算平臺整合了百度自研的 AI 芯片『昆侖芯』,可以提供高性價比的算力,承載海量數據的處理、超大模型的訓練和推理。

百度是全球為數不多、進行全棧佈局的人工智能公司,且各個層面都有關鍵自研技術,可以真正實現端到端優化,大幅提升效率。

圖註:百度『AI 大底座』產品架構

以傳統能源行業的智能化升級為例,電力企業最擔心的兩大問題:一是如何實現不同區域的電力資源按需調度,最終實現各區域的供需匹配,這個過程就要求員工 7×24 小時監控所有節點發回的電力信息;二是可以不受天氣溫度、地理位置的幹擾對高壓線纜進行巡檢且保證員工安全,很多高壓線纜處於深山密林中,巡檢人員很難進去,並且巡檢人員需要爬上線纜做各種各樣的檢查,非常危險。這對 AI 技術的應用也帶來了實際挑戰:一是電網企業硬件設備眾多,數據、接口復雜,難以形成統一的感知和管理平臺;二是模型開發難度高,電力設備分佈在各種自然環境中,天氣溫度、地理位置等都會影響模型的最終效果,設備故障類型較多。

在國家電網的實際應用中,百度通過 AI 大底座的能力幫助國網實現了人工智能『兩庫一平臺』的建設,促進了人工智能技術在輸電、變電、配電、調度、電網企業營銷、安全監察等各業務領域的落實、落地。並幫助國網福建建設了 AI 中臺,在此基礎上,協同打造電力大模型,構建了 AI 電力關鍵業務數據的全鏈條智能處理能力,實現需求、樣本、模型、應用和迭代的全流程業務貫通,支撐國網福建電力更高效、規范地打造 AI 應用。目前,這一方法已幫助他們在識別準確率提升了 30%,識別效率提升了 5 倍。變電端效率提升了 40—60 倍,啟動送電時間縮短了 80%。未來,通過 AI 大底座的全棧優勢將持續為國網實現端到端優化模型效果,提供更高效能的服務。

但是,真正強悍的不僅僅是 AI 大底座本身,還有這背後的技術壁壘。

與雲計算領域早期就擁有眾多開源和標準化方案不同,構建 AI 能力所需要的數據、算法、算力以及工程化能力,每一環都具有極高的門檻,這也是 ChatGPT 帶給我們巨大沖擊之後,國內用戶第一時間把注意力投到百度身上的原因,隻有百度過去這麼多年堅定不移地在 AI 研發上投入重金,並最早在產業裡面實現了規模化落地。

當其他企業還受限於芯片研發技術和找不到場景打磨時,百度『昆侖芯』已上線數萬片,廣泛用在百度搜索和無人駕駛汽車、愛奇藝、小度等業務場景。

當其他企業還在糾結開源框架選型時,百度飛槳已經成長為一個自主可控的全棧平臺,凝聚了數百萬開發者,在產業裡摸爬滾打四年多服務了數十萬企事業單位。

當其他企業臨時抱佛腳研究大模型時,百度文心大模型已經形成『模型層 + 工具與平臺層 + 產品與社區層』的整體佈局,成為業界規模最大的產業大模型體系。

作為一家既懂芯片,又懂算法,還有數據的企業,百度智能雲可以根據用戶實際場景的需要提供端到端的解決方案,在提供更優的客戶體驗的同時大幅降低成本,不是每一家搞 AI 的公司都恰好能擁有強大的雲計算能力,也不是每一家搞雲計算的企業都能與如此強悍的 AI 大底座形成有效協同。

一旦這套體系建立完成,雲廠商將會在 AI 時代擁有極高壁壘。

4 碎片化生態的變革:從百度『AI 大底座』開始 過去多年,場景的碎片化帶來了 AI 產品的碎片化,但也恰恰說明業內並沒有一個通用、普適的人工智能產品出現,這裡的原因很復雜,包括數據、算法、算力、生態建設等諸多方面。

百度 AI 大底座的出現讓我們對打破這種『碎片化生態』重新燃起了希望。用戶隻需要提出訴求,平臺就可以自動輸出需要的結果,這就像一條流水線一樣易用、順暢。隻有這樣的解決方案才可能真正實現『AI 普惠』的未來願景。

『AI 普惠在百度智能雲有兩層含義,第一層含義是讓企業以更低的門檻獲得 AI 能力;第二個含義是以更高性價比的方式獲得 AI 能力,百度在做很多通用的 AI 平臺型產品和針對特定場景的解決方案,以期通過最具性價比的方式解決企業問題,最終實現 AI 普惠。』 百度集團執行副總裁、百度智能雲事業群總裁沈抖也在此前談到:『需要雲計算廠商標準化地輸出智能化的底層能力,把芯片、大模型、深度學習框架等高門檻的技術,變成像水電能一樣供客戶按需取用。』