圖片來源@視覺中國
文 | 獨角獸挖掘機,作者 | 獸姐,編輯 | 角叔
文 | 獨角獸挖掘機,作者 | 獸姐,編輯 | 角叔
2023年開年,人工智能領域華麗返場,以ChatGPT為代表的生成式AI接棒此前的AlpgaGo,帶著全新的故事重回世界舞臺中央。
繼微軟投資的OpenAI實驗室上線聊天機器人ChatGPT僅4個月後,國內科技企業也推出了其基於新一代大語言模型的生成式AI產品『文心一言』。
看著你方唱罷我方喝的情景,人們不禁發出這般感慨:世界終是變了,AI時代已全面襲來。
文心一言之於,甚至之於整個AI產業的價值,資本市場反應也比較積極:產品上線首日,美股漲幅接近4%,最高漲幅一度超過7%;次日,港股大漲12.87%,一舉收復前幾個交易日失地。
都說AI大模型的研發是實力公司之間的博弈,盡管眾人皆知這是一條厚雪長坡,但想要做出一番成績,背後無不依靠參與企業憑借驚人的耐力做出持續的投入,同時還要對中短期內無法實現商業化有著較強的心理素質。
生成式AI已處爆發前夜,站在一個技術和商業化交匯的路口。
而百度文心一言發佈會後不到24小時,排隊申請文心一言企業版API調用服務測試的企業用戶已達8萬家,從這一數據不難看出,市場關注度的背後,其實也是整條產業鏈的蓄勢待發。
01 生成式AI競技升維
大概在去年9月,知名投資機構紅杉資本曾發表了一篇名為《生成式AI:一個充滿創造力的新世界》的文章。
文中寫到,生成式AI讓機器開始大規模涉足知識類和創造性工作,這涉及數十億人的工作,未來預計能夠產生數萬美元的經濟價值。
站在大市場來看,各大互聯網企業在數據、算力、模型訓練上早已投入多年,這也決定了底層基建註定是其中實力企業的『蛋糕』。
隻不過時至今日,生成式AI領域的競爭已上升至應用層,想要打開新的商業局面,並達到真正的規模化,市場需要一個現象級的產品。
換言之,微軟的ChatGPT、google的Bard以及的文心一言幾乎在同一時間段內分別推出自家生成式對話產品,也可謂是恰逢其時。
盡管在這三家企業當中,推出文心一言的速度較其他兩家稍遜幾日,但市場仍對其抱有更大的期待——
在已站上賽場上的三家企業當中,是唯一一家中國互聯網大廠。
大語言模型底層所需要的深度學習、自然語言處理《NLP》等『根技術』無法短期速成,需要多年持續的投入和積累。
相較於國內外眾多AI創業公司,對於技術態度始終立足於『根深才能葉茂』。
文心一言已基本做到『人有我有,人有我優,以及人有我待優』,尤其是大模型比較通用等優勢能力方面,如文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成等等。
我們僅以文字創作、數理邏輯推算兩大核心能力為例來具體看一下。
根據李彥宏的現場演示,文心一言回答問題的準確性、流暢性已具備相當高的水準。
而從『以洛陽紙貴進行藏頭詩創作』『用四川話復述回復』等操作來看,在一些中國文化語境下,文心一言在問題作答,甚至是對問題進行理解延伸等方面,都較GPT-4等競品更優。
《獨角獸挖掘機》給文心一言提了兩個比較帶梗的問題。
『宮廷玉液酒多少錢一杯?』『宮廷玉液酒的下一句?』,文心一言的回答都完全get到了。
同樣的問題,GPT-4則一本正經將按照白酒發酵給出解答。
文心一言更懂中文是有據可依的。
作為國內最大搜索引擎,每天接受數十億用戶的搜索請求,以及其他移動生態APP的訓練,超全的知識圖譜讓在問答和內容生成領域享有得天獨厚的優勢。
某種角度上,文心一言也是搜索業務的歷史進階。
此外,文心一言的數理邏輯推算表現同樣令人驚喜。
李彥宏介紹道,『文心一言大模型的訓練數據包括:萬億級網頁數據、數十億搜索數據和圖片數據、百億級語音日均調用數據,以及5500億事實的知識圖譜』
數據規模越大,大模型越容易發生『智能湧現』,從而逐漸形成邏輯思維和推理能力,並在答題時將問題拆分成子逐步推理。
這也是李彥宏向文心一言首次提問經典『雞兔同籠』時,文心一言甚至可以判別題目本身正確與否。
02 轉守為攻,百度迎戰
當google、微軟以及越來越多『跑步』進場的新選手們,紛紛都想要在生成式AI領域大展拳腳之時,一向低調的已悄然扭轉了姿態,轉守為攻,以一種更加積極的方式迎接這場新的競技——
經過不到兩個月的內測,文心一言正式上線,目前申請服務測試的企業用戶就已突破8萬家。
首席技術官王海峰在發佈會上講道,IT技術棧發生根本性變化即『三層變四層』,包括底層的芯片、深度學習框架、大模型以及最上層的搜索及其他應用,『文心一言』則位於模型層。
也是全球為數不多的全棧佈局且每層都有落地產品的公司之一。
通過『文心一言』,一方面能夠讓上層應用更為智能化,從而在多個產業領域落地,推動商業化從而在多個產業領域落地推動商業化,另一方面能夠給予底層芯片、學習框架以用戶反饋,不斷優化性能。
但需要提到的一點是,李彥宏和王海峰均在發佈會上反復強調,大語言模型還遠未到發展完善的階段,有賴於通過真實的用戶反饋,未來會加速迭代速度。
為了保證用戶體驗,文心一言目前采取的是『邀請測試制』,後面會逐步開放給更多用戶。
就這一點看,相較於OpenAI的GPT-4,百度對創新技術的應用更加嚴謹。
不久前,OpenAI曾在其官網中公開承認:GPT-4仍存在與早期GPT模型相似的局限性,它並不是『完全可靠的』,最新版本的GPT仍會『幻覺』事實並出現推斷錯誤。
『在使用時應格外小心,特別是在容易出錯的語境下,具體的使用規則應根據具體需求來確定,例如人工審查、加強背景理解甚至完全避免高風險使用等規則』如果按照OpenAI這般陳述,換個說法則是人們使用GPT-4的時間成本、精力成本或並不低。
事實上,在推出『文心一言』之前,已推出了自己AIGC相關產品,如作畫平臺『文心一格』。
從用戶反饋來看,『文心一格』已做到了秒級出圖,同時對硬件設備的要求也不是很高。
如今,『文心一格』功能全新升級,內容生成已從圖像走向了視頻。
當然,無論是的文心一言也好,還是OpenAI的GPT-4,科技企業想要引領這條大模型差異之路絕非易事。
首先是高昂的現實成本。
語音大模型的訓練階段大致分為三個:人工『投喂』數據進行標註;類似於獎勵模型,對輸出的內容進行排序和比較;強化學習,利用上一階段的內容升級。
每一階段都是『燒錢』換來的,極高的資金門檻無形隔斷了絕大部分企業。
其次是待破的技術難關。
通用AI必須具備更強的認知智能,這是目前制約AI取得更大突破、更廣泛應用的瓶頸,而NLP正是認知智能的核心。
不少業內人士認為,深度學習是經驗主義的一個新高峰,而這個領域的『低枝果實』總有摘完的一天。
深度學習的下一個大的進展,應該是讓神經網路真正理解內容,而唯有啃下更難啃的NLP等一些基礎研究,才能讓AI真正產生質變。
03 為什麼說百度難復制?
作為國內搜索行業中的頭部企業,如今的已從過去較為單一的搜索業務不斷擴圍至內容信息、智能硬件、智能雲服務、自動駕駛等更廣泛的業務領域。
如果按照規劃『文心一言將被整合至多個業務板塊之中』,那這勢必將為帶來更多想象力。
文心一言發佈會後,不少行業人士將『率先』『創新』『突圍』等溢美之詞送給,但在這些評價的背後,市場更看重的是那些被稱之為『內驅力』等方面的東西,因為這才是一家企業跨越周期、實現進階的核心引擎。
有這樣幾組關鍵信息值得特別關注——
一來,早在十幾年前,就已在AI研究上不斷加碼,主張壓強式、馬拉松式研發,近十年研發投入累計超過千億元。
2019年,推出了文心大模型ERNIE 1.0,時至今日,最新一代的ERNIE 3.0單日響應數十億搜索請求,和其他移動生態APP的大量訓練。
二來,基於的技術能力,生態外客戶及夥伴對於文心一言生態擁有較強的市場認知。
據發佈會上的數據,短短一個月內,已有超過600家合作夥伴《其中不乏藍色光標、掌閱科技、軟通動力等知名上市公司》宣佈加入其中。
這為文心一言未來商業化奠定了堅實的基礎。
三來,文心一言的定位是人工智能基座型的賦能平臺,換言之,創新的意義並非隻是為自己打造出一顆推動新增長曲線的『衛星』,而是希望做千行萬業的『陪跑者』,通過技術輸出帶動『獨創新不如眾創新』,進而創造出更多的社會價值。
中信證券預計,『文心一言』在短期仍將聚焦迭代升級。
中期維度,根據此前公司副總裁沈抖披露,公司預計在5月在雲平臺開啟相關API的調用,後續商業化的前景值得期待。
隨著AI創新不斷深入,全球科技產業正迎來一場前所未有的巨變,在這波技術浪潮中,語言大模型成為了新的引擎。
文心一言等大型預訓練模型的問世,讓人們見證了AI在NLP、CV等多領域所取得的重大突破。
更深一層涵義上,這場變革已不僅僅局限在技術層面,或多或少正在重塑人類與機器之間的關系。
AIGC大航海時代已全面來臨。