今天下午2點,百度的文心一言發佈會如約而至。
懷著對中國版ChatGPT首秀的期待,社長早早進入了百度官方的直播間。
早在頭一天晚上,百度就在官方賬號上發佈了相關海報,宣示文心一言的強勢發佈。
非常應景的是,這張海報正是使用『文心一言』AI作畫進行創意制作的。
這也正如發佈會上提到的多模態生成能力,文心一言不但能像ChatGPT3.0那樣進行文本生成,還可以應用在圖片、音頻、視頻等形態上,『用科技讓復雜的世界更簡單』。
而在發佈會上,百度創始人兼CEO李彥宏更是從文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成五大方面,用文心一言逐一進行了演示。
李彥宏還喊出與GPT-4硬剛的口號,我們來看看他的底氣來自哪裡?
01
為什麼文心一言能這麼快推出?
從2月初坊間傳出百度有意推出中國版ChatGPT的傳言,到2月7日正式官宣文心一言項目,英文名 ERNIE Bot,將定於三月份完成內測面向公眾開放,再到今天《3月16日》正式發佈會,整個過程不到一個半月,百度的推進效率之高令人驚訝。
可能有不少人會心存疑慮。
生成式AI可不是什麼依葫蘆畫瓢就能搞出來的空殼產品,人家OpenAI公司從2015年成立,到去年底ChatGPT爆紅,足足研發了七年時間,花費數十億美元。
百度這一個半月時間是不是太趕了點?
確實,商業模式可以很容易copy,算力和工程好買,但技術內核卻無法快速達成。
生成式AI的門檻很高,先進技術、大數據和高投入,缺一不可。
如果從0開始研發一個全新的產品,1個半月時間絕無可能,哪怕投入千億重金和頂尖人才團隊。
Meta首席AI科學家Yann LeCun曾經批評ChatGPT『隻是巧妙的組合而已』,這句話雖然有些偏激,但確實揭示出了ChatGPT的成功之道。
擁有OpenAI技術實力的公司很多,像ChatGPT的核心算法Transformer其實最初是由google提出來的,模型微調、交互強化學習、SFT、RLHF、prompt等也是業內現有的技術方法。
隻是在ChatGPT出現之前,各家大廠都沒能想到如此巧妙的技術組合方式,陷入到苦戰之中。
一旦有了ChatGPT的珠玉在前,其他大廠開發相關的生成式AI產品就頓時豁然開朗,提速非常明顯。
google的聊天機器人Bard就是在ChatGPT之後推出的,技術『組合』的時間也不過兩個月。
百度能在較短時間內推出自己的生成式AI產品,同樣並非憑空出世,更不是從0開始,而是多年厚積薄發下的水到渠成。
早在2019 年,百度推出了文心大模型ERNIE 1.0。
如果把這個時間點看成是文心一言的起點,那麼文心一言研發過程已經4年了。
自2019年3月以來,文心大模型在改進搜索結果方面發揮了重要作用,帶來排名改進和多模態搜索能力。
如今,這個模型已經迭代到ERNIE 3.0,目前每天接受數十億用戶的搜索請求和其他百度移動生態app的訓練,日益成熟完善,成為了文心一言的大模型基礎。
模型微調、交互強化學習、SFT、RLHF、prompt等技術方法,百度其實也早就熟悉掌握,隨時可以迅速在大模型中進行部署。
換言之,生成式AI產品的底層技術和模型,百度一直有在研發。
作為國內人工智能的先鋒和領軍企業,多年下來積累了在人工智能技術上的先發優勢,是它能快速推出文心一言的首要因素。
業內專家指出,ChatGPT的核心優勢其實不在於底層技術,而是高質量訓練數據集。
據悉,ChatGPT的數據來源主要包括:網路上的文本數據、社交媒體數據、問答網站數據、新聞站數據、文學作品數據等。
這些數據可以通過爬蟲程序自動收集,也可以由相關的機構提供。
同時,ChatGPT還可以利用比較成熟的語料庫,比如GloVe、Bert等。
但是,OpenAI從來沒有公開過訓練ChatGPT的相關數據集來源和具體細節,後來者隻能靠自己摸索。
高質量訓練數據集這個難倒眾多大廠的短板,恰恰是百度的長處,這是它的第二個獨特優勢。
因為它不缺可供訓練的優質中文數據資源。
。
搜索業務20多年來,百年積累了全球豐度最大和質量最優的海量中文數據資源。
加上文心大模型數年來的訓練成果,還有月活6億的搜索用戶群體,非常有望在較短時間內構建成自己的高質量訓練數據集,反哺文心一言大模型,實現功能上的飛輪效應。
百度更懂中文,其實就是本土化優勢。
中國用戶的問題,文心一言解決得更為得心應手。
在今天的發佈會上,文心一言就顯示出這方面的優勢:既讀得懂『洛陽紙貴』的古文梗,又解得了難倒ChatGPT的『雞兔同籠』問題。
此外,生成式AI的資金投入巨大,在百度這裡也不是問題。
過去10年,百度的研發投入超過了1400億元,並且幾乎每一年的同比增長都超過100%。
2022年全年達到214.16億元,占百度核心收入比例達22.4%,是國內最舍得研發投入的高科技企業之一。
近三年來,其研發投入平均每年超過200億元,足以保障文心一言項目的正常運轉。
百度智能雲近年來無論是規模還是性能都大為提升,可以為文心一言提供充沛的算力支持。
換言之,文心一言是百度基於諸多優勢下多年以來在人工智能上的集大成者,隻是ChatGPT的出現加快了它的面世。
02
中國版ChatGPT為什麼是百度?
OpenAI 的ChatGPT面世之後,不少國內科技互聯網企業表示自己也正在研發類似的產品。
當時不少網友揶揄,抨擊它們盲目跟風。
百度在今年2月7日官宣中國版ChatGPT——文心一言時,同樣遭到了一些網友的調侃,以為也是追風口。
不過,這些網友誤解了百度。
如果說大部分國內企業的本意是在追風口的話,那麼百度推出文心一言卻是認真的。
社長要說,文心一言是百度近年來最正確、最果斷的一次戰略決策。
因為從競爭分析的角度來看,生成式AI的本質是搜索產品的戰略升級,百度無法回避。
以前用戶需要手動去搜索想了解的信息,現在生成式AI不但幫你查,而且還幫你甄選、歸納和分析,將結果、方案直接給你。
不但速度遠遠高於人類,而且連整體準確性都比你高。
正如家有智能音箱的用戶幾乎不會再手動查詢天氣預報一樣,生成式AI同樣將不可避免地搶占相當部分的搜索市場份額。
作為國內搜索行業的老大,百度怎麼能夠無視其中的風險呢?
即便退一步說,OpenAI無意深度涉及搜索市場,那百度也難以置身度外。
因為雖然OpenAI是一家創業公司,但它的背後是微軟——全球第二大的搜索引擎公司。
這些年來,微軟在搜索市場拳打兩頭,國外與google競爭,國內和百度對抗。
可惜的是表現一直不是很好,國外不敵google,國內也落後於百度,ChatGPT的成功讓它重新燃起雄心。
2月8日,微軟宣佈將與 OpenAI 合作,在其新版 Bing 搜索和 Edge 瀏覽器集成聊天機器人ChatGPT,用 AI 帶來全新的搜索體驗。
正是在此之後,必應搜索的全球日活用戶首次突破了1億,加成效果非常明顯。
這種情形之下,百度作為搜索巨頭無法漠視ChatGPT帶來的挑戰。
如果自己沒有相應的產品,將在未來的市場競爭中失去優勢,甚至淘汰出局也有可能。
畢竟現在的用戶已經被科技狠活慣得越來越『懶』,操作便利性和先發優勢,足以改變用戶多年形成的使用習慣。
事關生死存亡,百度必須跟進這場高成本、強烈度的競爭。
它將此產品提高到長期戰略的高度,並給予了強大的資源支持。
2023年2月7日,百度正式官宣自己的中國版ChatGPT項目——文心一言,團隊陣容之強大,令人咋舌。
百度CTO王海峰任項目總指揮,百度集團副總裁吳甜《同時擔任深度學習技術及應用國家工程研究中心副主任》、百度技術委員會主席吳華等人擔任高管,足以看出百度對該項目的重視程度。
事實上,不隻是百度在ChatGPT大熱之後宣佈推出自己的生成式AI產品,同樣做的還有google——它的主要身份同樣也是搜索巨頭。
今年2月9日,也就是百度官宣文心一言後的第三天,google發佈了自己的聊天機器人Bard,盡管現場演示『翻車』,但卻明白地表現了自己的戰略意圖,要與微軟、OpenAI在搜索引擎市場打一場聊天機器人的持久大戰。
這恰好也證明了百度戰略的正確性和及時性。
雖然百度沒有提出『All in文心一言』的口號,但從其隨後的動作來看幾乎『All in』其中了。
官宣不久,百度陸續將小度、百度智能雲等旗下多個重磅產品與文心一言融合,旨在增強場景應用和訓練,加快其學習成長過程。
2月22日發佈2022年財報時,李彥宏稱計劃將多項主流業務與文心一言整合,並且不諱言此舉的目的是『將幫助百度增加用戶粘性』。
除了事關搜索核心業務之外,文心一言的研發也有積極的外在因素。
生成式AI的市場需求很旺盛,在很多行業都有廣泛的應用場景。
據悉,目前美國已經有上百家垂直小公司用ChatGPT的API打造垂直場景。
中國也是類似的情況,百度的很多產品,從搜索到智能雲,再到自動駕駛,市場和合作夥伴都有明確需要,期待盡早用上最新最先進的大語言模型,來提升服務能力和效率。
這也是為什麼短短一個月內宣佈加入文心一言生態的合作夥伴就超過650家的原因。
生成式AI非常燒錢,不但投入研發成本巨大,而且帶寬、算力的運營成本也居高不下。
但是它的市場前景也非常看好,幾乎所有數字化的行業都適用,生態規模至少萬億級別。
這麼大的超級蛋糕,哪家巨頭會不動心呢,百度自然也不例外。
文心一言的推出,百度既可守住現有的搜索基本盤,又能攻取未來人工智能的增量市場,可謂是一舉兩得。
這個戰略制高點,必須搶!
03
中國需要更多的百度
應該承認,文心一言作為一個剛剛發佈的新產品,拿它和歷經幾個月上億用戶訓練過的GPT-4相比,在功能上仍有著一定的差距。
李彥宏對於此非常了解,他並沒一味地自我誇耀,而是有著清醒的認識。
他甚至在發佈會上坦承,『從我自己在內測過程中體驗到的文心一言的能力來說,《當前》確實不能叫作‘完美’』。
社長覺得這個態度非常務實,承認差距才能不斷提高。
社長相信,隨著大模型的不斷優化迭代和互動訓練,文心一言的功能會越來越強大。
在國內,科技互聯網公司更喜歡將資金投入到商業應用上,因為風險小見效快。
真正的前沿科技研發,反而很少有企業舍得投入。
以至於前兩年有央媒看不下去,喊話互聯網巨頭『別隻惦記幾捆白菜』,期待互聯網巨頭科技有更多的創新。
百度正是國內少有的幾家堅持科研驅動的公司之一,近年來它在人工智能、智能雲、自動駕駛、移動生態等方面表現不俗。
今天,它又率先在國內推出了生成式AI產品,走在科技創新的前列。
在當前國際關系變幻的背景下,中國科技產業需要更大的獨立自主性,以保障經濟和信息安全,這樣的公司顯得更為難得。
社長認為,一個百度太少了,中國需要更多的百度。