字節技術大牛跑步進入AIGC創業,聚焦視覺領域,搭建算法平臺,還是多模態的那種。

衡宇 發自 凹非寺量子位 | 公眾號 QbitAI

3月最後一天,王長虎在龍湖集團的last day。

這位字節跳動前視覺技術負責人、AI Lab總監辭職掛印,火速啟程下一站:AIGC創業,成立新公司愛詩科技。

他拉團隊自起爐灶,要打造一個聚焦AIGC的視覺多模態算法平臺 ,覆蓋視覺相關的各種垂直應用場景。

當此大熱的AIGC風口,王長虎已經是近期第N位勇闖創業潮的AI牛人。

聊起這事,王長虎說話間不自覺就提高了聲音,語速也更快。他提到,創業是受時代和內心的雙重感召,而且在風口和經歷背書的雙重加持下,目前看來,早期的融資推進頗為順暢。

關於創業要幹的事,他信心飽滿:

技術難點?一定有,但也是好事,它就是我們不斷形成競爭壁壘的機會,就是這時候需要我們去做的。而且我們真的是打過硬仗的,之前在字節,那麼難的事情都被我們扛過去了。所以在新的應用場景裡邊看到難點,蠻興奮,看到了,就去解決它。

《『那麼難的事情』,指對字節系短視頻產品從0-1進行建設》

支持AIGC全生命周期的視覺多模態算法平臺

在ChatGPT引爆的AIGC創業風潮後,王長虎的切入點不是底層大模型或To C應用層。

而是基於過去近20年的學術研究和技術應用能力,殺入中間層,打造視覺多模態算法平臺,將焦點聚集在AIGC相關視覺領域的各個垂直應用場景。

並且在初始階段,To B先落地踐行。

所包含的多模態具體樣式,根據視覺垂類領域應用的需求,初步設定為文字、圖片、語音、視頻,以及用戶的個性化特征等,也是AIGC領域不斷湧現新能力和產品的載體。

根據王長虎的解釋,利用AI,可以完成從UGC到AIGC的內容新升級。

『很多人關注AIGC,更多關注在內容生成方面。』從王長虎視角看過去,內容生成隻是AIGC全生命周期的一個階段,『其餘階段也有很多問題等待去解決。』

『很多問題』是哪些問題?

他結合此前經歷,舉例了兩個UGC時代代表性場景來佐證他所說的內容生成之外,AIGC時代生產鏈的其他環節很大可能會遇到相同難題。

一個是在日活6億,正負樣本極不均衡的抖音或TikTok平臺上,根據不同文化背景、具體要求等,必須要篩選出不合規的視頻進行攔截,且需精準快速。

AIGC時代,這樣確保安全的審核同樣重要,且審核需求量更大。視覺多模態算法平臺提供的算法,就包含了能夠幫助使用方提高篩選和攔截效率的那種,並且很有可能如當初的字節一般,在王長虎提供的技術支持下代替成本高昂的人工審核,同時提升效率。

另一個場景是抄襲頻發。AIGC時代,創作門檻降低,作品數量爆發,抄襲現象和版權糾紛大概率顯著上升。

UGC時代已經驗證過,長此以往,不僅打擊原創者的創作意願,對平臺生態不利;而內容雷同或完全相同的視頻持續推薦,用戶體驗也會大打折扣。

針對這個場景,王長虎要做的平臺,就能為用戶側提供減少類似或雷同視頻分發的AI算法。

他還表示,這個聚焦AIGC的算法平臺搭建過程中,很大可能會利用AIGC技術提升效率。

上述所有都是王長虎的現階段思考,他才正式離職,剛剛開始籌備新公司事宜,新公司名為愛詩科技。

糧草先行,目前組建了10餘人的初始團隊,也在招募核心技術和產品人才,為真正踩下出發的油門蓄力。

梳理他言語間透露出的規劃,能嗅到關於創業項目的信息點:

搭建這樣一個視覺多模態算法平臺,能夠支持AIGC新內容,幫用戶解決內容生成、安全、版權、分發、商業化等幾乎全生命周期的各項問題。

新的AI浪潮到來,王長虎身處其間,感知到變化,並打算在新事業從善如流地用上舊經驗,包括但不限於GPU集群能力、服務調度能力、自動化模型訓練能力,推斷能力等。

經驗不會憑空出現,既有功力的來源,主要可以定位回他在字節跳動任職期間。

2017年,王長虎加入字節跳動。那時候人們對字節的感知,通過今日頭條遠大於通過抖音。王長虎加入之初,就是在字節內部創業般,從0到1深度參與建設短視頻類產品。

此次To B和To C層面可能遭遇的各種問題,如降本增效、版權厘清、用戶體驗等,王長虎都在那時以技術或實現或改善或解決。

再一次『從0到1建設技術平臺和產品』,王長虎表示,上述經驗都可以一以貫之應用在此次AIGC創業。

與AIGC緣起20年前的本科研究

新公司還在襁褓,王長虎不願過多詳談,他更願意談論的是此前的技術經驗,當然也包括『技術底色上滋養出的AI情結』。

這要從王長虎還是中國科學技術大學6系《電子工程與信息科學系》大四學生時聊起。

那是2004年,他做了人生首個研究,即根據一張或多張人臉圖片,生成該人臉的3D模型。此研究後來發表到國際會議上。

他不無興奮地說:

回看20年前,我此生做的第一個研究,就和AIGC有關。

同年,王長虎進入MSRA實習,中科大博士畢業後轉為正式員工,直到2017年離開。

13年間的工作內容也與AIGC有千絲萬縷的聯系,他所在團隊研究的『神筆馬良』草圖搜索技術,可以基於海量圖像數據建立搜索引擎。

當然,那時候生成式技術沒有成熟,業界對大規模數據的訓練和處理經驗也遠不如今日豐富,所以整個過程是在海量數據庫中尋找和草圖最匹配的那一張。

回憶此處,王長虎的語氣中多少帶了些感慨,因為現在的范式也是基於海量數據去訓練一個模型,然後根據用戶輸入的文字或圖像信息,生成一張最匹配prompt的圖片。

△草圖搜索技術示例

都說十年磨一劍,但在微軟實習和工作13年後,王長虎毅然奔赴字節跳動,選擇的還是當時並非招牌的視頻類產品。

為什麼去字節?畢竟王長虎自己也承認,在微軟可以做世界上最頂尖前沿的科學研究。

但在微軟,科研項目應用到公司產品需要的周期特別長。

他舉例分享,自己二零零幾年做的工作,若幹年後才真正應用在必應搜索引擎,新技術很難在第一時間影響用戶。

但這一點在字節可以實現,再加上加入字節時,恰巧是短視頻類產品篳路藍縷打根基的時候——這也是字節AI Lab與其他大廠AI Lab的區別所在,即並非在產品成熟後才建立AI部門,也因此,王長虎有機會在產品0到1發展歷程中扮演核心角色。

公開資料顯示,字節跳動人工智能實驗室《AI Lab》的成立使命,就是推動機器智能的極限,致力於將AI理論研究快速應用於產品部署。

現在翻看王長虎公開簡歷,字節任職期間,留下的足跡如下:

  • 完整參與了抖音和TikTok等短視頻類產品從0到1的建設和發展;
  • 建設了視覺技術和業務中臺,帶領團隊將相關技術廣泛應用到字節跳動全線產品中;
  • 為集團各產品提供AI技術支撐和業務解決方案,覆蓋了視覺相關產品內容生產與消費的全流程。

期間,他搭建的數百人團隊,不僅有技術人員,還包含了產品同學。如果把微軟看成王長虎的技術練兵地,王長虎就把字節和龍湖的經歷,看成是對他技術和產品兩方面認知的鍛煉。

△王長虎

和從字節去龍湖的原因一樣,選擇加入AI 2.0創業大潮,他的理由是『跳出舒適區』。

當然,這一次的催動因素更復雜,譬如ChatGPT和Stable Diffusion的驚艷表現,以及自己從DL熱潮走來,對又一次『翻天覆地變化』的不容錯過。

他說,這個機會更大,不像元宇宙、區塊鏈是被一部分人看到,AIGC是多數普通人能看到和感受到的。言語間,王長虎又傳遞出自己對『新技術快速影響用戶』的看重。

如今離職創業,他又有機會身體力行地這樣做了。

參考鏈接:[1]《草圖搜索的魅力與挑戰》https://blog.sina.com.cn/s/blog_4caedc7a0102en29.html

—完—

@量子位 · 追蹤AI技術和產品新動態

深有感觸的朋友,歡迎贊同、關注、分享三連վ'ᴗ' ի ❤