ChatGPT 一統所有 AI 模型入口,四步實現文本分類、圖像生成等 24 種復雜任務!。

ChatGPT、GPT-3、GPT-4、text-davinci-003……近兩年來,大模型層層出不窮,使人眼花繚亂,在不同的場景下,很多研究人員往往不知該作何選擇?

為了解決這一難題,微軟亞洲研究院和浙江大學的研究團隊展開合作,發佈了一個大模型協作系統——HuggingGPT,讓 ChatGPT 與人工智能社區 HuggingFace 連接起來,將語言作為通用接口,讓 LLM 作為控制器,管理行業內現有的所有人工智能模型。

「解決不同領域和模式的復雜人工智能任務是邁向 AGI 的關鍵一步」,研究團隊在最新發佈的 HuggingGPT 論文《https://arxiv.org/pdf/2303.17580.pdf》伊始說道。

HuggingGPT 的初衷

在研究團隊看來,目前的 LLM 技術可以在語言理解、生成、互動和推理方面具有不錯的能力,但是在建立先進的 AI 系統道路上仍然有一些緊迫的挑戰:

限於文本生成的輸入和輸出形式,盡管 LLM 在 NLP 任務中表現顯著,但是仍缺乏處理視覺和語音等復雜信息的能力;

在現實世界的場景中,一些復雜的任務通常由多個子任務組成,因此需要多個模型的調度和合作,這也超出了語言模型的能力范圍;

對於一些具有挑戰性的任務,LLM 在一些情況下表現出優秀的結果,但它們仍然比一些專家《例如,微調模型》弱。

如何解決這些問題可能是 LLM 走向更先進的人工智能系統的第一步,也是關鍵的一步。

HuggingGPT 的出現旨在能夠讓 LLM 與外部的模型協調,合力解決上述挑戰。

HuggingGPT 的原理

具體來看,我們使用 ChatGPT 在收到用戶請求時進行任務規劃,根據機器學習社區 Hugging Face 中的功能描述選擇模型,用選定的人工智能模型執行每個子任務,並根據執行結果總結響應。

通過利用 ChatGPT 強大的語言能力和 Hugging Face 中豐富的人工智能模型,HuggingGPT 能夠覆蓋不同模式和領域的眾多復雜的人工智能任務,並在語言、視覺、語音和其他挑戰性任務中取得令人印象深刻的結果,為實現高級人工智能鋪設了一條新的道路。

根據論文解釋,HuggingGPT 的整個過程可以分為四個階段:

任務規劃:使用 ChatGPT 分析用戶的請求,了解他們的意圖,並將其拆解成可解決任務。

模型選擇:為解決計劃任務,ChatGPT 根據描述選擇托管在 Hugging Face 上的模型。

任務執行:調用並執行每個選定的模型,並將結果返回給 ChatGPT。

響應生成:最後使用 ChatGPT 整合所有模型的預測,進行總結和輸出。

在這樣的設計下,HuggingGPT 能夠使用外部模型,也可以整合多模態感知能力,處理多個復雜的人工智能任務。

論文透露,HuggingGPT 目前通過利用 LLM《如 ChatGPT》來連接機器學習社區《如 Hugging Face》中各種人工智能模型,覆蓋文本分類、目標檢測、語義分割、圖像生成、問答、文本到語音、文本到視頻等 24 個任務。

樣樣都行的 HuggingGPT

在論文中,研究團隊以實例進行了解釋。如下圖:分析 example1.jpg 中姿態和example2.jpg 的描述,重新生成一張圖片。

通過 HuggingGPT 流程的第一步任務規劃,即讓 ChatGPT 分析用戶的請求,ChatGPT 得出生成新圖片過程涉及三步,進而自動進行模型選擇:使用一個「openpose-control」模型來提取籃球圖像中的姿勢信息;進而使用「nlpconnect/vit-gpt2-image-captioning」生成圖像中關於男孩的描述;第三步,執行任務之後,使用 Illyasviel/sd-controlnet-openpose 模型結合姿態信息和描述生成最終的圖像。

HuggingGPT 也可以對音頻和視頻模式的多模型合作進行定性分析:

除此之外,HuggingGPT 可以整合多個用戶輸入資源來進行簡單的推理,得到正確的答案。

寫在最後

HuggingGPT 論文的發佈引發了不少 AI 專家的關注,如果其正式落地,那麼隻需要通過 ChatGPT 一個入口就可以訪問到各種適用的模型。

對此,英偉達 AI 科學家、斯坦福博士 Jim Fan 評價道:

HuggingGPT 是我本周閱讀的最有趣的論文。它非常接近我描述的『Everything App』願景。ChatGPT 充當 『AI 模型空間』的控制器,根據人類規范選擇正確的模型《應用程序》,並正確組裝它們以解決任務。它是一種『低帶寬』方式的多模態——所有模態都需要通過文本字符串進行壓縮和連接。HuggingGPT 也與 Prismer 的想法有關:盡可能利用預訓練的領域專家模型。有時少訓練就是多做事!

為了更好地落地這個願景,研究團隊在 GitHub 上開源了它的基礎代碼《https://github.com/microsoft/JARVIS》,且命名為『Jarvis』《賈維斯》,供大家參考學習。

值得注意的是,很多網友直言,它的系統要求可能會直接勸退了不少人:

但是 HuggingGPT 也可以作為通往 AGI 的準入口。

相關鏈接:

https://github.com/microsoft/JARVIS

https://arxiv.org/pdf/2303.17580.pdf

本文轉載自:知乎, 作者:Open AI