OpenAI發布多模態大模型GPT-4 模擬律師考試獲高分

【新唐人北京時間2023年03月16日訊】聊天機器人ChatGPT在全球範圍內引發的AI熱潮尚未消退,OpenAI公司又拋出了一顆新的震撼彈,發布了多模態預訓練大模型GPT-4。與原先的ChatGPT相比,GPT-4在識圖能力、回答準確性等多個方面取得了飛躍式提升。

3月15日,美國人工智能研究公司OpenAI發布了ChatGPT的升級版GPT-4,同時開放了 GPT-4的應用編程接口(API)。OpenAI的工程師在介紹GPT-4的視頻中說:「GPT-4是世界第一款高體驗、強能力的先進AI系統,我們希望很快把它推向所有人。」

根據OpenAI公司的介紹,GPT-4是一個大型多模態模型,能接受圖像和文本輸入,並輸出正確的文本回答。這款應用程式在各種專業測試和學術基準上的表現與人類水平相當。OpenAI花了6個月的時間,使用對抗性測試程序和ChatGPT的經驗教訓對GPT-4進行疊代調整 ,從而在真實性、可控性等方面取得了有史以來最好的結果。

據稱,GPT-4通過了模擬律師考試,而且分數在應試者的前10%左右;相比之下,GPT-3.5的律師模擬考試得分在倒數的10%左右。與當初GPT-3.5的訓練相比,GPT-4的訓練運行獲得了前所未有的穩定性,以至於OpenAI能夠提前準確預測GPT-4的訓練性能。

OpenAI表示,當任務的複雜性達到足夠的閾值時就會發現,GPT-4比GPT-3.5「更可靠、更有創意」,並且能夠處理更細微的指令。為了進一步了解這兩個模型之間的差異,OpenAI在各種基準和一些為人類設計的模擬考試上進行了實驗。

例如:為了測試 GPT-4在其它語言上的能力,研究團隊使用Azure Translate將 MMLU基準 —— 一套涵蓋57個主題的1.4萬個多項選擇題 —— 翻譯成多種語言。在測試的26種語言的24種中,GPT-4的語言能力優於GPT-3.5和其它大語言模型(Chinchilla、PaLM)。

測試還表明,GPT-4能夠正確完整地解答出高難度物理題;有能力理解並發現一張照片裡「有什麼不對勁的地方」;還可以量子速讀看論文,然後整理出摘要;甚至能夠理解梗圖和漫畫背後隱藏的是什麼意思,它甚至具備了某種程度的幽默感。

與始終表現出平靜、理智的ChatGPT不同,現在開發人員可以通過在「系統」消息中描述這些方向來規定他們的AI 的風格和任務。系統消息允許API用戶在一定範圍內定製化實現不同的用戶體驗。

此外,GPT-4在TruthfulQA等外部基準測試方面也取得了進展,OpenAI測試了模型將事實與錯誤陳述的對抗性選擇區分開的能力。

相對於以前的模型,GPT-4顯著減輕了幻覺問題,在OpenAI的內部對抗性真實性評估中,GPT-4的得分比最新的GPT-3.5模型高40%。不過,GPT-4仍然存在可能生成錯誤答案及出現推理錯誤的情況。

OpenAI表示,研究團隊一直在對GPT-4進行疊代,使其從訓練開始就更加安全和一致,所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。

OpenAI承認,GPT-4有著與以前的模型類似的一些風險,例如:產生有害的建議、錯誤的代碼或不準確的信息。但經過採取一些預防性措施,GPT-4在許多方面的安全性能得到了改善。與GPT-3.5相比,模型對不允許內容的請求的響應傾向降低了82%,而 GPT-4對敏感請求(如醫療建議和自我傷害)的響應符合政策的頻率提高了29%。

按照demo視頻裡OpenAI工程師們的說法,針對GPT-4的訓練在去年8月已完成,剩下的時間都在進行「微調提升」以及去除危險內容生成的工作。

GPT-4發布後,OpenAI公司直接升級了ChatGPT,讓ChatGPT Plus的訂閱者可以在其官方網站上獲得具有使用上限的GPT-4訪問權限。

(責任編輯:李明)

相關文章
評論