OpenAI發布多模態大模型GPT-4 模擬律師考試獲高分

北京時間：2023-03-16 05:05

資料圖。美國人工智能研究公司OpenAI及其開發的聊天軟件ChatGPT 的徽標。(LIONEL BONAVENTURE/AFP via Getty Images)

北京時間：2023-03-16 05:05

【新唐人北京時間2023年03月16日訊】聊天機器人ChatGPT在全球範圍內引發的AI熱潮尚未消退，OpenAI公司又拋出了一顆新的震撼彈，發布了多模態預訓練大模型GPT-4。與原先的ChatGPT相比，GPT-4在識圖能力、回答準確性等多個方面取得了飛躍式提升。

3月15日，美國人工智能研究公司OpenAI發布了ChatGPT的升級版GPT-4，同時開放了 GPT-4的應用編程接口（API）。OpenAI的工程師在介紹GPT-4的視頻中說：「GPT-4是世界第一款高體驗、強能力的先進AI系統，我們希望很快把它推向所有人。」

根據OpenAI公司的介紹，GPT-4是一個大型多模態模型，能接受圖像和文本輸入，並輸出正確的文本回答。這款應用程式在各種專業測試和學術基準上的表現與人類水平相當。OpenAI花了6個月的時間，使用對抗性測試程序和ChatGPT的經驗教訓對GPT-4進行疊代調整，從而在真實性、可控性等方面取得了有史以來最好的結果。

據稱，GPT-4通過了模擬律師考試，而且分數在應試者的前10%左右；相比之下，GPT-3.5的律師模擬考試得分在倒數的10%左右。與當初GPT-3.5的訓練相比，GPT-4的訓練運行獲得了前所未有的穩定性，以至於OpenAI能夠提前準確預測GPT-4的訓練性能。

OpenAI表示，當任務的複雜性達到足夠的閾值時就會發現，GPT-4比GPT-3.5「更可靠、更有創意」，並且能夠處理更細微的指令。為了進一步了解這兩個模型之間的差異，OpenAI在各種基準和一些為人類設計的模擬考試上進行了實驗。

例如：為了測試 GPT-4在其它語言上的能力，研究團隊使用Azure Translate將 MMLU基準 —— 一套涵蓋57個主題的1.4萬個多項選擇題 —— 翻譯成多種語言。在測試的26種語言的24種中，GPT-4的語言能力優於GPT-3.5和其它大語言模型（Chinchilla、PaLM）。

測試還表明，GPT-4能夠正確完整地解答出高難度物理題；有能力理解並發現一張照片裡「有什麼不對勁的地方」；還可以量子速讀看論文，然後整理出摘要；甚至能夠理解梗圖和漫畫背後隱藏的是什麼意思，它甚至具備了某種程度的幽默感。

與始終表現出平靜、理智的ChatGPT不同，現在開發人員可以通過在「系統」消息中描述這些方向來規定他們的AI 的風格和任務。系統消息允許API用戶在一定範圍內定製化實現不同的用戶體驗。

此外，GPT-4在TruthfulQA等外部基準測試方面也取得了進展，OpenAI測試了模型將事實與錯誤陳述的對抗性選擇區分開的能力。

相對於以前的模型，GPT-4顯著減輕了幻覺問題，在OpenAI的內部對抗性真實性評估中，GPT-4的得分比最新的GPT-3.5模型高40%。不過，GPT-4仍然存在可能生成錯誤答案及出現推理錯誤的情況。

OpenAI表示，研究團隊一直在對GPT-4進行疊代，使其從訓練開始就更加安全和一致，所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。

OpenAI承認，GPT-4有著與以前的模型類似的一些風險，例如：產生有害的建議、錯誤的代碼或不準確的信息。但經過採取一些預防性措施，GPT-4在許多方面的安全性能得到了改善。與GPT-3.5相比，模型對不允許內容的請求的響應傾向降低了82%，而 GPT-4對敏感請求（如醫療建議和自我傷害）的響應符合政策的頻率提高了29%。

按照demo視頻裡OpenAI工程師們的說法，針對GPT-4的訓練在去年8月已完成，剩下的時間都在進行「微調提升」以及去除危險內容生成的工作。

GPT-4發布後，OpenAI公司直接升級了ChatGPT，讓ChatGPT Plus的訂閱者可以在其官方網站上獲得具有使用上限的GPT-4訪問權限。

（責任編輯：李明）

本文網址: https://www.ntdtv.com/b5/2023/03/15/a103669687.html

NASA任務啟動拯救即將墜落的太空天文台

2026-07-04