OpenAI发布多模态大模型GPT-4 模拟律师考试获高分

【新唐人北京时间2023年03月16日讯】聊天机器人ChatGPT在全球范围内引发的AI热潮尚未消退,OpenAI公司又抛出了一颗新的震撼弹,发布了多模态预训练大模型GPT-4。与原先的ChatGPT相比,GPT-4在识图能力、回答准确性等多个方面取得了飞跃式提升。

3月15日,美国人工智能研究公司OpenAI发布了ChatGPT的升级版GPT-4,同时开放了 GPT-4的应用编程接口(API)。OpenAI的工程师在介绍GPT-4的视频中说:“GPT-4是世界第一款高体验、强能力的先进AI系统,我们希望很快把它推向所有人。”

根据OpenAI公司的介绍,GPT-4是一个大型多模态模型,能接受图像和文本输入,并输出正确的文本回答。这款应用程式在各种专业测试和学术基准上的表现与人类水平相当。OpenAI花了6个月的时间,使用对抗性测试程序和ChatGPT的经验教训对GPT-4进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。

据称,GPT-4通过了模拟律师考试,而且分数在应试者的前10%左右;相比之下,GPT-3.5的律师模拟考试得分在倒数的10%左右。与当初GPT-3.5的训练相比,GPT-4的训练运行获得了前所未有的稳定性,以至于OpenAI能够提前准确预测GPT-4的训练性能。

OpenAI表示,当任务的复杂性达到足够的阈值时就会发现,GPT-4比GPT-3.5“更可靠、更有创意”,并且能够处理更细微的指令。为了进一步了解这两个模型之间的差异,OpenAI在各种基准和一些为人类设计的模拟考试上进行了实验。

例如:为了测试 GPT-4在其它语言上的能力,研究团队使用Azure Translate将 MMLU基准 —— 一套涵盖57个主题的1.4万个多项选择题 —— 翻译成多种语言。在测试的26种语言的24种中,GPT-4的语言能力优于GPT-3.5和其它大语言模型(Chinchilla、PaLM)。

测试还表明,GPT-4能够正确完整地解答出高难度物理题;有能力理解并发现一张照片里“有什么不对劲的地方”;还可以量子速读看论文,然后整理出摘要;甚至能够理解梗图和漫画背后隐藏的是什么意思,它甚至具备了某种程度的幽默感。

与始终表现出平静、理智的ChatGPT不同,现在开发人员可以通过在“系统”消息中描述这些方向来规定他们的AI 的风格和任务。系统消息允许API用户在一定范围内定制化实现不同的用户体验。

此外,GPT-4在TruthfulQA等外部基准测试方面也取得了进展,OpenAI测试了模型将事实与错误陈述的对抗性选择区分开的能力。

相对于以前的模型,GPT-4显着减轻了幻觉问题,在OpenAI的内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5模型高40%。不过,GPT-4仍然存在可能生成错误答案及出现推理错误的情况。

OpenAI表示,研究团队一直在对GPT-4进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。

OpenAI承认,GPT-4有着与以前的模型类似的一些风险,例如:产生有害的建议、错误的代码或不准确的信息。但经过采取一些预防性措施,GPT-4在许多方面的安全性能得到了改善。与GPT-3.5相比,模型对不允许内容的请求的响应倾向降低了82%,而 GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了29%。

按照demo视频里OpenAI工程师们的说法,针对GPT-4的训练在去年8月已完成,剩下的时间都在进行“微调提升”以及去除危险内容生成的工作。

GPT-4发布后,OpenAI公司直接升级了ChatGPT,让ChatGPT Plus的订阅者可以在其官方网站上获得具有使用上限的GPT-4访问权限。

(责任编辑:李明)

相关文章
评论