人工智能看病? ChatGPT测试未达要求

【新唐人北京时间2023年07月02日讯】人工智慧最著名的“聊天机器人”ChatGPT在许多行业掀起波澜,包括医疗保健。但是最新研究发现,在医疗领域ChatGPT还没有掌握足够的诊治技能,至少在眼科、胃肠病学或泌尿科方面没有达到要求。

ChatGPT 通过医疗执照考试

在2023年初的一项研究中,ChatGPT勉强通过了美国医疗执照考试(USMLE),这是一项强制性的行医许可。USMLE包括三项考试,第一项考试针对二年级学生,学生通常会花300到400小时准备考试;第二项考试是针对医学院四年级学生;第三次考试通常是针对完成半年到一年研究生学习的执业医师。这三项考试都通过,即可获得美国的医疗执照。

研究发现,“ChatGPT在所有检查中的准确率均超过50%,在某些分析中超过60%。”

但是,它未能通过其它三项医学教育考试。

ChatGPT两次未能通过眼科测试

加拿大多伦多圣迈克尔(St. Michael’s) 医院的研究人员测试了ChatGPT在眼科领域的应试能力,在一项被广泛使用的模拟考试中,第一次测试ChatGPT回答正确率只有46% 。一个月后,它的正确答案分数提高到了58%。

但是,在现实世界的眼科场景中,ChatGPT表现出色。在一项研究中, 研究人员对 ChatGPT的十个眼科案例进行了分析,其中九个病例诊断正确。研究人员推测,ChatGPT可能和人类一样,在面对考试时会出现焦虑。

USMLE测试的研究人员认为,人工智能只会有所改善,但是并不能具有与人类相同的能力。

聊天机器人在胃肠病学领域失败

在《美国胃肠病学杂志》最近发表的一项研究中,ChatGPT-3和ChatGPT-4接受了美国胃肠病学学院的自我评估测试。两个版本均未达到70% 的及格线。在给出的455个问题上,ChatGPT-3的得分为65.1%,而ChatGPT-4的得分略低,为62.4%。这表明新版本与其前身相比,并没有表现出有所改进。

人们想知道,ChatGPT“聊天”怎么样?可以回答患者有关胃肠健康的问题吗?

研究人员给ChatGPT110提出了“现实生活”中问题,由经验丰富的胃肠病学家评估答案的准确性、清晰度和有效性,结果并不乐观。研究人员得出结论说“虽然 ChatGPT具有作为信息来源的潜力,但还需要进一步开发”。

ChatGPT泌尿科考试不及格

在最近的一项实验中,研究人员用美国泌尿协会自我评估研究项目的135个问题对ChatGPT 进行了测试。

ChatGPT准确回答了26.7%的开放式问题和28.2%的多项选择题,但是没有回答15道多项选择题,建议咨询医生。

有趣的是,ChatGPT还为其错误答案进行辩护,据研究作者称“尽管最初的解释不准确,但仍不断重申其解释”。

因此,研究人员得出的结论说,如果医学领域的ChatGPT不受监控或监管,可能会导致不准确的医疗信息的传播。

研究人员认为,也许医疗考试并不是测试智能的最佳方式。对医生而言仁慈或同情心,这些医生应该具备的品质是无法测量的,人类的天赋当然也是无法测量的。

原文ChatGPT Fails to Make the Grade刊于《英文大纪元》

(记者李郦编译报导/责任编辑:李谦)

相关文章
评论