人工智能看病? ChatGPT測試未達要求

【新唐人北京時間2023年07月02日訊】人工智慧最著名的「聊天機器人」ChatGPT在許多行業掀起波瀾,包括醫療保健。但是最新研究發現,在醫療領域ChatGPT還沒有掌握足夠的診治技能,至少在眼科、胃腸病學或泌尿科方面沒有達到要求。

ChatGPT 通過醫療執照考試

在2023年初的一項研究中,ChatGPT勉強通過了美國醫療執照考試(USMLE),這是一項強制性的行醫許可。USMLE包括三項考試,第一項考試針對二年級學生,學生通常會花300到400小時準備考試;第二項考試是針對醫學院四年級學生;第三次考試通常是針對完成半年到一年研究生學習的執業醫師。這三項考試都通過,即可獲得美國的醫療執照。

研究發現,「ChatGPT在所有檢查中的準確率均超過50%,在某些分析中超過60%。」

但是,它未能通過其它三項醫學教育考試。

ChatGPT兩次未能通過眼科測試

加拿大多倫多聖邁克爾(St. Michael’s) 醫院的研究人員測試了ChatGPT在眼科領域的應試能力,在一項被廣泛使用的模擬考試中,第一次測試ChatGPT回答正確率只有46% 。一個月後,它的正確答案分數提高到了58%。

但是,在現實世界的眼科場景中,ChatGPT表現出色。在一項研究中, 研究人員對 ChatGPT的十個眼科案例進行了分析,其中九個病例診斷正確。研究人員推測,ChatGPT可能和人類一樣,在面對考試時會出現焦慮。

USMLE測試的研究人員認為,人工智能只會有所改善,但是並不能具有與人類相同的能力。

聊天機器人在胃腸病學領域失敗

在《美國胃腸病學雜誌》最近發表的一項研究中,ChatGPT-3和ChatGPT-4接受了美國胃腸病學學院的自我評估測試。兩個版本均未達到70% 的及格線。在給出的455個問題上,ChatGPT-3的得分為65.1%,而ChatGPT-4的得分略低,為62.4%。這表明新版本與其前身相比,並沒有表現出有所改進。

人們想知道,ChatGPT「聊天」怎麼樣?可以回答患者有關胃腸健康的問題嗎?

研究人員給ChatGPT110提出了「現實生活」中問題,由經驗豐富的胃腸病學家評估答案的準確性、清晰度和有效性,結果並不樂觀。研究人員得出結論說「雖然 ChatGPT具有作為信息來源的潛力,但還需要進一步開發」。

ChatGPT泌尿科考試不及格

在最近的一項實驗中,研究人員用美國泌尿協會自我評估研究項目的135個問題對ChatGPT 進行了測試。

ChatGPT準確回答了26.7%的開放式問題和28.2%的多項選擇題,但是沒有回答15道多項選擇題,建議諮詢醫生。

有趣的是,ChatGPT還為其錯誤答案進行辯護,據研究作者稱「儘管最初的解釋不準確,但仍不斷重申其解釋」。

因此,研究人員得出的結論說,如果醫學領域的ChatGPT不受監控或監管,可能會導致不準確的醫療信息的傳播。

研究人員認為,也許醫療考試並不是測試智能的最佳方式。對醫生而言仁慈或同情心,這些醫生應該具備的品質是無法測量的,人類的天賦當然也是無法測量的。

原文ChatGPT Fails to Make the Grade刊於《英文大紀元》

(記者李酈編譯報導/責任編輯:李謙)

相關文章
評論