新華社柏林4月20日電 新聞分析|理論知識不輸專家,AI為何仍不能替代醫(yī)生
新華社記者褚怡
頭痛是不是腦梗的前兆?咳嗽要不要拍個片子?體檢報告上的指標(biāo)異常意味著什么?在去醫(yī)院之前,越來越多人愿意先把健康問題拋給人工智能(AI)。輸入癥狀、上傳報告,幾秒鐘后,一份看似專業(yè)、條理清晰的分析便出現(xiàn)在屏幕上。對不少人來說,AI正在成為“24小時在線”的醫(yī)學(xué)咨詢窗口。但這真的意味著AI會看病嗎?
標(biāo)準(zhǔn)化測試的“高分選手”
德國馬爾堡大學(xué)等機(jī)構(gòu)參與的團(tuán)隊近日發(fā)布的一項研究顯示,在針對急性腎損傷的標(biāo)準(zhǔn)化知識測試中,多款A(yù)I大語言模型平均得分高于接受測試的醫(yī)學(xué)專業(yè)人員。
研究選取了13個公眾可使用的大語言模型,并將其與123名志愿者的表現(xiàn)進(jìn)行比較。志愿者是2025年德國內(nèi)科學(xué)會年會參會人員,其中包括內(nèi)科執(zhí)業(yè)醫(yī)生。
測試采用同一套急性腎損傷知識問卷,包含兩個模擬病例和15道選擇題。結(jié)果顯示,接受測試的大語言模型平均答對約90%的題目,多個模型達(dá)到滿分;志愿者答題正確率約48.7%,且人類答題時間明顯長于大語言模型。
研究人員認(rèn)為,這表明在標(biāo)準(zhǔn)化測試情境中,大語言模型已經(jīng)能夠較可靠地調(diào)取并應(yīng)用符合指南的相關(guān)醫(yī)學(xué)知識,具有為臨床工作快速提供事實性信息的潛力。
年初發(fā)表于“施普林格-自然出版集團(tuán)”旗下《Cureus》醫(yī)學(xué)科學(xué)雜志的一項研究也顯示,一些大語言模型在標(biāo)準(zhǔn)化醫(yī)師資格測試中的表現(xiàn)可比肩專業(yè)人員。研究人員選取美國全國醫(yī)學(xué)考試委員會題庫中的105道選擇題,對GPT-4 Turbo模型進(jìn)行測試,其正確率高達(dá)90.99%。
臨床過程的“推理短板”
標(biāo)準(zhǔn)化測試中的高分,并不意味著AI具備真實臨床診療所需的判斷力。美國麻省總醫(yī)院布里格姆醫(yī)療中心等機(jī)構(gòu)研究人員近日在《美國醫(yī)學(xué)會雜志·網(wǎng)絡(luò)開放》上發(fā)表研究說,大語言模型在臨床推理方面的能力仍然不足,在相關(guān)數(shù)據(jù)收集齊全情況下,這些模型通常能給出較準(zhǔn)確的最終診斷,但在病例早期、信息仍然匱乏時,它們往往不具備鑒別診斷的能力。
為還原真實臨床過程,研究人員采取分步輸入方式,評估了21個大語言模型對29個標(biāo)準(zhǔn)化臨床案例的診斷情況。研究人員先輸入患者年齡、性別和癥狀等基礎(chǔ)信息,再補充體格檢查和實驗室結(jié)果。模型每個階段表現(xiàn)由醫(yī)學(xué)專業(yè)學(xué)生進(jìn)行評估,并據(jù)此計算得分。
結(jié)果顯示,所有受測試模型在超過80%的情景下都未能在病情尚未明確、信息仍不完整時給出恰當(dāng)?shù)蔫b別診斷,即未能準(zhǔn)確判斷最可能的病因或排除嚴(yán)重疾病,并據(jù)此為下一步檢查和排查提供可靠方向。
“鑒別診斷是臨床推理的核心,也是目前AI尚無法復(fù)制的‘醫(yī)學(xué)藝術(shù)’的基礎(chǔ)?!毖芯空撐耐ㄓ嵶髡唏R克·蘇奇說,現(xiàn)階段AI在臨床醫(yī)學(xué)中的潛力,在于其能夠輔助而非取代醫(yī)生的推理過程。
哈佛大學(xué)醫(yī)學(xué)院和斯坦福大學(xué)等機(jī)構(gòu)研究人員年初在《自然-醫(yī)學(xué)》雜志發(fā)表的一項研究也顯示,大語言模型在標(biāo)準(zhǔn)化醫(yī)學(xué)考試中表現(xiàn)優(yōu)異,但在基于醫(yī)患對話記錄進(jìn)行診斷時明顯吃力。
研究論文通訊作者、哈佛大學(xué)醫(yī)學(xué)院副教授普拉納夫·拉杰普爾卡爾說,醫(yī)療對話具有動態(tài)性,需要在恰當(dāng)時機(jī)提出恰當(dāng)問題,將零散信息整合起來,并根據(jù)癥狀推理,這種獨特挑戰(zhàn)遠(yuǎn)非答題可比?!爱?dāng)場景從標(biāo)準(zhǔn)化測試轉(zhuǎn)向自然對話時,即使是最先進(jìn)的AI模型,診斷準(zhǔn)確性也會顯著下降?!?/p>
醫(yī)生主導(dǎo)下的人機(jī)協(xié)作
既然AI還無法獨立診療,它應(yīng)當(dāng)以何種身份進(jìn)入醫(yī)療實踐?在18日開幕的2026年德國內(nèi)科學(xué)會年會上,德國杜伊斯堡-埃森大學(xué)人工智能醫(yī)學(xué)研究所所長延斯·克萊西克說,隨著AI的發(fā)展,醫(yī)生與計算機(jī)的協(xié)作正在加強(qiáng)。數(shù)字系統(tǒng)不再只是提供支持,而是通過病例記錄、協(xié)調(diào)流程等方式主動地介入醫(yī)療過程,“這將從根本上改變醫(yī)療服務(wù)”。他認(rèn)為,要讓AI真正發(fā)揮潛力,前提是高質(zhì)量、結(jié)構(gòu)化且可互操作的數(shù)據(jù),以及足夠可靠的技術(shù)基礎(chǔ)設(shè)施。
但醫(yī)生的主體責(zé)任并未因此削弱。克萊西克強(qiáng)調(diào),人的因素仍至關(guān)重要,仍需要由具備醫(yī)學(xué)專業(yè)能力、能夠理解并合理使用AI技術(shù)的醫(yī)生來推動和把關(guān)。
在醫(yī)生主導(dǎo)下由人機(jī)協(xié)作開展醫(yī)療服務(wù)的效果已得到研究支持。斯坦福大學(xué)等機(jī)構(gòu)研究人員近期在《自然合作期刊-數(shù)字醫(yī)學(xué)》雜志上發(fā)表的一項隨機(jī)對照試驗顯示,在經(jīng)過設(shè)計的人機(jī)協(xié)作流程中,醫(yī)生診斷準(zhǔn)確性可由傳統(tǒng)資源條件下的75%提高至80%以上。
專家強(qiáng)調(diào),推動AI技術(shù)融入臨床診療的同時須警惕伴隨風(fēng)險。美國密蘇里大學(xué)醫(yī)學(xué)院副教授法里斯·阿拉赫達(dá)卜認(rèn)為,經(jīng)驗豐富的臨床醫(yī)生通常能夠識別AI提供的錯誤建議,而醫(yī)學(xué)學(xué)生和年輕醫(yī)生往往缺乏相應(yīng)的判斷力,難以識別那些細(xì)微卻可能致命的錯誤。
阿拉赫達(dá)卜指出,更隱蔽的風(fēng)險在于,過度使用AI可能削弱醫(yī)生的批判性思維。醫(yī)生可能會在不知不覺中把推理過程“外包”給AI。模型給出的答案越流暢、越完整、越像是正確的,使用者就越可能放棄獨立檢索信息、批判性思考及知識整合。久而久之,那些本應(yīng)持續(xù)訓(xùn)練的能力將逐漸退化。
北疆新聞 | 內(nèi)蒙古自治區(qū)重點新媒體平臺,內(nèi)蒙古出版集團(tuán)?內(nèi)蒙古新華報業(yè)中心主管主辦的國家互聯(lián)網(wǎng)新聞信息采編發(fā)布服務(wù)一類資質(zhì)平臺。
北疆新聞版權(quán)與免責(zé)聲明:
一、凡本站中注明“來源:北疆新聞”的所有文字、圖片和音視頻,版權(quán)均屬北疆新聞所有,轉(zhuǎn)載時必須注明“來源:北疆新聞”,并附上原文鏈接。
二、凡來源非北疆新聞的新聞(作品)只代表本網(wǎng)傳播該消息,并不代表贊同其觀點。
如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請在見網(wǎng)后30日內(nèi)進(jìn)行,聯(lián)系郵箱:bjwmaster@163.com。
版權(quán)聲明:北疆新聞版權(quán)所有,未經(jīng)書面授權(quán),不得轉(zhuǎn)載或建立鏡像,違者依法必究。 本站違法和不良信息舉報電話:15648148811蒙ICP備16001043號-1
Copyright © 2016- 北疆新聞 All Rights Reserved互聯(lián)網(wǎng)新聞信息服務(wù)許可證:15120200009-1廣播電視節(jié)目制作經(jīng)營許可證:(蒙)字第631號蒙公網(wǎng)安備:15010502001245