你去急診室會相信人工智慧嗎?UC San Francisco研究人員週二通過一項新發表的研究回答了這個問題。
簡而言之,研究人員認為人工智慧目前還不應為患者進行手術或開藥。然而,人工智慧不僅被證明是未來醫院的一個有希望的補充,更有趣的是,在患者前往急診室的某些領域,它已超越當地臨床醫生。
據National Library of Medicine,全國急診科人滿為患。因此,研究人員想看看語言學習模型(LLM)是否至少可以幫助醫院完成將患者送入急診室的基本任務。
UCSF研究人員收集並使用了10000多份真實成人急診就診記錄,對世界上最受歡迎LLM之一CHATGPT-4進行測試。這項研究在急診室患者就診三個不同領域測試這款人工智慧軟體:
·急診室接診狀態
·放射性調查請求狀態
·抗生素處方狀態
這項研究是為數不多使用真實臨床數據而不是模擬場景評估LLM的研究之一,也是第一個為此目的使用1000多個臨床病例的研究。
在所有三項臨床推薦任務中,ChatGPT表現「較差」,準確度得分平均低於醫生水準。根據這項研究,人工智慧軟體「在建議方面過於謹慎,以犧牲特異性為代價,具有高度敏感性。」
「這對臨床醫生是一個寶貴資訊,不要盲目相信這些模型,」研究主要作者、博士後研究員Chris Williams說。「ChatGPT可以回答體檢問題並幫助起草臨床記錄,但目前它不是為需要多方面考慮的情況設計,比如急診室情況。」
ChatGPT在放射學和抗生素處方建議方面遠遠不如醫生,但在確定患者進入急診室時的初始入院狀態方面表現更好。
ChatGPT和臨床醫生被要求通過在「嚴重情況」和「手腕骨折等不太緊急的情況」之間選擇,優先考慮患者「嚴重程度」和優先順序。根據這項研究,在500對較小子樣本中,人工智慧正確率為89%,而醫生正確率則為86%。
臨床醫生表示,讓人工智慧協助優先考慮患者的需求和醫院資源的需求,可以騰出「治療病情最嚴重患者的關鍵時間,同時為處理多個緊急請求的臨床醫生提供備用決策工具」
根據這項研究,偏見是將人工智慧納入急診的面對主要問題之一。更具體地說,「由於訓練數據中的偏見」,可能存在種族和性別偏見。
以前被要求給出簡單的心血管疾病預防建議時,GPT 3.5-turbo 提供了「基本適當的反應」。在公共社交媒體論壇上被問及他們對推薦過程有何看法時,公眾表示,他們都更喜歡人工智慧互動,並認為它比醫生的反應具有更高的同理心。
「沒有完美解決方案,但知道像ChatGPT這樣的模型具有這些趨勢,我們有責任思考我們希望它們在臨床實踐中如何表現,」Williams說。「即將開展的工作將解決如何在臨床環境中最好地部署這項技術。」