我們需要研發(fā)對人類有益 AGI 的原因之一:
“我妻子的身體 5 年來經(jīng)歷了種種痛苦,最終被檢查出一種叫肢體活動過度 Ehlers-Danlos 綜合征的遺傳病?,F(xiàn)在的醫(yī)療體系是根據(jù)不同科室劃分,而這個遺傳病 hEDS 會影響人體各個系統(tǒng)和器官。大多醫(yī)生都只關注自己專業(yè)相關的癥狀,很難整體診斷?!?nbsp;OpenAI 聯(lián)創(chuàng) Greg Brockman 的一番話點明,當前先進 AI 系統(tǒng)還需不斷演進,有望破解人類醫(yī)學難題。
這足以成為巨大游戲規(guī)則的改變者。眾所周知,醫(yī)患對話是醫(yī)學的基石。當前醫(yī)學大模型已取得很大的進展,以同理心回應患者情緒,總結醫(yī)學摘要,根據(jù)臨床病史鑒別診斷病情等等。
不過,若想研發(fā)一個與臨床醫(yī)生專業(yè)知識相當?shù)?AI,并且擁有強大的對話診斷能力,是一個巨大的挑戰(zhàn)。如今,谷歌 DeepMind 研究團隊推出全新的醫(yī)學對話 AI——AMIE,竟通過了「圖靈測試」!
具體來說,AMIE 采用了一種強化學習算法中「自我博弈」方法,可以在一個模擬環(huán)境中自我對弈,并通過自動反饋機制,可在各種疾病、醫(yī)學??坪铜h(huán)境中進行擴展學習。
在病人雙盲文本測試中,AMIE 在診斷呼吸系統(tǒng)和心血管疾病等疾病直接擊敗醫(yī)生,比初級保健醫(yī)生(PCP)更準確。與此同時,AMIE 還表現(xiàn)出一致的同理心。論文稱,雖然在 AMIE 在臨床應用之前還需要進一步的研究,但代表著邁向?qū)υ捠皆\斷人工智能的一個里程碑。足見,谷歌最新研究暗示了 AI 驅(qū)動的診斷對話的未來。不久的將來,Greg 口中的 AGI 便會降臨。
谷歌 AI 醫(yī)生通過圖靈測試,診斷對話 AI 里程碑
除了開發(fā)和優(yōu)化用于診斷對話的人工智能系統(tǒng)外,如何評估此類系統(tǒng)也是難題。
受現(xiàn)實世界中用于衡量會診質(zhì)量和臨床溝通技巧的工具的啟發(fā),研究人員構建了一個試驗性評估標準,按照病史采集、診斷準確性、臨床管理、臨床溝通技巧、關系培養(yǎng)和移情等標準來評估診斷對話的過程。
然后,研究人員設計了一項隨機、雙盲交叉研究,讓經(jīng)過驗證的患者與經(jīng)過認證的初級保健醫(yī)生(PCP)或針對診斷對話進行優(yōu)化的人工智能系統(tǒng)通過文字聊天的方式進行互動。研究人員以客觀結構化臨床考試(OSCE)的形式設置咨詢場景。
OSCE 是現(xiàn)實世界中常用的實用評估方法,以標準化和客觀的方式考察臨床醫(yī)生的技能和能力。在典型的 OSCE 考試中,臨床醫(yī)生可能會輪流經(jīng)過多個工作場景,每個工作場景都模擬了真實的臨床場景。例如與標準化病人演員(經(jīng)過嚴格訓練以模擬患有特定疾病的病人)進行會診。
會診是通過同步文本聊天工具進行的,模仿的是當今大多數(shù)使用 LLM 的消費者所熟悉的界面。研究人員在真實世界的數(shù)據(jù)集上訓練 AMIE,這些數(shù)據(jù)集包括醫(yī)學推理、醫(yī)學總結和真實世界的臨床對話。使用通過被動收集和轉(zhuǎn)錄個人臨床訪問而開發(fā)的真實世界對話來訓練 LLM 是可行的,但是,有兩個重大挑戰(zhàn)限制了它們在訓練醫(yī)學對話 LLM 方面的有效性。
首先,現(xiàn)有的真實世界數(shù)據(jù)往往無法捕捉到大量的醫(yī)療條件和場景,這阻礙了數(shù)據(jù)的可擴展性和全面性。其次,從真實世界對話記錄中獲得的數(shù)據(jù)往往是嘈雜的,包含含糊不清的語言(包括俚語、行話、幽默和諷刺)、中斷、不合語法的語句和不明確的引用。
為了解決這些局限性,研究人員設計了一個基于自演的模擬學習環(huán)境,該環(huán)境具有自動反饋機制,用于虛擬醫(yī)療環(huán)境中的診斷性醫(yī)療對話,使研究人員能夠在多種醫(yī)療條件和環(huán)境中擴展 AMIE 的知識和能力。除了所描述的真實世界數(shù)據(jù)的靜態(tài)語料庫之外,研究人員還利用該環(huán)境通過不斷變化的模擬對話集對 AMIE 進行了反復微調(diào)。
這一過程包括兩個自我循環(huán):
由此產(chǎn)生的新版 AMIE 可以再次參與內(nèi)循環(huán),形成良性的持續(xù)學習循環(huán)。此外,研究人員還采用了推理時間鏈策略( inference time chain-of-reasoning strategy),使 AMIE 能夠根據(jù)當前對話的情況逐步完善自己的回答,從而得出有理有據(jù)的答復。研究人員采用上述隨機方法測試了模擬患者(由專業(yè)的演員扮演)的問診表現(xiàn),并與 20 名真實初級保健醫(yī)生的問診表現(xiàn)進行了對比。
在一項隨機、雙盲交叉研究中,研究人員從??浦髦吾t(yī)師和模擬患者的角度對 AMIE 和初級保健醫(yī)生進行了評估,該研究包括來自加拿大、英國和印度 OSCE 提供者的 149 個病例場景,涉及各種??坪图膊?。值得注意的是,研究人員的研究既不是為了模仿傳統(tǒng)的面對面 OSCE 評估,也不是為了模仿臨床醫(yī)生通常使用的文本、電子郵件、聊天或遠程醫(yī)療方式。
相反,研究人員的實驗反映了當今消費者與 LLM 交互的最常見方式,這是人工智能系統(tǒng)參與遠程診斷對話的潛在可擴展且熟悉的機制。
在這種情況下,研究人員觀察到 AMIE 在模擬診斷對話中的表現(xiàn)至少與初級保健醫(yī)生不相上下。
從??漆t(yī)生的角度來看,AMIE 的診斷準確性更高,在 32 個指標中的 28 個指標上表現(xiàn)更優(yōu),從患者的角度來看,在 26 個指標中的 24 個指標上表現(xiàn)更優(yōu)。
專家評定的 top-k 診斷準確率。在 149 種情況下,AMIE 和初級保健醫(yī)生的頂 k 鑒別診斷 (DDx) 準確率與基本真實診斷(a)和公認鑒別診斷中列出的所有診斷(b)進行比較。引導法(n=10,000)證實,經(jīng)過誤診率(FDR)校正后,AMIE 和 PCP DDx 準確性之間的所有 top-k 差異均具有顯著性,p<0.05。
在最近發(fā)布的一篇預發(fā)表論文中,研究人員評估了 AMIE 系統(tǒng)早期迭代版本單獨生成 DDx 或作為臨床醫(yī)生輔助工具的能力。二十名全科臨床醫(yī)生評估了 303 個來自《新英格蘭醫(yī)學雜志》(NEJM)臨床病理會議(CPC)的具有挑戰(zhàn)性的真實醫(yī)療病例。每份病例報告都由兩名臨床醫(yī)生進行評估,他們被隨機分配了兩種輔助方式之一:
1)搜索引擎和標準醫(yī)學資源的輔助,
2)這些工具之外的 AMIE 輔助。
AMIE 的獨立性能超過了無輔助臨床醫(yī)生(前 10 名的準確率為 59.1%,醫(yī)生為 33.6%,P= 0.04)。比較兩個輔助研究方式,與沒有 AMIE 輔助的臨床醫(yī)生(24.6%,p<0.01)和使用搜索的臨床醫(yī)生(5.45%,p=0.02)相比,有 AMIE 輔助的臨床醫(yī)生的前 10 名準確率更高。
此外,與沒有 AMIE 輔助的臨床醫(yī)生相比,有 AMIE 輔助的臨床醫(yī)生得出的鑒別清單更全面。值得注意的是,NEJM CPCs 并不代表日常臨床實踐。它們是僅針對幾百人的不常見的病例報告,為探討公平或公正等重要問題提供的空間還比較有限。
雖然人工智能在特定的臨床應用中顯示出巨大的前景,但參與臨床實踐中的動態(tài)、對話式診斷過程需要許多人工智能系統(tǒng)尚未表現(xiàn)出的能力。醫(yī)生不僅要掌握知識和技能,還要恪守各種原則,包括安全和質(zhì)量、溝通、伙伴關系和團隊合作、信任和專業(yè)精神。
在人工智能系統(tǒng)中實現(xiàn)這些特質(zhì)是一項鼓舞人心的挑戰(zhàn),研究人員應該以負責任的態(tài)度謹慎對待。AMIE 是研究人員對 「可能的藝術」的探索,它是一個研究性的系統(tǒng),用于安全地探索未來的愿景,在這個愿景中,人工智能系統(tǒng)可能會更好地與受托為研究人員提供醫(yī)療服務的技術嫻熟的臨床醫(yī)生的特質(zhì)保持一致。
它只是早期的實驗性工作,而不是產(chǎn)品,有一些局限性,研究人員認為值得進行嚴格而廣泛的進一步科學研究,以展望未來,讓會話式、移情式和診斷式人工智能系統(tǒng)變得安全、有用和易用。
研究人員的研究存在一些局限性,在解釋時應保持適當?shù)闹斏鳌?
首先,研究人員的評估技術很可能低估了人類對話在現(xiàn)實世界中的價值,因為研究人員研究中的臨床醫(yī)生僅限于使用一個陌生的文本聊天界面,該界面允許大規(guī)模的 LLM 患者互動,但并不代表通常的臨床實踐。
其次,任何此類研究都必須被視為漫長旅程中的第一步探索。要從研究人員在本研究中評估的 LLM 研究原型過渡到可供人們和護理人員使用的安全、強大的工具,還需要進行大量的額外研究。
還有許多重要的限制因素需要解決,包括在真實世界限制條件下的實驗表現(xiàn),以及對健康公平與公正、隱私、穩(wěn)健性等重要主題的專門探索,以確保技術的安全性和可靠性。
AI 或?qū)氐赘淖冡t(yī)學
過去一年中大模型的發(fā)展,也讓許多人看到 AI 在醫(yī)學中的應用潛力。谷歌便是這個垂類模型領域的典型代表。
谷歌的 Med-PaLM 2 根據(jù) 14 項標準進行了測試,結果發(fā)現(xiàn)可以達到醫(yī)學專家的水平。
去年,一位 4 歲小男孩得了「怪病」,3 年來看了 17 位醫(yī)生,但他們都無法解釋疼痛的具體原因。直到小男孩母親注冊 ChatGPT 之后,將病情上傳,才終于得到了正確的診斷結果。
近來,有網(wǎng)友發(fā)文表示,在 ChatGPT 幫助下,發(fā)現(xiàn)了女朋友的過敏反應。
“凌晨 4 點,她全身起了大面積的蕁麻疹,去醫(yī)院后醫(yī)生給她靜脈注射了皮質(zhì)類固醇,然后就好了。醫(yī)生說可能是防腐劑 / 保鮮劑 / 食品化學物質(zhì)引起的,但我們一直都吃得很干凈,怎么會這樣呢?”
緊接著,他們把過去 24 小時內(nèi)吃的所有東西告訴 GPT-4,然后讓它對最可能的過敏原進行排名。GPT-4 起初以為是巧克力里的榛子的原因,但后來網(wǎng)友突然想起昨天從超市買的肉,便從垃圾桶撿出來把它配料輸給 GPT-4。“配料:牛肉 (86%)、水、面包屑 (大米和玉米粉、淀粉、玉米、鹽、葡萄糖)、鹽、甜菜提取物、香料和芳香草藥、天然香氣和防腐劑 E223 (亞硫酸鹽)?!?/em>
GPT-4 立即將亞硫酸鹽列為可能導致蕁麻疹的最主要過敏原,通過谷歌搜索,證實它會是蕁麻疹原因之一。最后發(fā)現(xiàn),這與醫(yī)生所說的相符,很可能是食物防腐劑過敏。
另外一位網(wǎng)友也分享了自己的心路歷程,以及利用 GPT 發(fā)現(xiàn)醫(yī)生們遺漏的病情聯(lián)系?!耙荒昵?,我的身體在與自己作戰(zhàn),我的病情惡化速度之快超出了專家們的理解。然后,GPT 成為了我的 Copilot?!?
現(xiàn)在,谷歌推出的 AMIE 系統(tǒng)再次引領了醫(yī)療 AI 革命。
論文作者表示,「據(jù)我們所知,這是第一次為診斷對話和記錄臨床病史而設計的對話式人工智能系統(tǒng)」。
AI 醫(yī)學,未來可期。
新聞來源:新智元