MedBench最新評測：山海大模型醫療各項指標力壓GPT-4

2024-06-14 09:55:41 來源：天極網作者：　

摘要：MedBench致力于打造一個科學、公平且嚴謹的中文醫療大模型評測體系及開放平臺，其基于醫學權威標準，不斷更新維護高質量的醫學數據集，全方位多維度量化模型在各個醫學維度的能力。

近日，由上海AI實驗室和上海市數字醫學創新中心聯合推出的MedBench評測更新榜單，繼4月份奪冠后，云知聲山海大模型醫療行業版（UniGPT-Med）再次以綜合得分82.2的優異成績位列全球第一，各項指標全面超越GPT-4，充分展現出山海大模型在擁有業內一流的通用能力之外，更具備打造世界領先的行業大模型的能力。

MedBench致力于打造一個科學、公平且嚴謹的中文醫療大模型評測體系及開放平臺，其基于醫學權威標準，不斷更新維護高質量的醫學數據集，全方位多維度量化模型在各個醫學維度的能力。

MedBench的五大評測維度——醫學語言理解、醫學語言生成、醫學知識問答、復雜醫學推理、醫療安全和倫理，構成了其專業評測框架的核心。這一框架吸納了海量醫學知識庫和醫院醫學專家的豐富經驗，涵蓋8個公開數據集和12個自建數據集，總計約30萬道中文醫療專業測評題目，覆蓋了從醫學考試題庫到患者服務、醫學問診、病例分析以及病歷生成等廣泛的醫學任務，致力為中文醫療大模型提供客觀科學的性能評測參考。

今年5月，MedBench平臺全面升級，不僅引入API評測方式，豐富了參評途徑，還優化了開放域問答的評估指標。通過醫學專家的精準標注，平臺進一步提升了評測結果的公正性和專業性。同時，平臺在數據集、評測方法和系統功能等方面也進行了升級，旨在為醫療大模型評測構建一個更加完善的社區環境，并提供更加豐富、真實的實踐場景。

此次評測，云知聲山海大模型醫療行業版（UniGPT-Med）通過API提交方式，不僅以82.2的綜合得分刷新了MedBench評測記錄，更是在各個維度上力壓GPT-4，排名全球第一。這一成績的取得，是山海大模型醫療專業能力的集中展現，也標志著其技術迭代和創新發展達到了一個新的高度。

目前，山海大模型通用能力已超越GPT-3.5，并在SuperCLUE 4月評測中躋身國內大模型Top10；與GPT-4的對戰中，山海綜合勝率與和率為75.55%。

在醫療專業能力上，山海大模型于2023年6月的MedQA任務中超越Med-PaLM 2，取得87.1%的優異成績；在臨床執業醫師資格考試中以523分（總分600分）的優異成績，超過99%的考生水平；其基于山海大模型孵化的醫療行業版大模型，也在CCKS 2023 PromptCBLUE醫療大模型評測中奪得通用賽道一等獎。

隨著醫療行業對智能化、精準化服務需求的不斷增長，云知聲山海大模型醫療行業版（UniGPT-Med）有望在醫療健康領域扮演更加關鍵的角色，為提升醫療服務效率、優化患者體驗、推動醫療科技進步提供強有力的支持。

上一篇： 上海市民在叮當快藥小程序購藥可使用在線醫保支付
下一篇： 情景模擬生動再現，趣味科普反詐知識！《蛋仔派對》時刻在守護

精彩閱讀原創資訊投資人物專欄