九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
「中文電子病歷命名實體識別」的研究與進(jìn)展

海量電子病歷(Electronic Medical Record,EMR)數(shù)據(jù)是支撐醫(yī)療智能化研究的重要原料,其結(jié)構(gòu)化的 不完全性給有用信息抽取帶來了較大困難. 自命名實體識別(Named Entity Recognition,NER)成為對電子病歷進(jìn)行自 動化信息抽取的核心技術(shù)后,近年來受到越來越多的關(guān)注 . 鑒于中文電子病歷(Chinese Electronic Medical Record, CEMR)獨特的文本特征給該研究帶來了諸多挑戰(zhàn),本文綜述了中文電子病歷命名實體識別的概念、相關(guān)理論模型以 及制約中文電子病歷命名實體識別準(zhǔn)確率和識別效率的主要原因,詳細(xì)分析了中文電子病歷命名實體識別近年來的 主要研究進(jìn)展. 通過對主流模型的實驗驗證與深入分析,指出了現(xiàn)有模型的不足與改進(jìn)方向。

https://www.ejournal.org.cn/CN/10.12263/DZXB.20220485

1. 引言

電子病歷(Electronic Medical Record,EMR)是指醫(yī) 務(wù)人員在醫(yī)療活動過程中,使用信息系統(tǒng)生成的文字、 符號、圖表、圖形、數(shù)字、影像等數(shù)字化信息,并能實現(xiàn) 存儲、管理、傳輸和重現(xiàn)的醫(yī)療記錄,是病歷的一種記 錄形式,包括門(急)診病歷和住院病歷[1] ,是臨床輔助 決策[2] 、專病科研數(shù)據(jù)提?。?] 、醫(yī)療知識圖譜構(gòu)建[4] 和 智能預(yù)問診[5] 等應(yīng)用的重要數(shù)據(jù)支撐. 然而,電子病歷 通常由自然語言書寫而成,大多為醫(yī)療信息系統(tǒng)無法 直接利用的半結(jié)構(gòu)化甚至無結(jié)構(gòu)化數(shù)據(jù)[6] ,如何利用自 然語言處理技術(shù)對電子病歷文本進(jìn)行智能分析和信息 抽取,將其組織為結(jié)構(gòu)化的內(nèi)容,是當(dāng)前研究的重點[4] . 

如圖1所示,命名實體識別是電子病歷分析利用過 程中介于數(shù)據(jù)預(yù)處理與數(shù)據(jù)應(yīng)用之間的關(guān)鍵技術(shù) . 基 于對電子病歷結(jié)構(gòu)化和標(biāo)準(zhǔn)化的目的,針對電子病歷 的命名實體識別(Named Entity Recognition,NER)是從海量電子病歷數(shù)據(jù)中識別出有獨立或特定意義的醫(yī)療 信息實體[7] ,如目前公認(rèn)的疾病和診斷、檢查、檢驗、手 術(shù)、藥物與解剖部位在內(nèi)的六類實體[8] ,對其進(jìn)行序列 標(biāo)注和標(biāo)準(zhǔn)化,為進(jìn)一步進(jìn)行信息抽取和文本挖掘做 準(zhǔn)備,該技術(shù)具有重要的應(yīng)用前景 . 截至目前,電子病 歷的命名實體識別方法主要經(jīng)歷了基于詞典、規(guī)則和 機器學(xué)習(xí)的三個發(fā)展階段 . 相較基于詞典的方法兼容 性較差和基于規(guī)則的方法可遷移性較差,基于機器學(xué) 習(xí)的方法在電子病歷命名實體識別上表現(xiàn)出較好的實 用性和可移植性. 特別在深度學(xué)習(xí)技術(shù)提出后,面向電 子病歷命名實體識別的深度學(xué)習(xí)模型井噴式增長,各 個模型不斷優(yōu)化命名實體識別的準(zhǔn)確性.

國際上,早在1996年由NCCOSC(前NOSC)海軍研 究與發(fā)展小組(NRaD)的 Beth Sundheim 組織的 MUC-6 會議[10] 提出命名實體識別概念就開始推動相關(guān)方面研 究,2002 年自然語言處理領(lǐng)域影響力最大的國際學(xué)術(shù) 組織 ACL 下屬的 SIGNLL 主辦的計算自然語言學(xué)會議 (Conference on Natural Language Learning,CoNLL)①將 跨國語言的命名實體識別作為共享任務(wù),2010 年美國 國立衛(wèi)生研究院(NIH)贊助的國家生物醫(yī)學(xué)計算項目 Informatics for Integrating Biology and the Bedside(I2B2) 測評任務(wù)給出電子病歷命名實體識別的具體要求,聚 焦推進(jìn)英文電子病歷命名實體識別方面的研究. 除應(yīng)用人工規(guī)則和建立詞典的識別方法之外,早 期主要的識別方法的訓(xùn)練模型幾乎都基于監(jiān)督學(xué)習(xí), 包括采用貝葉斯模型、支持向量機[11] 、條件隨機場[12] 等. 后續(xù)的研究中發(fā)現(xiàn),半監(jiān)督學(xué)習(xí)方法有別于有監(jiān)督 學(xué)習(xí),只需要少量語料標(biāo)注,因此也成為一段時間的研 究熱點,包括采用半監(jiān)督協(xié)同訓(xùn)練[13] 和多任務(wù)學(xué)習(xí)的 半監(jiān)督學(xué)習(xí)方法[14] 等.

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,鑒于其在命名實體識 別 上 表 現(xiàn) 優(yōu) 異 ,迅 速 成 為 了 研 究 熱 點 . 從 最 初 以 LSTM[15] 為代表的單向RNN網(wǎng)絡(luò)到以BiLSTM[16] 為代表 的雙向RNN網(wǎng)絡(luò),從基本的CNN網(wǎng)絡(luò)[17] 到其變種迭代 膨脹卷積 IDCNN[18],從類似 CRF 的單一模型到諸如 BiLSTM+CRF[19] 的多模型融合……人工參與工作量不 斷減少,識別精度也不斷提高. 特別在將預(yù)訓(xùn)練模型和遷移學(xué)習(xí)方法引入后,模型對語義的理解更進(jìn)一步,具體是通過自監(jiān)督學(xué)習(xí)從 大規(guī)模語料中獲得與后續(xù)任務(wù)無關(guān)的預(yù)訓(xùn)練模型,并 遷移到實體識別這樣的下游語言任務(wù)上 . 比如從 Word2vec[20]到 GLOVE[21],再 到 BiLSTM,BERT[22],以 RoBERTa[23] 為代表的 BERTology 系列……這些預(yù)訓(xùn)練 模型依次出現(xiàn),在優(yōu)化升級過程中不斷提高了命名實 體識別的精度.

而國內(nèi)由于醫(yī)療信息化建設(shè)起步較晚,電子病歷 命名實體識別研究相對于英文語料環(huán)境落后 . 最早楊 錦鋒等人[7] 在2014年對國內(nèi)外電子病歷命名實體識別 工作做了詳盡總結(jié),在 2016 年制定了命名實體的詳細(xì) 標(biāo)注規(guī)范[24] ,此后國內(nèi)在該領(lǐng)域的研究逐步展開:比如 從2017年至今每年舉辦的全國知識圖譜與語義計算大 會[25~29]均將中文電子病歷命名實體識別作為測評任 務(wù),迅速推動了該領(lǐng)域的研究進(jìn)步. 其中,面向中文電子病歷(Chinese Electronic Medi? cal Record,CEMR)命名實體識別的主要技術(shù)路線和國 外大致相同,主要在待識別文本的語言特征上兩者有 所差異,如英文詞語邊界明顯、詞語前后綴較易劃分、 詞法句法結(jié)構(gòu)相對固定,而中文語句沒有明顯的分詞、 偏旁部首等部分不能直接劃分、詞法句法結(jié)構(gòu)復(fù)雜. 特 別針對醫(yī)療領(lǐng)域,中文醫(yī)學(xué)專業(yè)詞匯多、醫(yī)學(xué)命名實體 長、一詞多義、多詞一義以及詞匯縮寫無統(tǒng)一規(guī)范等問 題尚未獲得有效解決,大多數(shù)研究者基于國外提出的 模型技術(shù),融合中文醫(yī)療文本特征,在不斷摸索提高中 文電子病歷命名實體識別準(zhǔn)確性的有效方法,具體研 究在 CCKS 歷年收錄的文章(詳見第 4 節(jié))中進(jìn)行了 說明.

雖然面向中文電子病歷的命名實體識別目標(biāo)明 確,相關(guān)技術(shù)也取得了長足發(fā)展,但有別于英文或者中 文通用領(lǐng)域的命名實體識別,中文電子病歷獨特的文 本數(shù)據(jù)特征也給該研究帶來了諸多挑戰(zhàn),具體包括以 下幾點。 

(1)中文電子病歷文本的非規(guī)范性和專業(yè)性. 該特 征帶來了三方面挑戰(zhàn):一是中文電子病歷文本中存在 大量非規(guī)范的語法、拼寫錯誤和不完整的句子結(jié)構(gòu),如 將“右心室”錯誤地寫為“有心室”;二是中文電子病歷 文本包含大量專業(yè)術(shù)語、受控詞匯、縮略語、符號等,如 藥物“Aspirin”被譯作“阿司匹林”或者“阿斯匹林”其中 哪一種并不確定;三是中文電子病歷自身特殊的文法 和句法. 這些挑戰(zhàn)均給命名實體識別造成困難.

(2)中文醫(yī)療實體的獨特性. 中文電子病歷文本數(shù) 據(jù)中不僅有常規(guī)的實體,還有很多擁有復(fù)雜結(jié)構(gòu)的實 體,主要有兩種情況:一是嵌套類實體存在自身復(fù)雜的 結(jié)構(gòu),如“呼吸中樞受累”中存在二級實體嵌套:“呼吸中樞受累”為癥狀而“呼吸中樞”為身體部位;二是跳躍 類實體在文本中的位置不連續(xù),如“尿道、膀胱、腎絞 痛”中存在三個非連續(xù)實體“尿道痛”、“膀胱痛”和“腎 絞痛”.

(3)中文電子病歷標(biāo)注語料的稀缺性. 造成這一現(xiàn) 象的原因主要是考慮到患者隱私和保密性要求,電子 病歷數(shù)據(jù)難以公開;此外可用于電子病歷命名實體識 別的數(shù)據(jù)集標(biāo)注成本高,需要醫(yī)療專家的指導(dǎo)和參與, 費時費力. 鑒于此,本文針對國內(nèi)外在中文電子病歷醫(yī)療命 名實體識別上的工作進(jìn)行了詳細(xì)分析;綜述了近年來 中文電子病歷命名實體識別模型上的研究進(jìn)展;同時 也對當(dāng)前電子病歷命名實體識別的效果進(jìn)行了對比檢 驗,進(jìn)而深入分析了各模型的優(yōu)勢與不足;在此基礎(chǔ)上 對該領(lǐng)域的后續(xù)研究方向進(jìn)行了展望.

2. 中文電子病歷命名實體識別 

中文電子病歷命名實體識別是針對給定的一組電 子病歷純文本文檔,通過自然語言處理技術(shù),識別并抽 取出與醫(yī)學(xué)臨床相關(guān)的實體提及,并將它們歸類到預(yù) 定義類別[8] . 如全國知識圖譜與語義計算大會(CCKS) 于 2021 年發(fā)布的中文電子病歷命名實體識別評測任 務(wù)[8] 中定義了 6 類實體,包括疾病和診斷、檢查、檢驗、 手術(shù)、藥物和解剖部位. 其一般流程包括先將原始電子 病歷語料進(jìn)行數(shù)據(jù)抽取、清洗、規(guī)約與脫敏四步預(yù)處 理,獲得待標(biāo)記的電子病歷字符序列. 之后將其輸入命 名實體識別模型中進(jìn)行計算,獲得標(biāo)注好的電子病歷 字符序列作為最終結(jié)果. 具體到命名實體識別模型,通 常由特征工程、識別方法所對應(yīng)的模型識別和模型融 合三部分構(gòu)成,如圖2所示.

3 中文電子病歷命名實體識別模型 

電子病歷命名實體識別模型的研究,主要有基于 詞典、規(guī)則和機器學(xué)習(xí)三種方法,各方法的優(yōu)缺點如表 2所示.

近年來,隨著機器學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí) 的命名實體識別也獲得較大關(guān)注,并取得了很好的識 別效果 . 相較統(tǒng)計機器學(xué)習(xí)需要依賴研究者手動設(shè)計 特征工程,即用一系列工程化的方式從原始語料中篩 選出更好的文本數(shù)據(jù)特征,以提升模型的訓(xùn)練效果. 深 度學(xué)習(xí)是端到端的,可以自動找到更深入、更抽象的特 征 . 深度學(xué)習(xí)的關(guān)鍵在于如何在詞向量的基礎(chǔ)上設(shè)計 并利用各種神經(jīng)網(wǎng)絡(luò)模型進(jìn)行醫(yī)療命名實體識別 . 普 遍采用的模型如圖5所示。

4. 中文電子病歷命名實體識別效果 

為實際考察目前中文電子病歷命名實體識別前沿 方法及其效果,為下一步研究提供方向 . 本節(jié)首先對 CCKS 近年來該領(lǐng)域相關(guān)論文中提及的方法進(jìn)行縱橫 比較,分析不同方法的特點和創(chuàng)新之處;再通過對這些 方法中主流模型的深入實驗分析,為后續(xù)研究提供切 實可行、有借鑒意義的思路.

5 結(jié)論 

海量電子病歷數(shù)據(jù)是支撐醫(yī)療智能化研究的重要 原料,然而電子病歷文本數(shù)據(jù)的半結(jié)構(gòu)化甚至無結(jié)構(gòu) 化特點,造成后續(xù)對其分析利用的極大困難. 雖然近年 來基于深度學(xué)習(xí)的命名實體識別技術(shù)已經(jīng)發(fā)展到可以 有效完成電子病歷的命名實體識別任務(wù),但由于中文 電子病歷所具有包括病歷文本的非規(guī)范性和專業(yè)性、 醫(yī)療實體的獨特性和標(biāo)注語料的稀缺性在內(nèi)的獨特文 本數(shù)據(jù)特征,該研究目前仍存在諸多挑戰(zhàn). 本文對中文電子病歷命名實體識別的研究與進(jìn)展 進(jìn)行了綜述,系統(tǒng)梳理了中文電子病歷命名實體識別 的相關(guān)理論;從技術(shù)發(fā)展角度詳細(xì)敘述了中文電子病 歷命名實體識別方法的變革歷程;并對中文電子病歷命名實體識別效果做了實驗驗證與深入分析,指出了 現(xiàn)有模型的不足與改進(jìn)方向;鑒于國內(nèi)近年來與中文 信息學(xué)處理相關(guān)的測評會議 CCKS 持續(xù)關(guān)注中文電子 病歷命名實體識別,本文特別對CCKS在該領(lǐng)域五年來 的全部代表性測評論文做了縱橫對比分析,并通過在 主流模型 BBC 上的深入實驗與研究,為后續(xù)該領(lǐng)域的 繼續(xù)推進(jìn)尋求了思路. 雖然圍繞電子病歷文本數(shù)據(jù)處理的醫(yī)療命名實體 識別并非新興研究方向,與其他通用領(lǐng)域文本數(shù)據(jù)上 的命名實體識別技術(shù)差別不大,但中文電子病歷自身 所具備的專業(yè)性和隱私性等特點,讓該領(lǐng)域到目前為 止仍存在極大的研究空間,主要體現(xiàn)在訓(xùn)練語料獲取 難度大、現(xiàn)有識別方法仍存在可改進(jìn)之處等. 基于本文 調(diào)研,我們認(rèn)為以下幾個方面是未來中文電子病歷命 名實體識別研究中值得重點關(guān)注的方向: 

(1)針對特殊實體類型研究識別率的提升方法。前文實驗結(jié)果表明,“實驗室檢驗”類實體的 F1明顯較 低. 潛在原因有二:一是該類實體多有中英文混雜的情 況,從而導(dǎo)致模型不能很好地判斷實體邊界;二是難以 識別出長度為一的短實體以及不能完整識別出較長實 體,該類實體還明顯存在實體嵌套的現(xiàn)象,導(dǎo)致嚴(yán)格匹 配指標(biāo)F1值較低. 針對不同類型實體,特別是針對中文 電子病歷中特殊類型的實體,包括嵌套類實體和非連 續(xù)類實體,鑒于其自身結(jié)構(gòu)和語義的復(fù)雜性至今仍是 制約中文電子病歷實體識別效果的要因,有必要對以 往模型的實驗結(jié)果做進(jìn)一步分析,統(tǒng)計特殊類實體的 識別情況,并對特定實體類型所存在的問題進(jìn)行具體 優(yōu)化.

(2)尋求性能表現(xiàn)更佳的模型結(jié)構(gòu):綜合調(diào)研結(jié) 果,我們發(fā)現(xiàn)基于詞典和規(guī)則的實體識別方法均因自 身缺陷而不再被獨立研究,多結(jié)合到基于機器學(xué)習(xí)的 實體識別方法中,作為提升模型性能的兩種手段;而基 于機器學(xué)習(xí)的實體識別方法目前僅BBC模型被廣為采 納 . 可以預(yù)見,在更優(yōu)的模型架構(gòu)提出以前,一定階段 內(nèi)BBC模型將不被淘汰. 因此,下一步一方面可以考慮 采用 4. 2. 6 小節(jié)提出的 12 種方法改良 BBC 模型,另一 方面也可以考慮借鑒圖像識別等其他領(lǐng)域思路,在中 文電子病歷命名實體識別情景下尋找性能更佳的模型 結(jié)構(gòu).

(3)采用多元的模型學(xué)習(xí)方式:深度學(xué)習(xí)模型大多為數(shù)據(jù)驅(qū)動,足夠且高質(zhì)量的數(shù)據(jù)才能讓模型學(xué)到一 定的知識,從而達(dá)到相較理想的模型效果. 而短時間內(nèi) 中文電子病歷的命名實體識別仍無法獲得足量的數(shù) 據(jù),這也是大部分研究者在模型識別效果提升上受到 制約的潛在原因 . 未來可以在模型上嘗試采用不同的 學(xué)習(xí)方式解決這一問題,如主動學(xué)習(xí)[107] 、自學(xué)習(xí)[108] 、遷 移學(xué)習(xí)[109]、多任務(wù)學(xué)習(xí)[79]、元學(xué)習(xí)[110]和小樣本學(xué) 習(xí)等.

(4)進(jìn)一步提升模型訓(xùn)練和測試效率:經(jīng)實際測 驗,在一定參數(shù)設(shè)置下一個主流的中文電子病歷命名 實體識別模型 BBC在 CPU 上訓(xùn)練時長超過 24小時,在 GPU上訓(xùn)練時間也長達(dá)3小時. 此外,并非可并行計算 模型結(jié)構(gòu)中的各個部分都能采用 GPU 加速計算,如 BERT-LSTM-CRF 模型中,由于單個 LSTM 模型自身結(jié) 構(gòu)無法并行,這一部分就無法使用 GPU 進(jìn)行加速 . 因 此,在算力資源不緊張的情況下,采用分布式學(xué)習(xí)如聯(lián) 邦學(xué)習(xí)[111] 等思路;在算力資源有限的情況下,尋求合 適的模型訓(xùn)練方案以提升效率,在實際應(yīng)用場景下都 十分必要.

(5)完善中文醫(yī)療領(lǐng)域語料庫資源,構(gòu)建開放高質(zhì) 量數(shù)據(jù)集:雖然目前部分研究者如本節(jié)第(3)點所述:從小樣本學(xué)習(xí)、領(lǐng)域遷移學(xué)習(xí)或者對醫(yī)療數(shù)據(jù)進(jìn)行無 監(jiān)督學(xué)習(xí)等方向進(jìn)行了初步嘗試并取得一定進(jìn)展,如 高冰濤等人[41] 通過構(gòu)建基于遷移學(xué)習(xí)的隱馬爾可夫模 型 BioTrHMM 僅需要少量的目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)即可在 醫(yī)學(xué)命名實體上獲得較好性能. 但在大數(shù)據(jù)浪潮下,建 立統(tǒng)一的標(biāo)注標(biāo)準(zhǔn)和公共數(shù)據(jù)集;降低數(shù)據(jù)集標(biāo)注的 人工成本和時間成本;利用自動化方式獲得較為完善 而高質(zhì)量的中文醫(yī)療領(lǐng)域語料庫仍然是較為緊迫的研 究問題,需要政府、醫(yī)院和相關(guān)研究者共同出力.

6)與其他研究方向做聯(lián)合研究:自 CCKS2019 以 來,中文電子病歷命名實體識別任務(wù)就開始和其他任 務(wù)做聯(lián)合測評 . 鑒于中文電子病歷命名實體識別最終 為電子病歷文本數(shù)據(jù)結(jié)構(gòu)化和標(biāo)準(zhǔn)化、醫(yī)療知識圖譜 的構(gòu)建等服務(wù),聯(lián)合研究既降低了研究成本、減少了分 開研究潛在的信息丟失和誤差傳遞現(xiàn)象,同時還能通 過研究方向之間的關(guān)聯(lián)性,為彼此提供更豐富的擴展 信息,進(jìn)一步提升方法的整體性能,目前也吸引了較多 研究者關(guān)注.

專知便捷查看

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
今天來聊一聊中文電子病歷實體識別評測技術(shù)
來自首席AI科學(xué)家的干貨!臨床電子病歷自然語言處理中的挑戰(zhàn)與應(yīng)對
文本型醫(yī)療大數(shù)據(jù),拿來就可用?
如何在線掃一掃識別醫(yī)生的字?試試看這幾招
香港智慧城市應(yīng)用案例
今日份安利:筆記手寫轉(zhuǎn)文字如何弄?
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服