首页 > 心得体会 > 学习材料 / 正文

基于中文语料的医学概念规范化研究

2023-01-15 13:10:06 ℃

易晓宇，易绵竹

（信息工程大学洛阳校区基础系，河南洛阳 471000）

医学概念识别和规范化是生物医学应用自然语言处理（NLP）的一项经典且必不可少的任务[1].医学领域的参考术语可能包含数百万个概念,因此实体链接也可以看作是大规模的多分类任务.多分类问题任务难度大,另外标注所有概念的所有语料成本太高,因此不可能采用完全监督算法.临床信息学文献已对临床归一化问题进行了广泛研究从基于规则和基于术语索引的方法转变为基于机器学习的方法[2].规范化问题在通用领域中也称为实体链接[3],不同之处在于,通用领域可以利用大规模的标注语料库,如Wikipedia.实体链接算法都依赖于与维基百科相关的特征,如维基百科文章中的上下文文本信息、基于维基百科的相关度度量以及维基百科的一些特殊结构（如排歧页面、跳转页面等）.但医学领域知识库并不具备这些特征,因此通用领域的实体链接算法不适用于医学领域文本的实体链接任务.

本文利用预训练模型可以保留单词之间的相似性和语义关系,可以在向量空间（嵌入）中表示单词或短语的多语言传输任务的模型优势.通过UMLS概念唯一标识符对实体指称进行分类,进一步改进对中文概念的规范化.通过基于医渡云结构化4K数据集的实验数据分析,使用多语言术语和嵌入模型建立模型,即使在无监督的情况下,中文医学概念规范化建设也取得了较好的结果.

医学概念识别和规范化有必要使用术语及与概念相关的术语列表来指导系统进行实体链接[4].使用术语列表指导系统进行实体链接时,首先需要解决的是在目标语言中该术语资源可用性的问题.通常采用生物医学参考术语的一体化医学语言系统的超级叙词表（UMLSmetathesaurus）.

医学领域实体链接的任务难度大,一种解决方法是深度同义词相似度方法[5],将规范化任务表述为最近邻或排序问题.但是,此方法必须在推理期间存储或重新计算所有同义词表示形式.另一种方法是使用高效的搜索引擎对概念列表进行子集化,并应用神经相似性模型在候选对象之间实现更精细的分类[6].但是,当使用英语以外的其他语言进行规范化时,可能检索不出与其概念同义词不共享词法模式的实体.

为了解决这些问题,选择将该任务视为概念之间的标准分类任务,这意味着将目标术语的概念而不是其同义词编码为固定长度的表示,固定长度的表示可以用于存储甚至索引以缩短推理时的查找时间.可以通过利用神经网络优化解决这一难题,如Adam[7],BatchNorm[8]以及人脸识别领域的最新进展.人脸识别与医学规范化存在类似的问题：目标类的数量相似,每个类别的示例数量都较少.借鉴通用领域的NLP研究,医学命名实体表示学习使用Word2Vec、Elmo[9]、BERT及其多语言变体[10]等预训练模型.处理输入文本时,不需要考虑语言问题,仅需计算上下文有关的标签表示.

用英语以外的其他语言对医疗实体进行规范化主要依赖于将英语同义词翻译成目标语言,或者将实体翻译成英语[11].预通过处理管道（processing pipeline）将术语搜索与MetaMap[12]或Apache Solr等软件以及Web服务或本地翻译混合在一起.设计和训练一个对输入命名实体几乎没有预处理的深度神经网络分类器.

2.1 数据集来源

2.1.1 统一医学语言系统（UMLS）统一医学语言系统（UMLS）是一个元叙词表,它统一了生物医学领域中数十个术语的概念[13].UMLS中的每个概念都分配一个唯一标识符（CUI）,一组可能以多语言显示的术语（或同义词）和一种语义类型.UMLS语义类型分为15个语义组,每个概念与一个语义组相关联.例如,“二十碳五烯酸”（概念C0000545）属于化学（CHEM）组.实验将英语的同义词称为“英语镜像”,英文镜像是在英语和中文中都具有同义词的概念集,也将相同的中文概念称为同义词；
将UMLS概念称为“EN5”,这些概念具有英语同义词,并且在CHV,SNOMEDCT_US,MTH,NCI或MSH五类术语中[14].

2.1.2 Yidu-S4K：医渡云结构化4K数据集Yidu-S4K数据集,即“面向中文电子病历的命名实体识别”的数据集,是CCKS2019评测任务之一.包括两个子任务：①医疗命名实体识别：由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集,本年度保留了医疗命名实体识别任务,对2017年度数据集做了修订,并随任务一同发布.本子任务的数据集包括训练集和测试集.②医疗实体及属性抽取（跨院迁移）：在医疗实体识别的基础上,对预定义实体属性进行抽取.本任务为迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的标注数据及非标注数据进行目标场景的识别任务.本子任务的数据集包括训练集（非目标场景和目标场景的标注数据、各个场景的非标注数据）和测试集（目标场景的标注数据）[15].

2.2 研究方法

实验将归一化问题作为分类任务.C={c}是由其CUI标识的所有概念c（即要预测的类）的集合.每个概念都与一个语义组gc相关联.将语义组g中所有概念的集合表示为Cg.实体指称m是文本文档中涉及概念的短语.实验认为实体指称m可用并以语义组gm标记.共享相同概念c的同义词集称为同义词集.如概念C0678222包含“breast cancer”（乳腺癌）,“breast carcinoma”（乳腺癌,carcinoma只限于上皮组织来源的恶性肿瘤,是癌症的一种）,“乳腺癌”与语义组“DISO”（Disorders-紊乱）相关联.从给定文档中提取术语“乳腺癌”,并用“DISO”语义组预先标记,实验的目标是将其正确映射到C0678222概念.

给定一个数据集D=[m1,m2,...,mn],实验目标是构建一个CUI分类器,即学习概率分布P以预测每个实体指称的概念m∈D

式（1）中：θ表示编码器的参数,目标是将实体指称m映射到密集的向量空间,Hg表示此概念的嵌入空间,与gm的语义组相同.

2.3 预训练模型MLNorm

实验模型是基于序列-序列编码器的分类模型,实验选择了预训练Transformer模型.并将此模型称为MLNorm（用于多语言规范化）.图1对该模型进行了说明.

图1模型概述Fig.1 Model overview

图2 的步骤1和2均使用此模型.在步骤1中,候选概念是UMLS FR+EN镜像；
在步骤2中,候选概念为最佳候选.

图2 MLNorm实验Fig.2 MLNormexperiment

将实体指称标记为词条并输入到预训练模型BERT的编码器中,获取每个标签包含的上下文信息的向量化ti

将ti表示为没有第一个[CLS]和最后一个[SEP]的特殊标签tm-

将结果投影到较低维度的向量中以减小模型尺寸,使用校正后的线性激活函数并通过批量归一化对结果进行归一化.从而获取响应实体指称的向量化表示结果hm

式（4）中：BNμ,σ是具有均值μ和方差σ的批量归一化层,W和b分别表示权重和偏差.最后,通过计算实体指称与其语义组中概念的嵌入之间的余弦相似度对每个实体指称进行分类.通过对分数应用softmax函数获得概念概率

2.4 训练

2.4.1 初始全模型训练通过微调预训练Transformer模型来表示医疗实体,并训练概念嵌入的子集以便对UMLS子集中的同义词进行分类.

这部分既耗时、计算成本又高,因此实验将UMLS子集化,且保留至少一个中文同义词的概念（UMLS FR+EN镜像）,实验中将训练重点放在模型的多语言建模能力上.生成了一个系统,实验称其为S1,该系统仅限于预测具有中文同义词的概念.

2.4.2 大规模局部概念嵌入学习通过局部学习方法固定Transformer的参数,并训练所有概念的表示.对于每一个实体指称,大多数概念具有近零概率,并且在优化过程中不会更新.

对于每个新添加的概念,都将其嵌入初始化为其同义词集表示的归一化总和

通过S1,预测每个同义词的k个最高得分概念,称之为最佳候选

在初始全模型训练中训练概念嵌入,但仅考虑批量真实概念和最佳候选来计算损失（Loss）.这涉及同义词依赖的正、负训练集（Hard Negative Selection）[18]的softmax采样方法[19].固定编码器参数,同义词的嵌入在S2期间保持不变,在大规模局部概念嵌入学习的梯度下降开始之前有效地计算最佳候选的参数.使用此方法,只需要计算概念嵌入的相关子集的梯度即可,从而训练过程更快,更节约内存.

实验使用了两种不同的学习率,lBERT用于预训练Transformer,ltask用于概念嵌入和投影层训练.训练期间,实验使用两种方案改变学习率.对BERT使用倾斜三角形学习率lBERT,其预热阶段占训练步骤总数的10%.在预热阶段,学习率ltask保持恒定,预热训练结束后,ltask线性衰减.

推理时,将分词传递到编码器和分类器中.实验通过调整阈值,删除概率低的预测结果.

使用模型MLNorm进行了两组实验,并将其称为“远程监督”和“完全监督”.在第一组实验中（图2中的系统S1和S2）,没有使用Medline和EMEA的标签数据集对其进行直接概念监督,仅使用来自UMLS的远程监督.这样,这些系统对语料库特异性不敏感,也不会从标记数据集中分词的冗余中获益.在第二组实验中（S1sup和S2sup）,实验在Medline和EMEA训练集中添加实体指称和标签,与使用同样数据的最先进的全监督方法进行比较.

实验步骤2使用“EN5”的英语概念.

3.1 对比与消融

将MLNorm与以下基线（Baseline）进行比较：

（1）2015年CLEF获奖团队首先使用Google翻译工具对在Medline摘要中遇到的英语UMLS概念的子集进行翻译,从而扩充中文UMLS,然后由基于规则的文本索引器查询该术语.该索引器在句子级别执行词袋概念匹配,并集成了多达13个部分或完全翻译成中文的术语.

（2）与基于机器翻译+仅英语的规范化的系统相比,采用了不同模型的机器翻译方法.在多语言空间学习方法和基于翻译的方法之间进行比较.为此,系统使用由MarianMT构建并经过OPUSbitext存储库语料库培训的最新的预训练（opus-mt-fr-en）翻译系统翻译了所有UMLS中文术语.然后,使用所有原始英语和英语翻译术语训练系统采用的模型.即,BERT-MT（使用仅英语的BERT）和mBERT-MT（使用多语言BERT）.系统对远距离监控的装置进行了一系列的消融研究和其他实验,以评估选择不同参数的影响.

数据语言的影响：

–中文/英语：没有步骤2的同一系统（即,S1）,带有中文同义词和它们的英语镜像；

–仅中文：仅具有中文术语的S1

–仅英语：仅具有英文镜像术语的S1

预训练嵌入的影响：

与camemBERT和BERT对比：将系统与仅使用中文数据训练的BERT嵌入、仅使用英语的BERT对比,评估多语言嵌入模型.

更多中文术语的影响（与UMLS2019比较）：使用2019AB版本的UMLS进行一项实验,其中包含154 K带有中文同义词的概念,而不是2014AB版本中的89 K.通过此系统（UMLS2019）,实验旨在展示将新概念添加到用于远程监督的术语中的影响.

两步架构的影响（与1步架构系统比较）：使用所有同义词（EN5中的中文和英语）训练S1,并且没有使用冻结嵌入执行大规模局部概念嵌入学习.这是一个更加耗时和消耗内存的实验,它将使实验能够估计模型预训练的质量以及成本与质量之间可能的权衡.

3.2 超参数选择

实验均使用Yidu-S4K数据集的训练集进行训练,在其测试集上进行评估.并通过远程监督设置选择训练集上的最佳性能值来确定超参数.

3.3 结果分析

将超参数检索的结果（大小为759的标签）嵌入空间投影到大小为350的空间中,余弦相似度缩放参数s为20,同时设置转换器和投影层的丢包率为0.2.批处理大小设置为128,最大同义词词条数设置为100,最大学习率设置为lBERT=2e-5和lconcept=lproj=8e-3.在Adam中设置参数为β1=0.9和β2=0.999.在大规模局部概念嵌入学习中,实验为每个同义词预选了k=100个最高评分概念.实验对除S1FR和S1EN之外的模型进行15个周期（单次训练迭代）步骤1的训练以及5个周期的步骤2训练.因为对于相同数量的概念,S1FR和S1EN包含的同义词较少,需要分别训练30个和20个周期.使用相同的阈值0.5过滤所有S1系统预测,使用阈值0.1过滤S2系统预测.在所有实验中都对多语言预训练BERT模型进行了微调.

远程监控系统MLNorm S2在没有概念标签的训练数据的情况下获得了较好的结果（表1）.它甚至达到了迄今为止在MEDLINE 2015语料库上发布的最佳的全监督系统相同的结果（F1=0.735 VS.F1=0.736）,并且胜过了2016年版的所有参与者.监督系统S2sup在MEDLINE和EMEA语料库,准确率和查全率均较高.在MEDLINE上的性能大大优于其他系统.在EMEA 2015和2016上的表现也优于其他监督系统.

表1 2015年、2016年语料库上的主要结果以及与实验结果的比较Tab.1 Comparison between theresults on the corpus in 2015 and 2016 and theexperimental results

使用多语言术语和嵌入模型建立模型,规范非英语资源的医学概念.即使在无监督的情况下,中文医学概念规范化建设也取得了较好的结果；
当创建新的类（概念）时，无需从头开始重新训练模型，解决了用于动态类集的传统分类方法的常见问题，确保了系统的鲁棒性.

猜你喜欢术语实体概念 Birdie Cup Coffee丰盛里概念店现代装饰(2022年1期)2022-04-19概念飞行汽车，它来了！车迷(2022年1期)2022-03-29知识图谱的候选实体搜索与排序①计算机系统应用(2021年11期)2022-01-06实体书店步入复兴期？当代陕西(2019年5期)2019-03-212017实体经济领军者21世纪商业评论(2018年3期)2018-03-02文学术语词典中的“经典”:艾布拉姆斯的《文学术语汇编》英美文学研究论丛(2017年2期)2017-03-01古代的时间概念数学大王·低年级(2016年11期)2016-09-10深入概念，活学活用初中生世界·八年级(2016年8期)2016-05-14关于推动实体书店经营发展的几点思考现代出版(2014年6期)2014-03-20

Tags：语料中文规范化

上一篇：制备HD-P-Si/GS锂离子电池负极材料
下一篇：“双高”背景下高职院校智能制造专业群建设研究