近日,公司师生在计算机学科国际期刊《Complex & Intelligent System》上发表了题为《Chinese Named Entity Recognition method based on multi-feature fusion and biaffine》的学术论文,作者为Xiaohua Ke(柯晓华,第一作者、通讯作者、导师)、 Xiaobo Wu(吴晓博,第二作者,2022级计算机技术专业研究生)。
《Complex & Intelligent Systems》目前是全球计算机科学领域的SCI期刊,该刊主要发表有关复杂系统、计算机模拟、智能分析和可视化等广泛领域之间相互影响的新方法、工具和技术。当前影响因子为5.8,在中国科学院和科睿唯安JCR分区中均属于Q2类期刊。
论文运用生成式大模型算法,对中文命名实体识别的模型如何融入汉字字形和音形特征、如何识别中文嵌套实体的边界等问题展开研究和实践。提出了一种基于多特征融合中文嵌套命名实体识别方法:一方面在预训练语言模型中融入字形、拼音和字符等信息,尤其是尝试从字形字体来提取字符语义,兼顾解决汉语中常见的同字异义问题;另一方面,在解码层引入了双仿射注意力机制,提供了输入的全局视图,将实体识别问题转化为跨度分数分配问题,提高了对嵌套实体的边界识别的准确性,有效提高了嵌套实体识别的准确率。在公共数据集上Resume、People daily 和 MSRA上进行实验,验证了模型的有效性。
论文主要算法过程
初稿:吴晓博
审核:陈劲鸥
终审:王连喜、柯晓华