基于改进边界偏移预测网络的中文茶叶病虫害命名实体识别方法

谢宇鑫; 危疆树; 张尧; 李芳

doi:10.12133/j.smartag.SA202505007

智慧农业 >

2025 1 - 13

DOI: https://doi.org/10.12133/j.smartag.SA202505007

基于改进边界偏移预测网络的中文茶叶病虫害命名实体识别方法

谢宇鑫 ,
危疆树 ,
张尧 ,
李芳

展开

四川农业大学信息工程学院，四川雅安 625000，中国

危疆树，副教授，研究方向为农业信息工程。E-mail： weijiangshu66@163.com

谢宇鑫，硕士研究生，研究方向为自然语言处理，命名实体识别。E-mail： 1958033734@qq.com

收稿日期: 2025-05-07

网络出版日期: 2025-08-01

基金资助

教育部产学合作协同育人项目(22097077265201)

雅安市数字农业工程中心建设项目

收起

Chinese Tea Pest and Disease Named Entity Recognition Method Based on Improved Boundary Offset Prediction Network

XIE Yuxin ,
WEI Jiangshu ,
ZHANG Yao ,
LI Fang

Expand

College of Information Engineering, Sichuan Agricultural University, Yaan 625000, China

WEI Jiangshu, E-mail: weijiangshu66@163.com

XIE Yuxin, E-mail: 1958033734@qq.com

Received date: 2025-05-07

Online published: 2025-08-01

Supported by

The University Industry Collaborative Education Program(22097077265201)

Ya'an Digital Agriculture Engineering Center Construction Project

Copyright

Fold

摘要

【目的/意义】 中文茶叶病虫害文本中存在大量的嵌套实体和长实体，导致了中文茶叶病虫害命名实体识别（Named Entity Recognition, NER）的准确率不高。边界偏移网络（Boundary Offset Prediction Networks）能够预测候选实体的跨度和最近实体跨度的偏移值，扩展了每个文本跨度的预测范围，有效避免了不同类型实体之间的嵌套边界冲突。针对中文文本的长实体识别，提出了结合边界预测和标签增强的命名实体识别方法。 【方法】 首先，边界预测模块定位实体的开始位置，并利用注意力机制计算后续序列属于该实体的概率；其次，基于边界识别的结果设计标签增强，使用双仿射分类器将长实体与类别标签进行联合建模，将建模结果与模型的隐藏层条件归一化输出结合，增强标签分类能力；此外，注意到模型中卷积矩阵的对称性，结合压缩激励注意力机制的自适应通道加权和低秩分解，构建低秩线性层，替换原模型中线性层，提升性能的同时减少了线性层的计算量。 【结果和讨论】 自建中文茶叶病虫害命名实体识别数据集包含122 281个标注字符、2 967条标注语料句子，共9 020个实体。为了测试边界增强偏移网络在实体识别上的性能，与BiLSTM（Bidirectional Long Short-Term Memory）、SoftLexicon、Boundary Smooth等多种命名实体方法，包含基于序列和基于跨度的实体识别，并与基线模型，在自建数据集和ResumeNER、WeiboNER、CLUENER（Chinese Language Understanding Evaluation NER）、Taobao四个公开中文数据集上分别进行了对比实验。在五个数据集上分别取得了较好的F₁值。 【结论】 本研究提出的方法相比现有方法，它能更有效地识别中文茶叶病虫害文本中的实体，效果优于其他模型，并展现了良好的泛化性。

关键词： 命名实体识别; 中文茶叶病虫害文本; 自建数据集; 边界增强; 边界偏移

本文引用格式

谢宇鑫 , 危疆树 , 张尧 , 李芳 . 基于改进边界偏移预测网络的中文茶叶病虫害命名实体识别方法[J]. 智慧农业, 2025 : 1 -13 . DOI: 10.12133/j.smartag.SA202505007

Abstract

[Objective] Named Entity Recognition (NER) is vital for many NLP applications, including information retrieval and knowledge graph construction. While Chinese NER has advanced with datasets like ResumeNER, WeiboNER, and CLUENER(Chinese Language Understanding Evaluation NER), most focus on general domains such as news or social media. However, there is a notable lack of annotated data in specialized fields, particularly agriculture. In the context of tea plant diseases and pests, this shortage hampers progress in intelligent agricultural information extraction. These domain-specific texts pose unique challenges for NER due to frequent nested and long-span entities, which traditional sequence labeling models struggle to handle. Issues such as boundary ambiguity further complicate accurate entity recognition, leading to poor segmentation and labeling performance. Addressing these challenges requires targeted datasets and improved NER techniques tailored to the agricultural domain. [Methods] The proposed model comprised two core modules specifically designed to enhance performance in BOPN (Boundary-Oriented and Path-aware Named Entity Recognition) tasks, particularly within domains characterized by complex and fine-grained entity structures, such as plant disease and pest recognition. The Boundary Prediction Module was responsible for identifying entity spans within input text sequences. It employed an attention-based mechanism to dynamically estimate the probability that consecutive tokens belong to the same entity, thereby addressing the challenge of boundary ambiguity. This mechanism facilitated more accurate detection of entity boundaries, which was particularly critical in scenarios involving nested or overlapping entities. The Label Enhancement Module further refined entity recognition by employing a biaffine classifier that jointly models entity spans and their corresponding category labels. This joint modeling approach enabled the capture of intricate interactions between span representations and semantic label information, improving the identification of long or syntactically complex entities. The output of this module was integrated with conditionally normalized hidden representations, enhancing the model's capacity to assign context-aware and semantically precise labels. In order to reduce computational complexity while preserving model effectiveness, the architecture incorporated low-rank linear layers. These were constructed by integrating the adaptive channel weighting mechanism of Squeeze-and-Excitation Networks with low-rank decomposition techniques. The modified layers replace traditional linear transformations, yielding improvements in both efficiency and representational capacity. In addition to model development, a domain-specific NER corpus was constructed through the systematic collection and annotation of entity information related to tea plant diseases and pests from scientific literature, agricultural technical reports, and online texts. The annotated entities in the corpus were categorized into ten classes, including tea plant diseases, tea pests, disease symptoms, and pest symptoms. Based on this labeled corpus, a Chinese NER dataset focused on tea plant diseases and pests was developed, referred to as the Chinese tea-pad dataset. [Results and Discussions] The Chinese tea-pad dataset comprised 122 281 annotated characters and 2 967 sentences, containing a total of 9 020 entities across multiple professional entity categories, including disease names, pest names, affected plant parts, and symptom descriptions. The dataset featured a standardized structure and a clear hierarchical organization, effectively supporting the training and evaluation of NER models. Extensive experiments were conducted on the constructed dataset, comparing the proposed method with several mainstream NER approaches, including traditional sequence labeling models (e.g., BiLSTM-CRF), lexicon-enhanced models (e.g., SoftLexicon), and boundary smoothing strategies (e.g., Boundary Smooth). These comparisons aimed to rigorously assess the effectiveness of the proposed architecture in handling domain-specific and structurally complex entity types. Additionally, to evaluate the model's generalization capability beyond the tea disease and pest domain, the study performed comprehensive evaluations on four publicly available Chinese NER benchmark datasets: ResumeNER, WeiboNER, CLUE, and Taobao. Results showed that the proposed model consistently achieved higher F₁-Scores across all datasets, with particularly notable improvements in the recognition of complex, nested, and long-span entities. These outcomes demonstrate the model's superior capacity for capturing intricate entity boundaries and semantics, and confirm its robustness and adaptability when compared to current state-of-the-art methods. [Conclusions] In summary, the study presented a high-performance NER approach tailored to the characteristics of Chinese texts on tea plant diseases and pests. By simultaneously optimizing entity boundary detection and label classification, the proposed method significantly enhanced recognition accuracy in specialized domains. Experimental results demonstrated strong adaptability and robustness of the model across both newly constructed and publicly available datasets, indicating its broad applicability and promising prospects.

Key words： named entity recognition; Chinese tea pest and disease text; self-built dataset; boundary enhancement; boundary offset

0 引言

茶叶作为重要经济作物，其病虫害严重威胁产量与品质。茶叶的相关文本数据主要围绕茶叶的病害和虫害的特征，以及防治措施进行撰写。而传统依赖专家的识别方法效率低、难规模化。命名实体识别（Named Entity Recognition, NER）为自动化提取茶叶病虫害相关文本中的关键信息（如病虫害名称、症状、防治方法等）提供了新的解决方案^［1］。然而，在现有的命名实体识别公共数据集中，缺乏针对茶叶病虫害领域的命名实体识别数据集，制约了相关模型的训练与应用^［2］。为此，本研究通过系统收集和标注茶叶科研文献、农技报告及网络文本中的病虫害实体信息^［3］，构建了一个面向茶叶病虫害领域的命名实体识别语料库，为茶叶病虫害智能诊断、知识图谱构建及农业信息检索等任务提供高质量的数据支持^［4］。

命名实体识别的任务是识别文本中的命名实体，如组织、杂项实体、人名和地点等。目前，NER 被广泛应用于各种下游任务中，包括信息抽取^［5］、自动问答^［6］、机器翻译^［7］和文本摘要^［8］等。

基于深度学习的NER方法有两种路线。一种是基于序列标注的方法^［9］，这类方法通过使用如 BIO（Begin-Inside-Outside）^［10］和BMES（Begin-Middle-End-Single）^［11］等标注方案，将句子中的每个词与其对应的标签关联起来。这类方法允许进行全局优化，并有效捕捉上下文信息，从而提高实体识别的准确性。然而，这类方法在处理嵌套实体和长距离依赖时存在困难。

基于片段的命名实体识别^［12］是一种通过直接枚举文本中的候选片段并对其进行分类的识别方法。这类方法能够有效处理嵌套实体和长距离依赖，相比序列标注方法具有更大的灵活性。例如端到端神经共指消解模型（End-to-end Neural Coreference Model）^［13］将片段枚举用于命名实体识别任务中，之后基于文本片段的联合实体与关系抽取的关注模型（Span-based Entity and Relation Transformer, SpERT）^［14］对片段进行分类。这两个片段分类模型证明了将实体识别任务分为判断片段是否为实体和对片段进行分类，并将其联合建模的方法是一个有效的命名实体识别方法。

针对片段命名实体识别的任务目标，国内外研究者进行了许多研究。基于文本片段的BERT预训练模型（Improving Pre-training by Representing and Predicting Spans, SpanBERT）^［15］通过连续的随机片段遮掩和预测被遮掩片段的起始和结束位置，作为预训练模型增强了片段级的语义理解；边界增强型神经跨度分类模型（Boundary Enhanced Neural Span Classification, BENSC）^［16］中使用了两个二分类器分别预测实体的开始和结束位置，组合有效的边界对生成片段，减少了无效的片段枚举，提升预测效率。针对获得识别片段的起始和结束位置，基于双仿射注意力的命名实体识别模型（Biaffine for NER）^［17］使用双仿射注意力机制联合建模实体片段的起始和结束位置，显式建模边界，但是存在计算复杂度较高的问题；用于嵌套命名实体识别的两阶段识别模型（Locate and Label：A Two-stage Identifier for Nested Named Entity Recognition）^［18］通过指针网络进行边界检测以减少候选片段的数量；三仿射嵌套实体识别模型（Triaffine Nested NER）^［19］在基于双仿射注意力的命名实体识别模型的基础上引入三仿射变换，在起始和结束边界建模的同时，还与片段内部的表征信息进行联合建模。

有研究发现，判断片段为实体的过程可以看作一个词对关系预测任务，将片段实体识别看作一个词对关系分类，可以将一维的句子序列，转换为更高维度的关系信息。基于词对关系分类的命名实体识别模型（Word-Word Relation Classification NER, W2NER）^［20］构建了词对关系矩阵，对词对关系进行标记，并通过关系矩阵解码实体片段，其优点是能够统一处理扁平、嵌套或者不连续的实体。

另有研究发现，为解决嵌套实体识别中边界模糊和微小变化不敏感，关键在于对文本跨度语义差异的精细化感知与噪声过滤。基于W2NER的研究成果，边界感知语义区分过滤网络（Boundary-Aware Semantic Differentiation and Filtration Network, DiFiNet）^［21］模型设计了边界感知与语义区分相结合的方法，显著提升了模型对嵌套结构中实体边界和内部变化的识别能力。

基于片段方法面临的挑战，通过边界偏移预测网络^［22］（Boundary Offset Prediction Network, BOPN）提出了一种模型，该模型构建词对关系矩阵利用边界偏移信息作为监督信号，而不是预测文本片段属于某个实体的概率，为命名实体识别方法提出了一种新的预测思路。BOPN专注于预测候选片段与其最近实体之间的边界偏移，为建模文本片段提供了新的视角。此外，它创新性地训练了标签与实体之间的关系，在预测过程中建立了每个标签与句子特征之间的联系。然而，BOPN预测的偏移值受正样本的影响较小，且容易受到非实体词的干扰。因此，在正样本较少的情况下，尤其是处理较少的长实体时，无法得到预期的效果。

为了解决BOPN中存在的问题，本研究从前人研究^{［23, 24］}的方法中得到启发，计算给定实体起始词时，后续序列中为实体内容的概率，从而得到片段的表示，使得句子中的实体能够影响偏移值。然而，这种方法仅在序列标注方法中表现良好，在基于片段的方法中效果有限。因此，本研究提出了一个基于边界预测和标签增强的跨度预测命名实体识别模型，二者总结为边界增强方法。检测输入序列的实体开始词位置，构建能够有效表示实体片段的概率矩阵，并对实体片段的概率进行标签分类。除此之外，结合压缩激励注意力机制的自适应通道加权和低秩分解，构建低秩线性层。

1 数据与处理

1.1　数据集构建

由于国内缺少中文茶叶病虫害文本的公开标注数据集，本研究从百度百科、《茶树病虫害识别及绿色防控》《茶叶病虫害防治原色图谱》《茶学综合实验》和《庄稼医生手册》中收集茶叶病虫害相关领域的文本信息作为基础语料。经过人工处理，删除了与茶叶病虫害无关的干扰内容，并将茶叶病虫害领域实体分为茶叶病害、茶叶虫害、病害症状、虫害症状等10个类别，如表1所示。构建的数据集包含122 281个标注字符、2 967条标注语料句子，共9 020个实体。

表1 中文茶叶病虫害文本命名实体识别数据集信息统计表

Table 1 Information statistics table of Chinese tea pest and disease text named entity recognition dataset

标签	类别定义	示例	实体数量/个
DISEASE	病害（Disease）	茶炭疽病病	196
PEST	虫害（Pest）	茶尺蠖	622
PART	受害茶叶的部位（Part）	成叶、嫩叶	836
LOC	地区（Location）	四川、安徽、江苏	1 066
COL	颜色（Color）	黑褐色、淡黄色	1 641
SHA	形状（Shape）	椭圆形、灰白色尘末状	1 272
OPE	防控操作（Operator）	选用抗病品种、加强茶园管理	956
MED	处理受害的药剂（Medicine）	马拉硫磷乳油、晶体石硫合剂	942
FEA	病虫特征（Feature）	浅黄色蜡粉、暗褐色波状横纹	872
SYM	受害症状（Symptom）	水渍状暗绿色病斑、树势衰弱	617

1.2　数据集标注与特征处理

采用BIO标注方案对数据集进行标注，其中B表示实体名称的起始实体，I表示实体的中间位置，O表示非实体元素，最终得到含有122 281个标注字符的中文茶叶病虫害命名实体识别数据集，命名为Chinese tea-pad（Chinese tea pest and disease）。中文茶叶病虫害文本存在大量的嵌套实体和长实体，为了在训练时减少不同类别之间混淆实体产生的影响，在对实体标注时，制定了一些规则。通过分析表1的标签类别，COL、SHA、FEA、SYM容易形成嵌套实体。例如，“灰白色”和“尘末状”分别表示COL和SHA两个类别，但是二者结合表达的意思，更偏向于SHA这个类别；而“暗褐色波状横纹”这个实体表达的是病虫的一个特征（FEA），其中“暗褐色”“波状”“横纹”分别代表三个类别。因此在标注时，对于多个单一实体组合的嵌套实体，应该结合实际语义进行整体标注。较多的嵌套实体会对模型的识别性能有更高的要求。

为了增强模型对嵌套实体的识别能力，同时为了在后续的知识图谱构建工作中减少混淆的实体，本研究在进行实体标注时，在部分嵌套实体的句子中加入中间词进行区分。如在实体“水渍状暗绿色病斑”中，在“水渍状暗绿色”和“病斑”两个实体中间加入中间词“的”，将这个实体分隔为“水渍状暗绿色的病斑”，在进行标注时，对“水渍状暗绿色”标注为SHA标签，对“病斑”标注为SYM标签，这样能先强调病斑，再对病斑进行修饰。而在实体“黄褐色水浸状斑”中，为了强调“斑”的特性，不用添加中间词进行区分。加入中间词以实体在句子中的语义为主，将嵌套实体中包含的嵌套实体数控制在三个及以下。通过模型对加入中间词前后的学习，模型能够更好地区分嵌套实体和其子实体。数据集标注的示例如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 中文茶叶病虫害数据集标注示例

Fig. 1 Example of dataset labeling for Chinese tea pest and disease

2 研究方法

2.1　基于边界偏移预测的命名实体识别方法定义

命名实体识别旨在从预定义的实体类别集合

Y = y m m = 1 M

中识别输入句子

X = x n n = 1 N

中存在的所有实体，通常由其词边界及其对应的实体类型定义。本研究提出的方法基于边界预测网络进行改进，它是一种基于词对关系分类的命名实体识别方法，专注于预测每个候选文本片段与其对应的最近实体之间的边界偏移。在原型网络结构中，对句子

x i ∈ X

和标签

y m ∈ Y

，使用一个元组来表示每个文本片段：

x i, x j, O^, y m

，其中，

x i

和

x j

分别表示文字段的起始和结束索引，

O^

表示该片段相对于标签类别

y m

的偏移量。规定坐标

(i, j)

为黄金位置，并标记为0，

i, j

分别表示实体开始词和结束实体在序列中的索引。使用

n E, n S

表示距离黄金位置的最近实体的距离，

n

表示偏移值，范围为［-S，…，-1，0，1，…，S］或［-E，…，-1，0，1，…，E］，E和

S

表示预定义的最大偏移值，若检测的实体离实体开始词近，则用

S

表示，反之则用

E

表示。边界偏移的过程如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 边界偏移方法示意图

Fig. 2 Schematic diagram of boundary offset

边界偏移预测过程主要分为三个阶段：边界编码器、边界解码器和偏移预测。首先，模型对标签和句子

X

进行编码。对于标签，构建一个一维矩阵

H M Y ∈ ℝ M × h

，其中，

M

表示标签类别的数量。对于句子，使用循环神经网络输出的隐藏向量序列

H X ∈ ℝ N × h

进行编码，然后根据

H X

使用条件归一化方法构建一个二维矩阵

O s ∈ ℝ N × N × h

，其中，

N

是句子长度，构建二维矩阵

O s

中元素

h i j

的方法如公式（1）所示。

h i j = F F N (h j) ⊗ N o r m h i + F F N (h j)

（1）

式中：

h i, h j ∈ H X; i, j ≤ N; F F N ()

代表全连接前馈神经网络；Norm（）^［25］表示条件归一化函数。

使用双仿射分类器^［26］，对编码的标签

H M Y

和

O s

进行分类，构建一个三维矩阵

O ∈ ℝ M × N × N × h

，如公式（2）所示。

O = B i a f f i n e (H M Y, O s)

（2）

式中：Biaffine（）表示双仿射函数。

然后，对矩阵

O

的黄金位置进行预测，以对实体起始词位置和结束词位置进行预测，并将对应的黄金位置的值标记为0。最后，使用卷积层计算所有非实体片段相对于中心实体标签的偏移值。根据它们在实体之前或之后的位置，使用

S

或

E

表示最大偏移值。如果绝对最小偏移值小于

E

，将相应的片段标注为

* S

或

* E

。否则，不进行标注。边界偏移预测的结果是元组中的三维矩阵

O^∈ ℝ M × N × N × h

。

在训练阶段，将输入序列进行预处理，得到图2所示的边界偏移矩阵，本研究中令其为

Q m

，在标签维度上进行扩张，使用损失函数计算预测的三维矩阵

O^

与边界偏移矩阵

Q m

的损失值。

2.2　改进模型结构

本研究将基于改进边界偏移预测网络的命名实体识别模型命名为Be-BOPN（Boundary Enhance-Boundary Offeset Prediction Network），其总结构和边界预测模块如图3所示，该模型以边界偏移预测模型为基线模型使用边界增强方法进行改进。边界增强方法分为边界预测模块和标签增强两个部分，边界预测负责获得实体的边界信息，提升模型对实体边界信息的识别能力；标签增强负责将边界信息与类别进行建模，提升标签对实体的敏感程度。同时删除原模型中使用双仿射分类器将标签和隐藏向量构建三维矩阵的过程，直接对条件归一化后的隐藏向量输出升维并融合标签增强得到的矩阵进行卷积运算，将压缩注意力机制中的自适应通道加权方法和低秩分解方法进行结合，用于优化线性层，在保持性能的同时减少线性层计算的参数量。

显示原图|下载原图ZIP|生成PPT

图3 Be-BOPN模型的总体框架图和边界预测模块框架图

Fig. 3 Overall framework of the Be-BOPN model and the boundary prediction module

2.3　边界预测

本研究为经过编码的句子隐藏向量序列

H X ∈ ℝ N × h

构建边界预测矩阵

O p ∈ ℝ N × N × h

。首先对句子序列的隐藏层输出进行学习，获取句子序列中实体开始词的位置信息，通过位置信息构建掩码序列对隐藏向量序列

H X

进行筛选，再与隐藏向量序列

H X

计算注意力得分。

首先介绍使用长短期记忆网络-条件随机场模型（Long Short-Term Memory-Conditional Random Field, LSTM-CRF）进行命名实体识别的简单过程。LSTM-CRF网络首先通过句子序列

X

进行字符嵌入获得

X - E m b e d d i n g

序列，然后对将嵌入序列作为LSTM层的输入，获得隐藏层输出

H

，为连接CRF进行序列标注，需要将隐藏层输出

H

表示为各个类别的分数，因此在LSTM层后接入一个全连接层，通过归一化指数函数（Softmax）将向量映射为一个有N个数值的分布概率，如

< B

，

I

，

O

，

S t a r t

，

E n d >

。

边界预测需要获得序列中实体开始词的位置信息，在BIO标注体系中，实体开始词标注为

B

。借助LSTM-CRF网络获得实体标注的原理，边界预测模块将隐藏向量序列

H X

接入全连接层，通过Softmax将向量映射为3个数值的分布概率，即

< B, I, O >

。然后筛选出实体开始词的位置，并构成掩码序列

m a s k i

，对隐藏向量序列

H X

进行筛选，得到实体开始词的隐藏向量

h i

。如公式（3）和公式（4）所示。

m a s k i = 1 i f a r g m a x S o f t m a x H X =' B' 0 o t h e r w i s e

（3）

h i = H X · m a s k i

（4）

式中：Softmax（）表示对隐藏向量序列

H X

通过全连接层后使用的Softmax激活函数。

使用双线性注意力机制，计算实体开始词的隐藏向量

h i

与隐藏向量序列

H X

的注意力得分，其含义是计算某实体中实体开始词位置为i的单词

W o r d i

（隐藏向量

h i

），后续序列中位置为j的单词

W o r d j

（隐藏向量

h j

）属于该实体的概率

p j i

。使用双线性注意力机制计算注意力得分如公式（5）所示

p j i = σ (h i W h j)

（5）

式中：

W ∈ ℝ M × h

是可学习参数；

σ

表示Sigmoid函数，用于归一化注意力得分。对给定序列生成的多个

p j i

集合，经过对应位置的数据扩充，生成概率矩阵

O p

，称为边界预测概率矩阵。

本研究将边界预测概率矩阵

O p

与输入序列的跨度表示矩阵

O s

使用门控机制进行融合，融合矩阵表示为

O s'

。如公式（6）和公式（7）所示。

O s' = 1 - g a t e ⊙ O s + g a t e ⊙ O p

（6）

g a t e = σ (L i n e a r 1 (O p, W g))

（7）

式中：

⊙

表示逐元素相乘；

W g

是可学习参数；

L i n e a r 1

（）表示线性计算。

2.4　标签增强

对于标签增强模块，目的是将边界预测概率矩阵

O p

与经过编码的标签序列

H M Y

进行结合，得到某字段即是实体又是某标签的组合概率。使用双仿射分类器进行计算，边界预测与实体类型的融合过程如公式（8）和公式（9）所示。

u i j' = u : 1

（8）

e m i j = h m' T U u i j' + W (h m' ⊕ u i j') + b

（9）

式中：

U ∈ ℝ M × h × h

和

W ∈ ℝ M × 2 × h

是双线性分类器中的可学习参数，

h

表示隐藏向量大小；

u

表示边界预测概率矩阵

O p

中的概率

p j i

；

h m ∈ H M Y

，表示标签序列中的隐藏向量，

h m'

是和

u

进行与公式（8）相同操作的结果；

e m i j

表示位置

i, j

处的实体是标签

m

的概率；b是初始化为负值的偏置项；⊕表示逐元素相加运算。本研究将

e m i j

集合为标签增强概率矩阵 E

∈ R M × N × N × h

，其中N为序列长度。将标签增强概率矩阵 E 与

O s'

按标签数量进行维度扩充后的矩阵进行融合，即公式（10）。

O^s = O s' + O s' ⊙ E

（10）

2.5　轻量化卷积层

对于卷积层，目的是对与边界融合后的矩阵

O s

进行特征提取，得到和文本片段元组一样的元组特征，并用其中的偏移量计算损失。

本研究使用的原型网络结构使用空洞卷积进行特征提取，不仅能够高效捕捉局部特征并保持空间结构信息，还能针对不同实体长度进行特征提取，提升特征提取的灵活性。

对于包含标签和句子融合特征的矩阵

O^s

，使用空洞率为｛1，2，3｝的空洞卷积分别进行卷积计算，获得不同空洞率下的特征值

Q n (n = 1,2, 3)

，如公式（11）所示。

Q n = 3 D C o n v (σ (O^s)), n = 1,2, 3

（11）

式中：

σ

表示激活函数，在本研究中使用高斯误差线性整流函数（Gaussian Error Linear Unit, GELU）作为激活函数，这种激活函数在保持线性整流函数（Rectified Linear Unit, ReLU）激活函数优势的同时显著提升了深层网络的训练稳定性和特征表达能力。随后，将

Q n

进行特征融合，如公式（12）所示。

Q^= L i n e a r Q 1 ⨁ Q 2 ⨁ Q 3

（12）

式中：

⨁

表示对相同维度的矩阵进行逐元素相加；

L i n e a r 2 ()

表示线性层，本研究将在后面对

L i n e a r 2 ()

进行解释。

由于二维矩阵

O s

是一个包含对角线的上三角矩阵，因此在将

O s

与标签序列

H m Y

进行分类后的融合矩阵

O^s

，它在第三个维度m上也是上三角矩阵。为降低计算复杂度，使用低秩分解进行运算，在降低计算复杂度的同时，保持了性能。对于

Q n

中的元素

z i, j, m

，使用压缩激励注意力机制中的自适应通道加权，如公式（13）所示，并使用低秩分解对 Q 进行计算，式（14）所示。

Q = Q n ∙ σ R e L U G A P z W 1 W 2

（13）

Q^= Q W 3 W 4 + b

（14）

式中：

W 1 和 W 2

分别是用于通道加权时降维和升维的权重矩阵，大小分别为

W 1 ∈ ℝ C × C r 1 × h

，

W 2 ∈ ℝ C r 1 × C × h

；

r 1

为通道压缩率；C表示标签类别数；GAP代表全局平均池化；公式（14）中

W 3, W 4

分别是用于低秩分解时降维和升维的权重矩阵，大小分别为

W 3 ∈ ℝ l × l × h × r 2

，

W 4 ∈ ℝ r 2 × l × l × h

；

r 2

为低秩分解的中间维度，用于控制特征空间的降维程度；

l

代表句子长度。经过公式（13）和公式（14），使用结合了压缩激励注意力机制中的自适应通道加权和低秩分解的方法对线性层进行了替换。

最后为了使标签区分型概率矩阵 E 能够有效发挥作用，本研究将其与卷积层进行门控融合。由于 E 包含标签增强信息，本研究将其整合到卷积层的偏移预测组件中，这使得偏移预测能够参考边界范围信息。门控融合方式同公式（6）和公式（7）。

2.6　训练

在推理阶段，本研究将该任务视为一个多类别分类问题，在为每个文本片段预测其在不同类别上的边界偏移量。为了更准确地获取文本片段的概率分布，沿着标签维度对矩阵

Q^

中的元素进行如下归一化处理，得到预测的边界偏移矩阵

P m

，如公式（15）所示。

P m = S o f t m a x Q^m

（15）

式中：m表示矩阵

Q^

中m的维度方向，代表沿着标签的维度进行归一化计算。

在边界预测模块中，使用了argmax激活函数和掩码用于得到实体开始词的位置信息，而该方法具有离散性，无法进行反向传播，因此在推理阶段要对边界预测模块中通过隐藏向量获得实体开始词的位置信息这一部分进行损失函数设计。本研究对公式（3）中使用Softmax激活函数映射隐藏向量的过程进行学习，如公式（16）所示。

P B I O = s o f t m a x H x

（16）

对于多分类问题，使用交叉熵损失函数作为本研究所使用的损失函数，使用

L o s s m

表示模型偏移量的损失值，使用

L o s s B I O

表示公式（3）计算实体开始位置的损失值。各损失值的计算如公式（17）和公式（18）所示。

L o s s m = - 1 M N 2 ∑ m = 1 M t r (Q m T l o g (P m))

（17）

L o s s B I O = - 1 S ∑ B I O = 1 S l o g P B I O

（18）

式中：M和N分别代表标签种类和句子长度；

S

代表BIO分类的数量，固定为3，分别表示B，I，O三个标注；

l o g ()

表示对数函数，

t r ()

表示矩阵的迹，

Q m T

表示边界偏移矩阵

Q m

的转置。

最后将两个部分的损失函数进行加权联合训练，进行加权的目的是减小边界预测模块对最后分类的干扰。加权联合训练如公式（19）所示。

L o s s = L o s s m + α L o s s B I O

（19）

式中：

α

代表权重。

3 实验结果及分析

3.1　实验设置

3.1.1　公共数据集及数据设置

本研究在4个公共中文数据集和自建数据集上进行了实验，公共数据集的统计信息如表2所示。本研究使用的数据集统一为BIO标注的文本文件，自建茶叶病虫害文本数据集按训练集：测试集：验证集=7∶2∶1的比例进行划分。

表2 中文公共数据集统计信息

Table 2 Chines public dataset statistics

数据集	划分	句子数	实体数	类别	数据集	划分	句子数	实体数	类别
ResumeNER^［27］	训练集	3 821	13 343	8	CLUENER（Chinese Language Understanding Evaluation NER）^［29］	训练集	10 748	23 971	10
	测试集	477	1 630			测试集	1 343	3 072
	验证集	463	1 488
WeiboNER^［28］	训练集	1 350	1 885	4	Taobao^［30］	训练集	6 000	29 397	4
	测试集	270	414			测试集	1 000	4886
	验证集	270	389			验证集	998	4941

3.1.2　参数设置

实验使用的所有循环神经网络均采用1 024的隐藏层维度，并设置0.1的dropout率。最大偏移量S设定为2。针对所有数据集，本研究采用Adam优化器，配合线性学习率预热与衰减策略进行模型训练。训练周期数设置为50，批量大小因数据集大小在1到16之间。BERT模型的学习率统一设为1e-5，而其他组件的学习率为1e-3。Adam优化器的epsilon参数和预热因子分别设置为1e-8和0.1。所有实验均在同一台配备Intel（R）Core（TM）i9-10900K 3.70 GHz处理器和NVIDIA Quadro RTX 5000显卡的机器上完成。实验环境为Pytorch1.12.0，CUDA版本为11.6，Python版本为3.9。

在命名实体识别领域，通常采用F ₁值、精确度（Precision, P）和召回率（Recall, R）评估模型性能，本实验采用F ₁值、P和R作为评价指标，如公式（20）~公式（22）所示。

P = T P T P + F P × 100 %

（20）

R = T P T P + F N × 100 %

（21）

F 1 = 2 P × R P + R × 100 %

（22）

式中：TP表示真正例；FP表示假正例；FN表示假反例；F ₁表示P和R的调和平均数。

3.1.3　基线模型

为验证模型的有效性，本研究以中文命名实体识别中的三种深度学习方法作为对比依据，即基于序列标注、基于词典的序列标注和基于片段的实体识别选取了多个命名实体识别模型进行了对比实验，各模型的特点如表3所示。

表3 基线模型的介绍

Table 3 Introduction for basic models

模型	模型特点
BiLSTM-CRF（Bidirectional Long Short-Term Memory- Conditional Random Field）^［31］	基于双向LSTM和条件随机场，通过序列标注实现高效的扁平实体识别
Lattice^［27］	使用字符-词汇混合编码的方法，避免中文分词错误对NER的影响
Flat^［32］	一种基于扁平化结构的方法，通过优化Lattice架构显著提升中文NER效率
SoftLexicon^［33］	一种基于字符级词汇融合的方法，简化模型结构同时保持较高准确率
MECT（Multi-Metadata Embedding based Cross-Transformer）^［34］	一种基于汉字结构和字根特征的方法，可以通过多源语义融合增强中文NER效果
BOPN	通过预测候选跨度与实体跨度之间的边界偏移进行分类，有效捕捉实体的边界信息
W2NER	基于词对关系建模的方法，通过构建二维的词对网格来捕捉相邻词语关系，解决传统NER模型的边界识别问题
Boundary Smooth^［35］	使用概率重分配，通过平滑实体边界概率来提升模型泛化能力
DiFiNet^［21］	边界感知的嵌套NER模型，通过双仿射跨度表示和自适应语义区分模块解决现有方法边界检测弱、对小变化不敏感的问题，并利用边界过滤模块减轻噪声干扰

由于Lattice，Flat，SoftLexicon，MECT是基于词典的序列标注，均未使用Bert进行数据预处理，而是用预训练的词典进行预处理，其余模型均统一使用RoBERTa-wwm-pretrained-model预训练模型作为语句的词嵌入编码器。

3.2　在自建数据集上的实验

对比实验的结果如表4所示，Be-BOPN模型取得的F ₁值达82.76%，相较于其基础模型BOPN，F ₁值超过0.68个百分点；对比其他代表性的模型，超过0.37—9.33个百分点。该模型对比其他模型具有显著优势，得益于BOPN基于片段的命名实体识别方法在命名实体识别中处理嵌套实体方面有出色的表现；该模型对比BOPN有显著提升，得益于模型能够帮助BOPN获得更清晰的实体边界，并且使用该辅助信息帮助模型进行分类预测。

表4 Be-BOPN模型在中文茶叶数据集上的对比实验结果

Table 4 Comparative experimental results of Be-BOPN model on Chinese tea-pad dataset

模型	F ₁值/%	P/%	R/%
BiLSTM	73.43	70.83	76.23
Lattice	79.03	79.33	78.73
Flat	80.40	78.65	82.22
SoftLexicon	77.80	78.01	77.51
MECT	80.67	80.48	80.87
Boundary Smooth	82.39	80.39	84.61
W2NER	81.85	79.89	83.90
DiFiNET	82.31	80.99	83.68
BOPN	82.08	79.18	85.20
Be-BOPN-	82.76	80.36	85.31

注：表中粗体表示十个模型实验中的最佳结果。

此外，基于词典的命名实体识别模型，包括Lattice、Flat、SoftLexicon和MECT，对比基于片段的命名实体识别模型，包括Boundary Smooth，BOPN，F ₁值均低于Be-BOPN模型，进一步体现了Be-BOPN模型在对于中文茶叶病虫害文本的命名实体识别任务中的重要性。

3.3　在公开数据集上的实验

为验证改进模型的泛化能力，本研究在四个公开数据集上进行了实验，分别为ResumeNER、WeiboNER、CLUENER和Taobao。实验结果如表5~8所示。

表5 Be-BOPN模型在ResumeNER中文数据集上的对比实验结果

Table 5 Experimental results of Be-BOPN model on the ResumeNER Chinese dataset

模型	F ₁值/%	P/%	R/%
BiLSTM	91.87	92.32	91.42
Lattice	94.46	94.81	94.11
Flat	95.86	—	—
SoftLexicon	96.11	96.08	96.13
MECT	95.98	—	—
Boundary Smooth	95.59	95.41	95.77
W2NER	96.21	95.97	96.44
DiFiNET	96.41	96.50	96.32
BOPN	96.35	95.73	96.97
Be-BOPN	96.64	96.49	96.79

注：表中粗体表示十个模型实验中的最佳结果，“—”表示该指标暂无数据。

表6 Be-BOPN模型在WeiboNER中文数据集上的对比实验结果

Table 6 Experimental results of Be-BOPN model on WeiboNER Chinese dataset

模型	F ₁值/%	P/%	R/%
BiLSTM	48.21	51.47	45.34
Lattice	58.79	53.04	62.25
Flat	68.55	—	—
SoftLexicon	70.50	70.94	67.02
MECT	70.43	—	—
Boundary Smooth	72.66	70.16	75.36
W2NER	72.32	70.84	73.87
DiFiNET	73.21	72.51	73.91
BOPN	72.79	71.03	74.64
Be-BOPN	73.75	71.33	76.33

注：表中粗体表示十个模型实验中的最佳结果，“—”表示该指标暂无数据。

表7 Be-BOPN模型在CLUENER中文数据集上的对比实验结果

Table 7 Experimental results of Be-BOPN model on CLUENER Chinese dataset

模型	F ₁值/%	P/%	R/%
BiLSTM	72.35	74.18	70.61
Lattice	75.86	77.75	74.06
Flat	79.42	78.21	80.66
SoftLexicon	74.17	76.57	71.91
MECT	76.84	76.19	77.51
Boundary Smooth	79.54	79.48	79.89
W2NER	79.79	79.35	80.23
DiFiNET	80.02	80.12	79.92
BOPN	79.77	74.72	85.55
Be-BOPN	80.47	80.38	80.57

注：表中粗体表示十个模型实验中的最佳结果。

表8 Be-BOPN模型在Taobao中文数据集上的对比实验结果

Table 8 Experimental results of Be-BOPN model on Taobao Chinese dataset

模型	F ₁值/%	P/%	R/%
BiLSTM	77.20	77.81	76.59
Lattice	81.98	82.63	81.34
Flat	82.05	81.71	82.39
SoftLexicon	79.22	78.94	79.51
MECT	84.22	83.11	85.36
Boundary Smooth	87.94	87.35	88.55
W2NER	88.81	87.95	89.68
DiFiNET	88.81	88.38	89.25
BOPN	88.47	87.31	89.66
Be-BOPN	88.97	88.27	89.68

注：表中粗体表示十个模型实验中的最佳结果。

对比BOPN，在ResumeNER和CLUENER数据集上，由于实体分布均衡，实体较为独立，这些特性影响了实验效果，均出现了P上升和R下降的现象，而在WeiboNER和Taobao数据集上，由于实体分布不均，且文字偏向于网络用语，这些特性也会影响实验效果，P和R均出现上升的现象。但F ₁值在四个公共数据集均达到最佳效果，说明该模型在P和R之间取得了更好的平衡，具有更好的综合性能。

总之，本研究提出的模型在四个公共数据集上都取得了最佳的性能，说明该改进模型不仅在中文茶叶病虫害文本具有优势，还具备良好的泛化能力。同时说明了本研究使用边界信息进行边界增强的方法，在多个领域的文本中均有良好的效果。

3.4　消融实验

为了探究本研究中边界预测模块、标签增强模块和低秩线性层对模型性能的影响，在自建中文茶叶病虫害数据集上进行了消融实验，明确不同改进模块对自建数据集识别性能的影响，消融实验结果如表9所示。通过消融实验，本研究系统评估了边界增强方法对模型训练的影响，并验证了轻量化卷积层的有效性。

表9 消融实验结果

Table 9 Results of Ablation Experimental

试验	基础模型	边界预测	标签增强	轻量化卷积	F ₁值/%	P/%	R/%
1	√	—	—	—	82.08	79.18	85.20
2	√	√	—	—	82.17	80.78	83.60
3	√	—	√	—	82.33	80.84	83.89
4	√	—	—	√	82.34	79.72	85.14
5	√	√	—	√	82.25	80.88	83.66
6	√	—	√	√	82.21	79.47	85.14
7	√	√	√	-	82.38	79.73	85.20
8	√	√	√	√	82.76	80.36	85.31

注：“√”表示方案中采用，“—”表示方案中不采用，粗体数据表示在该指标下效果最好。

首先，从表9可以发现，模型中标签增强是效果最显著的模块，推测原因是实体边界概率为不同标签类型提供了明确的边界指示信息，从而显著提升了实体定位的精确度；其次边界预测模块的输出不仅作为边界增强的输入之一，自身也能通过增强词嵌入序列中实体边界特征的显著性，使后续卷积层能够更有效地提取关键的边界特征表示。

3.5　边界增强有效性研究

3.5.1　对实体长度的影响

为了验证本研究提出的边界增强方法的有效性，进行了独立的实验研究。将Be-BOPN模型与BOPN模型在不同长度实体预测方面的性能进行了对比。实验在中文茶叶病虫害数据集上进行，如图4所示。在对实体长度为1、7、8、9的实体进行识别时，Be-BOPN对比BOPN有非常显著的提升，除了对实体长度为6的实体进行识别时有小幅度下降，对其他实体长度的实体进行识别的性能均有提升。说明Be-BOPN模型在长实体的识别任务中具有更好的性能。

显示原图|下载原图ZIP|生成PPT

图4 不同长度实体在中文茶叶病虫害数据集上的表现

Fig. 4 Performance of entities of different lengths on the Chinese tea pest dataset

3.5.2　边界预测实例

本研究在自建中文茶叶病虫害命名实体识别数据集中选取自定义句子进行了实体边界可视化分析，以直观展示边界预测模块的表现。该可视化展示了句子中起始实体之后的序列特征：左纵轴表示LSTM编码器的输入特征（可视化使用BIO标注展示标签分类的分布），横轴则对应序列位置上目标序列位置在同一实体的概率，如图5所示。其中颜色较深的代表正确检测结束位置的概率。在例句“茶天牛的鞘翅上具浅褐色密集绢丝状绒毛。”中，存在实体“茶天牛”和“浅褐色密集绢丝状绒毛”，本研究提出的方法清晰准确地得到了例句中实体的概率，充分验证了本模块在实体检测方面的有效性。

显示原图|下载原图ZIP|生成PPT

图5 边界预测模块对实体边界预测的可视化

Fig. 5 Visualization of the entity boundary predictionfor boundary prediction module

3.6　各实体类别效果分析

表10对比了BiLSTM、SoftLexicon、BOPN和本研究提出的模型在不同实体分类上的识别效果，这四个模型分别代表了传统的基于序列标注，基于词典的序列标注，基于片段的实体识别和本研究改进模型。由于本模型采用联合训练的方式，且边界训练部分不对实体类别进行分类，会严重影响召回率的计算，因此本实验评价指标为精确度（P）。

表10 不同模型针对中文茶叶病虫害不同类别的识别精确度 (%)

Table 10 Identification effects of different models for different categories of tea diseases and pests

标签	类别定义	BiLSTM	SoftLexicon	BOPN	Be-BOPN
DISEASE	病害	69.15	96.69	79.46	81.18
PEST	虫害	69.15	90.58	99.98	99.99
PART	茶叶部位	62.53	65.41	79.02	81.52
LOC	地区	99.58	93.07	79.66	77.73
COL	颜色	90.96	92.67	80.49	78.71
SHA	形状	78.65	84.70	80.60	89.17
OPE	防控操作	74.04	70.58	80.10	81.30
MED	药剂	92.99	91.57	82.95	83.37
FEA	病虫特征	75.75	75.51	81.46	88.01
SYM	受害症状	76.10	66.50	82.26	83.02

注：表中粗体表示四个模型实验中的最佳结果。

首先，从表10可以看出，本研究提出的模型相比于BOPN在除了LOC（地区）和COL（颜色）类别略有下降，其他类别都有所提升，尤其是拥有大量嵌套实体和较长实体的FEA（病虫特征）和SHA（形状）类别，提升非常的明显，说明本模型对于较长的嵌套实体的识别具有明显的优势。相比于SoftLexicon和BiLSTM，在LOC（地区）、COL（颜色）、DISEASE（病害）和MED（药剂）这四个类别，本研究提出的模型存在准确率下降的情况，这是因为这四个类别在本研究构建的数据集中，文本位置较为独立，实体的上下文均有明显的区分，即便是经常作为嵌套实体一部分的COL（颜色）类别，也有如“的”这类词作为间隔进行区分；其次，本研究提出的模型专注于片段信息，但该方法受到数据集分类数量的影响，从表1中文茶叶病虫害文本命名实体识别数据集信息统计表可以发现，SHA（形状）、FEA（病虫特征）和SYM（受害症状）这三个类别均包含COL（颜色）类别的嵌套信息，在进行模型学习时，模型受到大量含有COL（颜色）类别的长嵌套实体的影响，在预测该类别时，模型会更倾向于预测含有COL（颜色）类别的长嵌套实体，会导致对COL（颜色）类别的忽略。

虽然在个别较为独立的类别中准确度有所下降，但是在长嵌套实体的识别中，本研究提出的模型相比其他模型有着非常明显的提升，进一步体现了其在长嵌套实体识别任务中的适应性。

4 结论与展望

本研究构建了关于中文茶叶病虫害的命名实体识别数据集，并在边界偏移预测网络的基础上提出改进，通过引入边界预测和标签增强捕捉实体边界信息并生成实体片段概率。该边界信息（具体表现为实体片段概率）随后与原始网络预测的关键位置进行交互，实现网络两部分的信息融合；为降低模型训练时的计算成本，结合压缩注意力机制与低秩分解来改进线性层预测实体偏移的部分。实验表明，改进后的模型在中文数据集上均优于现有模型，在长实体识别方面更具优势。

然而，所提出的方法仍存在一定局限性。尽管该模块旨在捕获实体边界信息，但由于序列中实体的稀疏性，计算得到的概率值绝对值并不高（但与非实体片段相比仍呈现十倍以上的差异）。此外，虽然本方法在实体片段检测方面表现良好，但在处理数据集中超长实体时可能增加计算成本。综上所述，未来研究需进一步探索如何缓解序列实体稀疏性导致的低概率值问题，并对计算成本进行优化。构建的数据集在类别数量上存在不平衡，这种不平衡会影响某一类别的识别效果。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	聂啸林, 张礼麟, 牛当当, 等. 面向葡萄知识图谱构建的多特征融合命名实体识别[J]. 农业工程学报, 2024, 40(3): 201-210. NIE X L, ZHANG L L, NIU D D, et al. Multi-feature fusion named entity recognition method for grape knowledge graph construction[J]. Transactions of the Chinese society of agricultural engineering, 2024, 40(3): 201-210.

[2]	王彤, 王春山, 李久熙, 等. 基于RoFormer预训练模型的指针网络农业病害命名实体识别[J]. 智慧农业(中英文), 2024, 6(2): 85-94. WANG T, WANG C S, LI J X, et al. Agricultural disease named entity recognition with pointer network based on RoFormer pre-trained model[J]. Smart agriculture, 2024, 6(2): 85-94.

[3]	齐梓均, 牛当当, 吴华瑞, 等. 基于双维信息与剪枝的中文猕猴桃文本命名实体识别方法[J]. 智慧农业(中英文), 2025, 7(1): 44-56. QI Z J, NIU D D, WU H R, et al. Chinese kiwifruit text named entity recognition method based on dual-dimensional information and pruning[J]. Smart agriculture, 2025, 7(1): 44-56.

[4]	计洁, 金洲, 王儒敬, 等. 基于递进式卷积网络的农业命名实体识别方法[J]. 智慧农业(中英文), 2023, 5(1): 122-131. JI J, JIN Z, WANG R J, et al. Progressive convolutional net based method for agricultural named entity recognition[J]. Smart agriculture, 2023, 5(1): 122-131.

[5]	陈瑛, 张晓强, 陈昂轩, 等. 基于信息抽取的食品安全事件自动问答系统方法研究[J]. 农业机械学报, 2020, 51(S2): 442-448. CHEN Y, ZHANG X Q, CHEN A X, et al. Methods of food safety question answering system based on LSTM[J]. Transactions of the Chinese society for agricultural machinery, 2020, 51(S2): 442-448.

[6]	韦婷婷, 葛晓月, 熊俊涛. 基于层级多标签的农业病虫害问句分类方法[J]. 农业机械学报, 2024, 55(1): 263-269, 435. WEI T T, GE X Y, XIONG J T. Hierarchical multi-label classification of agricultural pest and disease interrogative questions[J]. Transactions of the Chinese society for agricultural machinery, 2024, 55(1): 263-269, 435.

[7]	朱张莉, 饶元, 吴渊, 等. 注意力机制在深度学习中的研究进展[J]. 中文信息学报, 2019, 33(6): 1-11. ZHU Z L, RAO Y, WU Y, et al. Research progress of attention mechanism in deep learning[J]. Journal of Chinese information processing, 2019, 33(6): 1-11.

[8]	李金鹏, 张闯, 陈小军, 等. 自动文本摘要研究综述[J]. 计算机研究与发展, 2021, 58(1): 1-21. LI J P, ZHANG C, CHEN X J, et al. Survey on automatic text summarization[J]. Journal of computer research and development, 2021, 58(1): 1-21.

[9]	LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[DB/OL]. arXiv: 1603.01360, 2016.

[10]	TJONG KIM SANG E F, BUCHHOLZ S. Introduction to the CoNLL-2000 shared task: Chunking[C]// Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning. Morristown, NJ, USA: ACL, 2000: 127.

[11]	XUE N W. Chinese word segmentation as character tagging[C]// International Journal of Computational Linguistics & Chinese Language Processing (IJCLCLP), 2003, 8(1): 29-48.

[12]	SOHRAB M G, MIWA M. Deep exhaustive model for nested named entity recognition[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACL, 2018: 2843-2849.

[13]	LEE K, HE L, LEWIS M, et al. End-to-end neural coreference resolution [C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA:ACL, 2017: 188-197.

[14]	MARKUS E, ADRIAN U. Span-based joint entity and relation extraction with transformer pre-training[M]// ECAI 2020. Santiago de Compostela, Spain: IOS Press, 2020.

[15]	JOSHI M, CHEN D Q, LIU Y H, et al. SpanBERT: Improving pre-training by representing and predicting spans[J]. Transactions of the association for computational linguistics, 2020, 8: 64-77.

[16]	TAN C Q, QIU W, CHEN M S, et al. Boundary enhanced neural span classification for nested named entity recognition[J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(5): 9016-9023.

[17]	YU J T, BOHNET B, POESIO M. Named entity recognition as dependency parsing[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: ACL, 2020: 6470-6476.

[18]

SHEN

Y L

, MA

X Y

, TAN

Z Q

, et al. Locate and label: A two-stage identifier for nested named entity recognition[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA, USA: ACL, 2021: 2782-2794.

[19]	YUAN Z, TAN C Q, HUANG S F, et al. Fusing heterogeneous factors with triaffine mechanism for nested named entity recognition[C]// Findings of the Association for Computational Linguistics: ACL 2022. Stroudsburg, PA, USA: ACL, 2022: 3174-3186.

[20]	LI J Y, FEI H, LIU J, et al. Unified named entity recognition as word-word relation classification[J]. Proceedings of the AAAI conference on artificial intelligence, 2022, 36(10): 10965-10973.

[21]

CAI

Y X

, LIU

, GAN

Y L

, et al. DiFiNet: Boundary-aware semantic differentiation and filtration network for nested named entity recognition[C]// Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: ACL, 2024: 6455-6471.

[22]	TANG M H, HE Y Q, XU Y X, et al. A boundary offset prediction network for named entity recognition[C]// Findings of the Association for Computational Linguistics: EMNLP 2023. Singapore. Stroudsburg, PA, USA: ACL, 2023: 14834-14846.

[23]

, WANG

, HUI

S C

, et al. Modularized interaction network for named entity recognition[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Stroudsburg, PA, USA: ACL, 2021: 200-209.

[24]	LI J, SUN A X, MA Y K. Neural named entity boundary detection[J]. IEEE transactions on knowledge and data engineering, 2021, 33(4): 1790-1795.

[25]	Ulyanov, Dmitry, VedaldiAndrea, and LempitskyVictor. Instance normalization: The missing ingredient for fast stylization[EB/OL]. arXiv: 1607.08022, 2017.

[26]	DMITRYK, GOLDBERG Y. Deep biaffine attention for neural dependency parsing[EB/OL]. arXiv: 1611.01734, 2016.

[27]	ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: ACL, 2018: 1554-1564.

[28]	PENG N Y, DREDZE M. Named entity recognition for Chinese social media with jointly trained embeddings[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACL, 2015: 548-554.

[29]	XU L, DONG Q, LIAO Y, et al. CLUENER2020: Fine-grained named entity recognition dataset and benchmark for Chinese[EB/OL]. arXiv: 2001.04351, 2020.

[30]	JIE Z M, XIE P J, LU W, et al. Better modeling of incomplete annotations for named entity recognition[C]// Proceedings of the 2019 Conference of the North. Stroudsburg, PA, USA: ACL, 2019: 729-734.

[31]	MIWA M, BANSAL M. End-to-end relation extraction using LSTMs on sequences and tree structures[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: ACL, 2016: 1105-1116.

[32]	LI X N, YAN H, QIU X P, et al. FLAT: Chinese NER using flat-lattice transformer[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: ACL, 2020: 6836-6842.

[33]	MA R T, PENG M L, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: ACL, 2020: 5951-5960.

[34]

, SONG

X N

, FENG

Z H

. MECT: Multi-metadata embedding based cross-transformer for Chinese named entity recognition[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Stroudsburg, PA, USA: ACL, 2021: 1529-1539.

[35]	ZHU E W, LI J P. Boundary smoothing for named entity recognition[C]// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: ACL, 2022: 7096-7108.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

0 引 言

1 数据与处理

1.1 数据集构建

表1 中文茶叶病虫害文本命名实体识别数据集信息统计表

1.2 数据集标注与特征处理

图1 中文茶叶病虫害数据集标注示例

2 研究方法

2.1 基于边界偏移预测的命名实体识别方法定义

图2 边界偏移方法示意图

2.2 改进模型结构

图3 Be-BOPN模型的总体框架图和边界预测模块框架图

2.3 边界预测

2.4 标签增强

2.5 轻量化卷积层

2.6 训练

3 实验结果及分析

3.1 实验设置

3.1.1 公共数据集及数据设置

表2 中文公共数据集统计信息

3.1.2 参数设置

3.1.3 基线模型

表3 基线模型的介绍

3.2 在自建数据集上的实验

表4 Be-BOPN模型在中文茶叶数据集上的对比实验结果

3.3 在公开数据集上的实验

表5 Be-BOPN模型在ResumeNER中文数据集上的对比实验结果

表6 Be-BOPN模型在WeiboNER中文数据集上的对比实验结果

表7 Be-BOPN模型在CLUENER中文数据集上的对比实验结果

表8 Be-BOPN模型在Taobao中文数据集上的对比实验结果

3.4 消融实验

表9 消融实验结果

3.5 边界增强有效性研究

3.5.1 对实体长度的影响

图4 不同长度实体在中文茶叶病虫害数据集上的表现

3.5.2 边界预测实例

图5 边界预测模块对实体边界预测的可视化

3.6 各实体类别效果分析

表10 不同模型针对中文茶叶病虫害不同类别的识别精确度 (%)

4 结论与展望

参考文献

0 引言

1.1　数据集构建

1.2　数据集标注与特征处理

2.1　基于边界偏移预测的命名实体识别方法定义

2.2　改进模型结构

2.3　边界预测

2.4　标签增强

2.5　轻量化卷积层

2.6　训练

3.1　实验设置

3.1.1　公共数据集及数据设置

3.1.2　参数设置

3.1.3　基线模型

3.2　在自建数据集上的实验

3.3　在公开数据集上的实验

3.4　消融实验

3.5　边界增强有效性研究

3.5.1　对实体长度的影响

3.5.2　边界预测实例

3.6　各实体类别效果分析