农业知识数据特别是标注数据难以获取,有关农业知识图谱构建以及信息抽取的研究相对较少。已有研究的农业实体识别方案往往需要大量的训练数据训练,因此应用这些方案时,需要人工标注实体识别数据,成本很高。使用的模型也存在需要手工提取特征、实体识别效果不佳等问题;或者没有考虑实际线上对预测耗时、模型大小的要求,停留在实验验证阶段。李贯峰和张鹏
[3]使用词典来实现实体识别,构建了基于农业本体的web知识抽取模型,因为web知识库难以覆盖所有的农业实体,因此存在着召回率低的缺点。王春雨和王芳
[4]用条件随机场
[5]来进行命名实体识别。但这种方法需要手工构造特征且模型容量低,难以完成复杂的实体识别任务。印度的Malarkodi等
[6]应用了条件随机场模型,输入一些句法词汇特征,同样存在依赖手工构造特征的问题。刘晓俊
[7]使用了基于密集连接的双向长短记忆网络(Dense Connected Bi-directional Long Short-Term Memory,DC-LSTM)+ (Conditional Random Field,CRF)架构进行面向农业领域的命名实体识别研究。由于这是一种多层的密集连接的结构,推理耗时长、模型参数量多,难以在线上进行实际使用。Biswas等
[8]利用WordNet
[9]进行农业实体识别,该方法本质上与词典匹配差别不大,但是利用WordNet词的相关性,扩充了词典。