Welcome to Smart Agriculture 中文
Topic--Intelligent Agricultural Knowledge Services and Smart Unmanned Farms (Part 2)

Agricultural Large Language Model Based on Precise Knowledge Retrieval and Knowledge Collaborative Generation

  • JIANG Jingchi 1, 2 ,
  • YAN Lian 1 ,
  • LIU Jie , 1, 2
Expand
  • 1. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China
  • 2. National Key Laboratory of Smart Farm Technologies and Systems, Harbin 150001, China
LIU Jie, E-mail:

JIANG Jingchi, E-mail:

Received date: 2024-10-20

  Online published: 2025-03-24

Supported by

National Key Research and Development Program of China(ZDYF20220008)

Heilongjiang Provincial Science and Technology Program Project(2021ZXJ05A03)

Copyright

copyright©2025 by the authors

Abstract

[Objective] The rapid advancement of large language models (LLMs) has positioned them as a promising novel research paradigm in smart agriculture, leveraging their robust cognitive understanding and content generative capabilities. However, due to the lack of domain-specific agricultural knowledge, general LLMs often exhibit factual errors or incomplete information when addressing specialized queries, which is particularly prominent in agricultural applications. Therefore, enhancing the adaptability and response quality of LLMs in agricultural applications has become an important research direction. [Methods] To improve the adaptability and precision of LLMs in the agricultural applications, an innovative approach named the knowledge graph-guided agricultural LLM (KGLLM) was proposed. This method integrated information entropy for effective knowledge filtering and applied explicit constraints on content generation during the decoding phase by utilizing semantic information derived from an agricultural knowledge graph. The process began by identifying and linking key entities from input questions to the agricultural knowledge graph, which facilitated the formation of knowledge inference paths and the development of question-answering rationales. A critical aspect of this approach was ensuring the validity and reliability of the external knowledge incorporated into the model. This was achieved by evaluating the entropy difference in the model's outputs before and after the introduction of each piece of knowledge. Knowledge that didn't enhance the certainty of the answers was systematically filtered out. The knowledge paths that pass this entropy evaluation were used to adjust the token prediction probabilities, prioritizing outputs that were closely aligned with the structured knowledge. This allowed the knowledge graph to exert explicit guidance over the LLM's outputs, ensuring higher accuracy and relevance in agricultural applications. [Results and Discussions] The proposed knowledge graph-guided technique was implemented on five mainstream general-purpose LLMs, including open-source models such as Baichuan, ChatGLM, and Qwen. These models were compared with state-of-the-art knowledge graph-augmented generation methods to evaluate the effectiveness of the proposed approach. The results demonstrate that the proposed knowledge graph-guided approach significantly improved several key performance metrics of fluency, accuracy, factual correctness, and domain relevance. Compared to GPT-4o, the proposed method achieved notable improvements by an average of 2.592 3 in Mean BLEU, 2.815 1 in ROUGE, and 9.84% in BertScore. These improvements collectively signify that the proposed approach effectively leverages agricultural domain knowledge to refine the outputs of general-purpose LLMs, making them more suitable for agricultural applications. Ablation experiments further validated that the knowledge-guided agricultural LLM not only filtered out redundant knowledge but also effectively adjusts token prediction distributions during the decoding phase. This enhanced the adaptability of general-purpose LLMs in agriculture contexts and significantly improves the interpretability of their responses. The knowledge filtering and knowledge graph-guided model decoding method proposed in this study, which was based on information entropy, effectively identifies and selects knowledge that carried more informational content through the comparison of information entropy.Compared to existing technologies in the agricultural field, this method significantly reduced the likelihood of "hallucination" phenomena during the generation process. Furthermore, the guidance of the knowledge graph ensured that the model's generated responses were closely related to professional agricultural knowledge, thereby avoiding vague and inaccurate responses generated from general knowledge. For instance, in the application of pest and disease control, the model could accurately identify the types of crop diseases and corresponding control measures based on the guided knowledge path, thereby providing more reliable decision support. [Conclusions] This study provides a valuable reference for the construction of future agricultural large language models, indicating that the knowledge graphs guided mehtod has the potential to enhance the domain adaptability and answer quality of models. Future research can further explore the application of similar knowledge-guided strategies in other vertical fields to enhance the adaptability and practicality of LLMs across various professional domains.

Cite this article

JIANG Jingchi , YAN Lian , LIU Jie . Agricultural Large Language Model Based on Precise Knowledge Retrieval and Knowledge Collaborative Generation[J]. Smart Agriculture, 2025 , 7(1) : 20 -32 . DOI: 10.12133/j.smartag.SA202410025

0 引 言

借助人工智能技术为农业生产提供必要的辅助支持,对提高农事效率、促进标准化种植、实现精准农业具有重要意义。其中,以问答形式指导农民进行农事决策(包括作物品种推荐、种植规程管理、病虫害的诊断和防治等任务)是一种典型场景1, 2。近年来,大语言模型(Large Language Models, LLMs)在自然语言理解和内容生成方面取得了显著的进步,甚至在知识问答3、摘要总结4、方案生成5等实际任务中达到了类人水平,这为构建面向农事决策与种植指导的农业LLMs提供了技术支持。然而,由于农业领域知识的缺乏,通用LLMs针对农学专业性问题经常产生非事实、无依据的回复,即幻觉(Hallucination)6
为提升通用LLMs的领域一致性、知识覆盖度,使其为特定领域问题产生切实的决策指导,现有方法主要使用有监督微调(Superivsed Fine-Tuning, SFT)7及检索增强生成(Retrieval Augmented Generation, RAG)8实现领域知识注入,帮助通用LLMs快速适应到垂直领域。有监督微调需要构造特定领域问答对,通过计算语言模型输出与标准回复之间的交叉熵损失(Cross Entropy Loss)更新模型参数,进而达到专业知识的隐式注入7, 9, 10。如华佗医疗大模型9使用ChatGPT提炼对话,并收集临床场景的真实对话数据有监督微调LLaMA-13B4和Baichuan7B2。DISC-MedLLM11基于知识图谱(Knowledge Graph, KG)和真实医学咨询纪要构造对话数据微调Baichuan13B12基模型。Lawyer模型13将律师资格考试题及法律咨询作为司法大模型微调的数据集。ChatLaw模型14从论坛、文书等原始文本中自动化的构造领域问答数据。天工开悟Kwoo模型15在专家指导下制定了一套农业问答数据标注规范,从书籍、国家标准中人工构建了22万条高质量农事决策问答数据并用于模型训练。
综上,垂直领域大模型使用数据微调方法进行隐式知识融合,能够在一定程度上使模型产生符合领域专业性的回复,但存在以下问题:1)需要构建大量的问答数据,成本高昂;2)模型内部知识的激活机制并不清晰,仍会产生事实错误的回复16;3)存在灾难性遗忘的风险17,即损失模型本身的语义理解和语言生成能力。
RAG方法将生成模型与外部知识源检索相结合。在生成过程中,模型优先从知识库中检索与问题相关的知识,通过提示工程(Prompt Engineering)指导模型生成更专业、更相关的文本。该方法既不需要构造大量的领域问答数据,又可以显式获取与问题高度相关的知识,实现领域的快速自适应。RAG挂载的知识库形式可以为知识图谱18、向量知识库19、文本知识库10, 20、网络站点21等。鉴于农业作为传统行业,其信息化、数字化程度较低,针对大规模向量知识库和文本知识库的构建鲜有高质量数据源。反观农业领域知识图谱的研究起步较早且相对成熟,王春雨和王芳22从中国农业网等权威站点和刊物上进行了大量的数据收集和语料标注,并基于条件随机场对语料进行了命名实体识别处理;Yao等23构建了包含11种实体类型和3万个样本的农业病虫害实体语料库AgCNER;沈利言等24从中文农业知识库、中国农资招商网等站点抽取了1 071条关于水稻病虫草害防治的语句,划分病害、虫害、草害、药剂4类实体并对语料进行了手工标注。上述知识包含大量的结构化语义,能够提供与问题相关且明确清晰、可解释强的农业知识,可被广泛应用于农业LLMs的能力提升,为病虫害防治、农药施放任务奠定了知识基础。基于知识图谱的RAG主要利用语义匹配或实体对齐方法找到与问题链接的知识路径,使用语义相似度进行路径重要性排序,最终以三元组18、三元组对应的源文本表述23或者图谱的图描述等形式拼接到问题中,如图1所示。该方法虽然能在生成过程中获得显式的知识指导,但依然存在以下问题:1)使用语义计算对知识路径进行排序过滤会引入噪声,如问题“龙麦33适宜区域有哪些?”与三元组知识“(龙麦33,抗性,叶锈病)”之间虽然不具有相关性,但经过语义计算依然会判断为高相似度;2)对知识推理路径的利用仍局限于扩充模型输入,并未对模型解码过程进行有效的引导。
图1 检索增强生成及基于知识图谱的生成约束方法

Fig. 1 Retrieval augmented generation and knowledge graph-based generation constraint methods

为此,本研究从知识约束角度出发,构建了一个生成内容与知识图谱协同的农业LLMs——KGLLM,该模型包含基于信息熵的知识路径过滤、知识路径引导的模型解码两部分。受问答模型熵增理论25启发,本研究首次针对农业领域提出了基于信息熵的外源知识筛选方法,通过比较引入农业知识前后大模型输出内容的熵差来评估该知识携带的信息量。同时,为实现合理的、显式的知识驱动型模型解码,进一步提出了知识引导的词表权重调整模块,利用知识图谱路径中的关键实体动态引导模型解码,使其生成符合知识逻辑的上下文。
本研究提出的基于信息熵的知识筛选和知识图谱引导模型解码的方法,相比于现有的农业领域技术,具有以下具体优势:首先,通过信息熵的比较,能够有效识别并选择携带更多信息量的知识,从而在生成过程中显著降低“幻觉”现象的发生概率。其次,知识图谱的引导能够确保模型生成的回复与农业领域的专业知识紧密相关,避免了基于通用知识生成的模糊和不准确的回复。例如,在病虫害防治的应用中,模型能够根据引导的知识路径,准确识别作物的病害种类并生成相应的防治措施,从而提供更为可靠的决策支持。图2展示了现有综合能力较强的大语言模型GPT426、基于网页检索的TianGong27、农学专家与本研究提出的模型针对同一病虫害问题给出的回复。
图2 性能顶级的大语言模型GPT4、搜索引擎TianGong、农业专家,以及本研究提出的KGLLM模型对相关作物病虫害问题的回复

Fig. 2 Responses to crop-specific pest and disease query from top-tier LLMs GPT4, search engine TianGong, agricultural experts, and the model KGLLM

1 材料与方法

本研究以农业知识图谱为依托构建农业LLMs,通过知识图谱检索、知识路径过滤、知识路径显式约束解码三个阶段来提升模型内容生成的领域置信度和事实一致性,模型框架如图3所示。知识图谱检索的目的是将问题中的实体与知识图谱中的实体进行对齐链接,获得有效知识推理路径(见第1.2节)。为保证知识路径与问题的高度相关性,进一步计算引入知识前后模型预测的熵差,对信息携带量较少的知识路径进行排除(见第1.2节)。对于与问题高度相关的知识路径,基于语义信息构建权重调整矩阵,显式放缩模型预测的词表分布,增加关键信息生成的概率(见第1.3节)。
图3 知识图谱引导的农业大语言模型KGLLM

Fig. 3 Knowledge graph-guided agricultural large language model

1.1 基于知识支撑的农业大语言模型目标函数优化

对于给定的由n个tokens组成的问题序列 Q = q 1 , q 2 , , q n及标准输出 Y = y 1 , y 2 , , y m m Y中token的数量。LLMs的目标是最大化预测序列 Y = y 1 , y 2 , , y m的联合分布。现有LLMs主要使用自回归的预测方式,根据问题 Q和前序生成的 i - 1个词 y < i = y 1 , , y i - 1联合预测第i个词 y i的概率,即词表概率分布 P y i | Q , y < i,其目标函数如公式(1)所示。
O b j = m a x   Q , Y i = 1 m l o g   P y i | Q , y < i          
有别于上述通用LLMs的目标函数,本研究构建的农业LLMs需要在领域知识图谱约束下产生回复,即抽取知识图谱中与问题相关的推理路径,并根据抽取的背景知识来引导模型输出,故改进后的目标函数如公式(2)所示。
O b j * = m a x   Q , Y i = 1 m l o g   P y i | Q , y < i , K Q    
式中: K Q = { e i s , r i , e i t } i = 1 n表示从农业知识图谱 G = { ξ , , 𝒯 }中与当前问题相关的知识路径; ξ = { e 1 , , e N }为知识图谱中的实体集合; = { r 1 , , r M }为知识图谱中的关系集合; 𝒯 = { ( e i s , r i , e i t | 1   i   T , e i s ξ , r i , e i t ξ }为知识图谱的三元组<头实体,语义关系,尾实体>集合,且 K Q 𝒯

1.2 基于信息熵的知识过滤

1.2.1 知识路径检索

为实现知识引导的农业LLMs输出,首先需要获取与问题相关的知识路径。本研究与现有基于知识图谱的检索增强方法一致28,利用GPT-4o抽取问题中的关键实体 E Q = { e q 1 , , e q L },并通过实体链接将问题实体与农业知识图谱中的实体进行对齐,得到知识图谱中与问题相关的实体集合 E K = { e k 1 , , e k L },其中 e k i ξ,实体抽取的Prompt如图4所示。最终根据图搜索算法找到包含问题实体的知识路径 K = { e i s , r i , e i t } i = 1 k,其中对于多跳路径,路径中必存在某一实体 e满足 e E K
图4 问题中实体抽取的Prompt

Fig. 4 Entity extraction Prompt in a question

1.2.2 知识相关性对模型的影响

由于知识检索需要从大规模知识库中进行全局查询,难免引入噪声,因而有必要对知识路径进行筛查。为探究外源知识相关性对于模型输出的影响,本研究对同一问题引入不同背景知识后模型输出词表分布的变化情况进行了对比,如图5所示。针对输入问题:“龙麦33适宜范围/适宜推广区域?”,分别检索到与其高度相关的知识路径:“(龙麦33,适宜区域,黑龙江北部)(龙麦33,适宜区域,内蒙古呼伦贝尔)”,以及无关知识路径:“(龙麦33,抗性,叶锈病)(春小麦,型号,龙麦33)”。根据图5可以看出,由于通用LLMs本身不具备相关的领域知识,在未进行领域适应情况下难以回答专业性较强的农学问题,所以对于词表的整体预测概率不确定性较大(即信息熵较大)。在引入相关知识后,模型对于问题的不确定性会减少,且随着知识越相关,模型对于问题的回答越确定,关键信息被预测的概率越高。基于上述分析,本研究将从模型输出词表分布的熵差角度对知识的有效性进行判断。
图5 引入不同知识后模型回复及token预测概率对比

Fig. 5 Comparison of model responses and token prediction probabilities after introducing different knowledge

1.2.3 基于信息熵和语义计算的双重知识过滤

针对检索到的知识集合 K = { e i s , r i , e i t } i = 1 k中每一条知识 K i,使用公式(3)计算其携带有关问题 Q的信息量。
I Y , K i | Q = H Y | Q - H Y | Q , K i
式中: H 为信息熵计算; I 表示引入知识 K i前后模型预测不确定性的减少量,即互信息; H Y | Q为条件语义熵; H Y | Q , K i则是在问题Q的基础上增加了有关知识路径 K i作为文本提示(prompt)后的语义熵。
参见文献[25],语义熵的具体计算过程如公式(4)公式(5)所示。将一个上下文Q输入到大模型中,一个由 t 1 , t 2 , . . . , t n组成的生成序列Y的联合概率分布可以表示为该序列中各token条件概率的乘积,如公式(4)
p ( Y | Q ) = i = 1 n p ( t i | t 1 : i - 1 , Q )   
对应于问题Q的回复不确定性记为语义熵,如公式(5)
H ( Y | Q ) = E p ( Y | Q ) [ - l o g p ( Y | Q ) ]  
同理可计算相关知识背景下的语义熵 H Y | Q , K i。计算得到每条知识路径对应的互信息后,可以对其进行过滤和重排序,保留 I Y , K i | Q高于阈值 θ的知识 K i,其余知识将被过滤。此外,由于不相关知识路径可能存在与问题相关的实体,引入此类知识路径后会导致对应实体的预测概率大幅提升,但易出现幻觉现象,如图5所示,模型在引入龙麦33的无关知识路径后回复中出现关于龙麦33抗性和型号的描述,却并不能给出问题中龙麦33的适宜种植地区。故而,本研究使用知识路径与问题的语义相关性进行二次过滤,如公式(6)所示。使用预训练语言模型Bert29分别对问题及知识路径进行编码,利用余弦相似度对背景知识进行语义过滤。经过互信息及语义筛选,最终获得与问题高度相关的知识路径集合 K Q = { e i s , r i , e i t } i = 1 n,其中过滤知识的数量n为超参数。
S i m Q , K i = Q ^ K i ^ Q ^ K i ^
式中: Q ^ = B e r t Q K i ^ = B e r t K i

1.3 知识图谱引导的词表分布调整

参考Focus Learning30的权重微调方法,本研究将LLMs输出的token概率分布进行调整,将知识路径上农业专业术语所对应的token概率进行增加,以体现提出的LLMs在农业领域的适应性。
具体而言,首先获取模型针对问题 Q的token预测序列 H = h 1 , h 2 , , h m,其中 h i R 1 × V V为模型的词表大小。对于一个问题Q,针对词表中第j个词 v j的输出概率调整公式,如式(7)所示。
W v j , K Q = - l n ( 1 - S i m ( v j , K Q ) + λ ) + 1
式中:W为调整权重; λ ( 0,e-2)为一个非零约束因子; S i m ( v j , K Q )是由公式(6)计算的token与知识相似性,其核心目标是将与知识集合 K Q相关词语的输出概率增加。最后,使用权重调整矩阵对模型预测的词表分布进行统一校正,增加模型对领域知识相关词的输出概率,权重调整方式如公式(8)
P y i | Q , y < i = s o f t m a x P h i | Q , y < i + α t P W | Q , K P h i | Q , y < i
式中: t表示模型当前所处的token预测步; α t是一个动态权重,如公式(9)所示,表示随着预测步 t的增加,对关键词的约束逐渐加大。
α t = α s t a r t + α e n d - α s t a r t T t
式中: α s t a r t为初始调节参数,设置为0.1; α e n d为生成结束时的调节参数,设置为0.6; T是最大生成长度。

2 结果与讨论

2.1 模型实现数据基础

本研究基于PyTorch框架实现模型代码编写,使用l张A800 80 G显卡进行测试对比。农业领域知识图谱及问答数据来自天工开悟Kwoo15,知识图谱及对应的问答样例如图6所示。
图6 Kwoo农业知识图谱及对应的问答样例

Fig. 6 Kwoo agricultural knowledge graph and corresponding question-answer exsamples

本研究使用的问答对数量、问答数据集中词的数量、每个问答对的平均词数量等相关统计信息如表1所示。
表1 农业测试数据统计表

Table 1 Agricultural test data statistics table

数据类型 数据统计
# 问答对 2 664.00
# 问答对中的词总量 491 566.00
# 每个问答对的平均词数量 184.52
# 问题涉及的词总量 195 592.00
# 每个问题涉及的平均词数量 73.42
# 答案涉及的词总量 295 974.00
# 每个答案涉及的平均词数量 111.10

2.2 基础模型

在多个基于Transformer架构的通用LLMs上进行了农业领域适应和知识引导,包括Baichuan-7B2、Baichuan-13B2、ChatGLM3-6B31、Qwen1.5-7B12和Qwen1.5-14B12。上述模型的参数大小、预训练过程使用的token数量、Transformer层数如表2所示。为验证通用LLMs领域化过程中知识的必要性,以及本研究提出的基于信息熵和语义信息过滤、显式知识约束方法的有效性,实验部分同时完成了GPT-4o与知识图谱引导的领域模型构建方法的综合对比。
表2 基线模型训练Token数和Tranformer层数统计表

Table 2 Baseline model training token count and transformer layer statistics table

模型 训练Token数/T Transformer层数
Baichuan2-7B-Chat 2.6 32
Baichuan2-13B-Chat 2.6 40
ChatGLM3-6B 1.4 28
Qwen1.5-7B-Chat 3.0 32
Qwen1.5-14B-Chat 3.0 40

2.3 文本生成评估标准

本研究使用文本生成评估标准Bleu、Rouge及BertScore分别评估回复生成流畅性、准确性、领域置信度。Bleu、Rouge将模型生成结果与标准回复进行N-gram拆分,计算匹配的准确性、召回率,以对农业问答大模型回复生成与标准回复进行比较,得到回复生成的流畅性、准确性评分。BertScore使用Bert对上下文进行嵌入,通过计算模型生成回复与标准回复之间的余弦相似度评估生成内容的领域置信度。

2.4 模型生成结果整体对比

2.4.1 自动评估

实验对比整体结果如表3所示。“Base”为未进行修改的基础LLMs,“Ours”表示本研究提出的基于信息熵过滤及知识图谱显式约束模型解码的架构KGLLM。为验证引入领域知识是提升模型领域表现能力的关键,本研究还与开放域对话表现优异的GPT-4o进行了对比。
表3 模型生成结果整体对比

Table 3 Overall comparison of model-generated results

Backbone Model GOOGLE BLEU BLEU ROUGE BertScore/%
BLEU_1 BLEU_2 BLEU_3 BLEU_4 Mean_BLEU ROUGE_1 ROUGE_2 ROUGE_3
GPT-4o Base 0.196 9 0.075 2 0.044 4 0.031 9 0.024 4 0.044 0 0.139 8 0.000 0 0.139 8 53.39
Baichuan-7B Base 0.642 9 0.788 6 0.420 3 0.288 6 0.212 1 0.427 4 0.167 0 0.000 0 0.167 0 53.19
KGLLM(Ours) 1.918 0 3.482 2 2.255 1 1.703 9 1.304 8 2.186 5 2.572 6 0.271 0 2.572 6 64.53
Baichuan-13B Base 0.731 7 1.083 8 0.605 7 0.424 1 0.313 4 0.606 8 0.229 3 0.000 0 0.229 3 55.81
KGLLM(Ours) 1.276 7 5.844 3 3.900 5 2.796 0 2.043 1 3.646 0 5.608 0 0.132 5 5.608 0 64.37
ChatGLM3-6B Base 0.464 2 0.322 2 0.169 4 0.114 4 0.081 8 0.171 9 0.124 5 0.000 0 0.124 5 52.43
KGLLM(Ours) 2.608 6 4.105 5 2.386 5 1.716 7 1.281 6 2.372 6 2.166 8 0.151 8 2.166 8 64.03
Qwen1.5-7B Base 0.198 5 0.040 5 0.021 4 0.014 2 0.009 9 0.021 5 0.118 0 0.000 0 0.118 0 51.07
KGLLM(Ours) 1.441 9 3.154 4 1.923 2 1.420 7 1.084 7 1.895 8 1.192 9 0.039 1 1.192 9 61.41
Qwen1.5-14B Base 0.343 1 0.031 1 0.018 4 0.013 4 0.009 9 0.018 2 0.131 2 0.000 0 0.131 2 51.63
KGLLM(Ours) 1.806 5 5.206 8 3.195 7 2.267 7 1.652 1 3.080 6 3.234 0 0.028 2 3.234 0 61.85
Average Base 0.476 1 0.453 2 0.247 0 0.170 9 0.125 4 0.249 2 0.154 0 0.000 0 0.154 0 52.83
KGLLM(Ours)

1.810 3

⬆1.613 4

4.358 6

⬆4.283 4

2.732 2

⬆2.687 8

1.981 0

⬆1.949 1

1.473 3

⬆1.448 9

2.636 3

⬆2.592 3

2.954 9

⬆2.815 1

0.124 5

⬆0.124 5

2.954 9

⬆2.815 1

63.23

⬆9.84

注:加粗的数值为在每个评估标准下的最优值;GOOGLE_BLEU、BLEU和ROUGE为自然分数;Average为各个模型在不同评估标准取得的平均值;Average KGLLM(Ours)附上升箭头的数值表示本研究所提方法较GPT-4o(Base)的提升值。

表3中可以看出本研究提出的方法能够有效提升通用模型在农业领域的决策指导能力。对比GPT-4o,本研究提出的方法在十个评估标准上分别有1.613 4、4.283 4、2.687 8、1.949 1、1.448 9、2.592 3、2.815 1、0.124 5、2.815 1,以及9.84%的提升。相比之下,各类主流通用域基模型在处理中文农业领域问题时,从BLEU、ROUGE、BertScore等系列指标来看,无论在回复的精准度、流畅度还是信息量、领域一致性都处于较低水平。而使用本研究提出的知识约束框架后,可在农业问答数据上平均获得了1.334 3、3.905 4、2.485 2、1.810 1、1.347 8、2.387 1、2.800 9、0.124 5、2.800 9和10.41%的提升。上述对比结果验证了提升通用LLMs在垂直领域的适用性,向其引入领域相关知识的必要性,也为后续实现农业知识引导的LLMs的研究提供了可借鉴思路。
同时,根据不同参数规模、同一系列模型的对比结果可以看出,模型参数量大、在预训练和微调训练过程中见到的知识越多,其生成效果普遍越好。一种可能是因为模型在更多的知识中挖掘了更广泛的词与词之间的n-gram关联。因此对于新领域的问题,其虽然不能给出准确的回复,但能通过隐藏在模型参数中的概率知识实现更快的自适应。
此外,从各项指标对比可以看出,基于本研究所提方法的模型生成效果虽然有所提升,但仍有较大的提升空间。经分析验证,导致上述问题的原因主要有以下几点:1)问题实体抽取的随机性。本研究通过Prompt提示GPT-4o抽取模型中存在的实体/关系,并基于此查询农业知识图谱中的知识路径。但由于LLMs本身的幻觉问题,该抽取过程具有一定的随机性,且存在模型对指令理解不到位的情况,这些都可能导致链接到问题的知识路径不够精准;2)知识图谱的不完备性。基于知识图谱进行生成约束的效果依赖于知识图谱的完备性,而现有知识图谱并不能完全覆盖所有农业知识,如图7所示。针对图7中问题,知识图谱中只包含与问题相关的部分路径,而标准回复囊括的信息显然更广泛。
图7 根据问题检索的知识路径样例

Fig. 7 Example of knowledge path retrieved based on the question

2.4.2 人工评估

本研究从专业性、正确性、流畅性、信息丰富性、综合评分对模型针对测试的农业问题生成的回复进行了人工评估,从农业专家的角度证明知识图谱引导技术的有效性、可行性。针对随机采样的100个测试问题,聘请两名农学专家对生成的结果进行了盲评打分,评分范围为1—10,在各个指标的最终评分结果为基于两名专家评分结果的加权平均。测试问题示例见表4,使用上文提到的模型架构进行输出生成。人工评估分数如图8所示。从图8中结果可以看出,本研究提出的方法在所有评估层面均获得了最高分数,充分说明了该方法不仅可以提升模型的领域表现而且有望进一步实现与领域权威标准的对齐。
表4 人工评估的测试问题样例

Table 4 Manually evaluated test question samples

问题 要求适宜天津地区夏播种植……三元复合肥0.150—0.225 t/hm2,拔节期重施一次氮肥。回答满足要求的玉米品种?
Base 天津地区适宜夏播种植的玉米品种较多,我从生育期、产量、抗病性等方面进行了对比,为你推荐几个品种: ……我最推荐联创825……
GPT-4o 根据天津地区的气候条件和夏播要求,适合该地区的玉米品种应具备以下特点: ……生育期短:由于是夏播,生育期较短的品种可……郑单958: 该品种生育期适中,适合夏播,具有较好的耐热性和抗病性,能够在高密度种植下稳定高产
KGLLM(Ours) 宽诚15
问题 海科玉3适宜范围/适宜推广区域?
Base “海科玉3”是一款具体的产品,但没有足够的信息来确定它的确切类型或用途(可能是某种农业作物品种、化工产品等)。因此,我无法直接提供其适宜的推广区域。……如果你能提供更多关于“海科玉3”的信息,例如它是哪种产品,我可以给出更具体的答案。建议你查询相关资料或联系生产者以获取最准确的信息
GPT-4o “海科玉3”是由……3具有以下适宜推广区域: 华北地区……黄淮海……西北部分地区……
KGLLM(Ours) 适宜在东华北中早熟春玉米类型区的黑龙江省第二积温带,吉林省延边州、白山市的部分地区,通化市、吉林市的东部,内蒙古中东部的呼伦贝尔市扎兰屯市南部、兴安盟中北部、通辽市扎鲁特旗中部、赤峰市中北部、乌兰察布市前山、呼和浩特市北部、包头市北部早熟区种植
图8 农学专家对模型生成结果的人工评估(分数取值为1—10)

Fig. 8 Expert evaluation on model's responses(Scores range from 1 to 10)

2.5 消融实验

为了证明所提方法中各个组件的有效性并探寻不同组件的贡献,对方法中知识路径过滤及知识图谱显式约束模型解码两个主要的模块进行了消融。同时分别讨论了知识与问题相关性及不同约束方法对模型生成效果的影响。

2.5.1 组件消融

本小节将对基于信息熵的知识过滤模块进行消融,实验结果显示,当过滤模块删除信息熵计算而仅使用问题与知识的语义信息进行匹配时(即表5中的wo MutualI),模型在自动评估标准上分别下降了0.081 3、0.381 0、0.304 4、0.238 1、0.183 2、0.276 7、0.436 3、0.031 9、0.436 3,以及1.54%。这是由于仅使用语义信息,可能导致知识匹配不准确,进而影响模型生成的回答。信息熵通过量化知识对模型不确定性的影响,帮助筛选出高可信度的知识,这种筛选机制能够提高模型在回答问题时的准确性和相关性,从而增强整体性能。此外,进一步对知识的显式解码约束进行了消融实验,目前主流的知识引导的大模型均采用Prompt形式将三元组信息显式地输入到模型,并与问题进行拼接以作为背景信息提示。借鉴此类知识提示方法(即表5中的wo EConstraint),将过滤后的知识融入模型后,其评估标准分别下降了0.032 9、0.325 4、0.192 5、0.126 8、0.086 5、0.182 8、0.127 1、-0.005 3、0.127 1,以及0.47%。消融知识图谱显式解码约束后,模型在生成回答时缺乏对农业领域专业术语的加权调整。而通用的LLMs在处理与农业相关的问题时,可能无法优先考虑相关的专业词汇,导致领域知识的利用不充分,词表预测的概率分布未能向专业领域进行合理调整,这些因素共同导致了模型在农业领域问题上的表现显著下降。对两部分的消融都会引起模型效果的下降,验证了无论是基于信息熵的知识过滤还是知识图谱显式解码约束都能提升模型在回复过程中的领域知识一致性,说明利用高可信度领域知识进行显式、动态的模型解码约束是一种可行的方法。
表5 分别对基于信息熵的知识过滤及知识图谱显式解码约束进行组件消融实验结果

Table 5 Ablation results for knowledge filtering based on information entropy and explicit decoding constraints of knowledge graphs

Backbone Model GOOGLE BLEU BLEU ROUGE BertScore/%
BLEU_1 BLEU_2 BLEU_3 BLEU_4 Mean_BLEU ROUGE_1 ROUGE_2 ROUGE_3
Baichuan-7b KGLLM(Ours) 1.918 0 3.482 2 2.255 1 1.703 9 1.304 8 2.186 5 2.572 6 0.271 0 2.572 6 64.53
wo MutualI 1.680 3 3.557 7 2.158 0 1.570 5 1.181 4 2.116 9 2.158 8 0.121 1 2.158 8 62.23
wo EConstraint 1.723 2 3.323 5 2.210 5 1.665 5 1.259 8 2.114 8 2.941 2 0.176 5 2.941 2 64.20
Baichuan-13b KGLLM(Ours) 1.276 7 5.844 3 3.900 5 2.796 0 2.043 1 3.646 0 5.608 0 0.132 5 5.608 0 64.37
wo MutualI 1.488 8 5.467 1 3.529 7 2.483 8 1.776 4 3.314 3 4.753 6 0.093 1 4.753 6 62.42
wo EConstraint 1.835 7 5.556 7 3.643 6 2.620 7 1.933 2 3.438 5 5.219 8 0.239 6 5.219 8 63.95
ChatGLM3-6B KGLLM(Ours) 2.608 6 4.105 5 2.386 5 1.716 7 1.281 6 2.372 6 2.166 8 0.151 8 2.166 8 64.03
wo MutualI 2.480 6 3.211 9 1.967 7 1.484 3 1.155 4 1.954 8 1.996 9 0.209 9 1.996 9 62.65
wo EConstraint 2.709 3 3.813 5 2.211 3 1.608 4 1.217 0 2.212 6 2.031 6 0.122 0 2.031 6 63.98
Qwen1.5-7B KGLLM(Ours) 1.441 9 3.154 4 1.923 2 1.420 7 1.084 7 1.895 8 1.192 9 0.039 1 1.192 9 61.41
wo MutualI 1.294 6 2.869 4 1.638 0 1.164 8 0.863 8 1.634 0 1.053 3 0.022 0 1.053 3 60.06
wo EConstraint 1.157 5 2.665 4 1.616 2 1.180 0 0.888 7 1.587 6 1.383 8 0.060 2 1.383 8 60.20
Qwen1.5-14B KGLLM(Ours) 1.806 5 5.206 8 3.195 7 2.267 7 1.652 1 3.080 6 3.234 0 0.028 2 3.234 0 61.85
wo MutualI 1.700 9 4.782 2 2.845 6 2.010 9 1.473 4 2.778 0 2.630 2 0.017 0 2.630 2 61.11
wo EConstraint 1.461 7 4.807 3 3.016 7 2.196 3 1.635 1 2.913 8 2.562 3 0.051 0 2.562 3 61.51
Average KGLLM(Ours) 1.810 3 4.358 6 2.732 2 1.981 0 1.473 3 2.636 3 2.954 9 0.124 5 2.954 9 63.24
wo MutualI

1.729 0

⬇0.081 3

3.977 7

⬇0.381 0

2.427 8

⬇0.304 4

1.742 9

⬇0.238 1

1.290 1

⬇0.183 2

2.359 6

⬇0.276 7

2.518 6

⬇0.436 4

0.092 6

⬇0.031 9

2.518 6

⬇0.436 3

61.69

⬇1.54

wo EConstraint

1.777 5

⬇0.032 9

4.033 3

⬇0.325 4

2.539 7

⬇0.192 5

1.854 2

⬇0.126 8

1.386 8

⬇0.086 5

2.453 5

⬇0.182 8

2.827 7

⬇0.127 1

0.129 8

⬇-0.005 3

2.827 7

⬇0.127 1

62.77

⬇0.47

注:加粗的数值为在每个评估标准下的最优值;GOOGLE_BLEU、BLEU和ROUGE为自然分数;Average为各个模型在不同评估标准取得的平均值;Average(wo MutualI)与Average(wo Econstraint)右上角的数值分别表示消融该部分后模型效果的下降值。

此外,从表5中结果可以看出,对知识过滤模块消融的影响大于对知识约束模块消融,这在一定程度上说明了引入正确的领域知识尤其关键。但同时,本研究发现如果使用知识在模型生成过程中进行硬约束(例如定量提升与知识相关词的输出概率)会大大损害模型输出内容的流畅度和生成效果,对比分析见第2.5.3节。

2.5.2 知识相关的重要性

为进一步说明在领域问答过程中引入与问题相关知识的重要性,对比了使用信息熵进行知识过滤(KGLLM(Ours))、只使用问题与知识的语义信息匹配进行知识过滤(Semantic only)、从抽取的知识中随机采样知识路径(Random)的选择方法,实验结果如表6所示。由于Random是在抽取后的知识路径集合上随机采样的,因而大部分抽取的路径存在与回复相关的知识,所以模型表现并未下降很多。从对比结果还可以看出,单纯基于语义信息获得的知识路径存在大量与回复无关的信息,因而采用有效的知识过滤手段避免模型对输入内容理解不全面(即模型无法正确理解输入的知识路径)是十分必要的。此外,通过一系列真实案例清楚地认识到,通过信息熵筛选获得的知识在针对问题中包含多种干扰实体且进行具体查询类型的用户提问时,依然会存在信息不全面和关键信息遗漏等问题。如表7所示,问题“稻瘟病可以发生在水稻的各个生育期,根据发生时期和部位不同,可分为苗瘟、叶瘟、叶枕瘟、节瘟、穗瘟、穗颈瘟、枝梗瘟和谷粒瘟,其中穗颈瘟和枝梗瘟有什么症状?”过滤后的结果中,关于“穗颈瘟”和“枝梗瘟”的症状信息被大幅减少,仅保留了“浅褐色小点”和“黄白色、褐色或黑色”等少数描述,在问题中出现但与答案无关的“苗瘟”和“叶枕瘟”却通过了信息熵过滤。这是由于知识路径的初步筛选是基于问题中抽取的关键实体实现的,而这些实体并不都是回复问题的有效实体。但是通过这些非有效实体获得的知识路径很可能与有效实体对应的信息相似,即也可以引起模型回复确定性的提升。因而,信息熵过滤在精准匹配用户需求方面仍存在局限。
表6 证据检索中不同知识选择筛选方法对比

Table 6 Comparison of different knowledge selection and filtering methods in evidence retrieval

Backbone Model GOOGLE BLEU BLEU ROUGE BertScore/%
BLEU_1 BLEU_2 BLEU_3 BLEU_4 Mean_BLEU ROUGE_1 ROUGE_2 ROUGE_3
Baichuan-7b KGLLM(Ours) 1.918 0 3.482 2 2.255 1 1.703 9 1.304 8 2.186 5 2.572 6 0.271 0 2.572 6 64.53
Semantic only 1.680 3 3.557 7 2.158 0 1.570 5 1.181 4 2.116 9 2.158 8 0.121 1 2.158 8 62.23
Random 1.481 3 3.331 1 1.994 3 1.458 4 1.107 9 1.972 9 1.885 9 0.105 2 1.885 9 62.23
Baichuan-13b KGLLM(Ours) 1.276 7 5.844 3 3.900 5 2.796 0 2.043 1 3.646 0 5.608 0 0.132 5 5.608 0 64.37
Semantic only 1.488 8 5.467 1 3.529 7 2.483 8 1.776 4 3.314 3 4.753 6 0.093 1 4.753 6 62.42
Random 1.535 9 5.253 2 3.318 5 2.326 3 1.670 7 3.142 2 4.550 1 0.114 2 4.550 1 62.05
ChatGLM3-6B KGLLM(Ours) 2.608 6 4.105 5 2.386 5 1.716 7 1.281 6 2.372 6 2.166 8 0.151 8 2.166 8 64.03
Semantic only 2.480 6 3.211 9 1.967 7 1.484 3 1.155 4 1.954 8 1.996 9 0.209 9 1.996 9 62.65
Random 1.797 8 2.459 6 1.530 4 1.167 3 0.905 8 1.515 8 1.728 9 0.119 6 1.728 9 62.59
Qwen1.5-7B KGLLM(Ours) 1.441 9 3.154 4 1.923 2 1.420 7 1.084 7 1.895 8 1.192 9 0.039 1 1.192 9 61.41
Semantic only 1.294 6 2.869 4 1.638 0 1.164 8 0.863 8 1.634 0 1.053 3 0.022 0 1.053 3 60.06
Random 1.250 1 2.939 5 1.649 4 1.167 6 0.865 2 1.655 4 0.889 7 0.002 2 0.889 7 59.84
Qwen1.5-14B KGLLM(Ours) 1.806 5 5.206 8 3.195 7 2.267 7 1.652 1 3.080 6 3.234 0 0.028 2 3.234 0 61.85
Semantic only 1.700 9 4.782 2 2.845 6 2.010 9 1.473 4 2.778 0 2.630 2 0.017 0 2.630 2 61.11
Random 1.973 3 4.038 2 2.470 8 1.823 0 1.380 6 2.428 2 1.640 9 0.050 3 1.640 9 61.66
Average KGLLM(Ours) 1.810 3 4.358 6 2.732 2 1.981 0 1.473 3 2.636 3 2.954 9 0.124 5 2.954 9 63.24
Semantic only

1.729 0

⬇0.081 3

3.977 7

⬇0.381 0

2.427 8

⬇0.304 4

1.742 9

⬇0.238 1

1.290 1

⬇0.183 2

2.359 6

⬇0.276 7

2.518 6

⬇0.436 4

0.092 6

⬇0.031 9

2.518 6

⬇0.436 3

61.69

⬇1.54

Random

1.607 7

⬇0.202 7

3.604 3

⬇0.754 3

2.192 7

⬇0.539 5

1.588 5

⬇0.392 5

1.186 0

⬇0.287 2

2.142 9

⬇0.493 4

2.139 1

⬇0.815 8

0.078 3

⬇0.046 2

2.139 1

⬇0.815 8

61.67

⬇1.56

注:加粗的数值为在每个评估标准下的最优值;GOOGLE_BLEU,BLEU,和ROUGE为自然分数;Average为各个模型在不同评估标准取得的平均值;Average (Semantic only)与Average(Random)右上角的数值分别表示使用不同知识过滤方法后模型效果的下降值。

表 7 基于信息熵进行知识筛选样例

Table 7 Knowledge filtering samples based on information entropy

问题: 稻瘟病可以发生在水稻的各个生育期,根据发生时期和部位不同,可分为苗瘟、叶瘟、叶枕瘟、节瘟、穗瘟、穗颈瘟、枝梗瘟和谷粒瘟,其中穗颈瘟和枝梗瘟有什么症状?
检索路径:[{'relation': '症状', 'source': '水稻', 'target': '拔节期症状'}, {'relation': '症状', 'source': '苗瘟', 'target': '水稻3叶期以前'}, {'relation': '症状', 'source': '苗瘟', 'target': '芽和芽鞘上出现水渍状斑点'}, {'relation': '症状', 'source': '苗瘟', 'target': '病苗基部变黑褐色'}, {'relation': '症状', 'source': '苗瘟', 'target': '上部呈黄褐色或淡红色'}, {'relation': '症状', 'source': '苗瘟', 'target': '病苗严重时枯死'}, {'relation': '症状', 'source': '苗瘟', 'target': '潮湿时病部可长出灰绿色霉层'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '叶耳易感病'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '初为污绿色病斑'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '向叶环、叶舌、叶鞘及叶片不规则扩展'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '最后病斑灰白色至灰褐色'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '潮湿时长出灰绿色霉层'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '病叶早期枯死'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '容易引起穗颈瘟'}, {'relation': '症状', 'source': '节瘟', 'target': '主要发生在穗颈下第一、二节上'}, {'relation': '症状', 'source': '节瘟', 'target': '初为褐色或黑褐色小点'}, {'relation': '症状', 'source': '节瘟', 'target': '环状扩大至整个节部'}, {'relation': '症状', 'source': '节瘟', 'target': '潮湿时节上生出灰绿色霉层'}, {'relation': '症状', 'source': '节瘟', 'target': '易折断'}, {'relation': '症状', 'source': '节瘟', 'target': '亦可造成白穗'}, {'relation': '症状', 'source': '穗颈瘟', 'target': '浅褐色小点'}, {'relation': '症状', 'source': '穗颈瘟', 'target': '黄白色、褐色或黑色斑点'}, {'relation': '症状', 'source': '穗颈瘟', 'target': '全白穗'}, {'relation': '症状', 'source': '枝梗瘟', 'target': '浅褐色小点'}, {'relation': '症状', 'source': '枝梗瘟', 'target': '黄白色、褐色或黑色病斑'}, {'relation': '症状', 'source': '枝梗瘟', 'target': '发病迟谷粒不充实'}, {'relation': '症状', 'source': '谷粒瘟', 'target': '发生在谷壳和护颖上'}, {'relation': '症状', 'source': '谷粒瘟', 'target': '发病早的谷壳上病斑大而呈椭圆形,中部灰白色'}, {'relation': '症状', 'source': '谷粒瘟', 'target': '可延及整个谷粒,造成暗灰色或灰白色的瘪谷'}, {'relation': '症状', 'source': '谷粒瘟', 'target': '发病迟的则为椭圆形或不规则形的褐色斑点'}, {'relation': '症状', 'source': '谷粒瘟', 'target': '严重时,谷粒不饱满,米粒变黑'}, {'relation': '症状类型', 'source': '叶瘟', 'target': '白点型'}, {'relation': '症状类型', 'source': '叶瘟', 'target': '急性型'}, {'relation': '症状类型', 'source': '叶瘟', 'target': '慢性型'}, {'relation': '症状类型', 'source': '叶瘟', 'target': '褐点型'}]
信息熵过滤路径:[{'relation': '症状', 'source': '水稻', 'target': '拔节期症状'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '向叶环、叶舌、叶鞘及叶片不规则扩展'}, {'relation': '症状', 'source': '枝梗瘟', 'target': '黄白色、褐色或黑色病斑'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '初为污绿色病斑'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '病叶早期枯死'}, {'relation': '症状', 'source': '节瘟', 'target': '初为褐色或黑褐色小点'}, {'relation': '症状', 'source': '苗瘟', 'target': '上部呈黄褐色或淡红色'}, {'relation': '症状', 'source': '苗瘟', 'target': '水稻3叶期以前'}, {'relation': '症状', 'source': '苗瘟', 'target': '病苗严重时枯死'}, {'relation': '症状', 'source': '苗瘟', 'target': '病苗基部变黑褐色'}, {'relation': '症状类型', 'source': '叶瘟', 'target': '褐点型'}, {'relation': '症状类型', 'source': '叶瘟', 'target': '白点型'}, {'relation': '症状', 'source': '枝梗瘟', 'target': '浅褐色小点'}, {'relation': '症状', 'source': '苗瘟', 'target': '芽和芽鞘上出现水渍状斑点'}, {'relation': '症状类型', 'source': '叶瘟', 'target': '慢性型'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '最后病斑灰白色至灰褐色'}, {'relation': '症状类型', 'source': '叶瘟', 'target': '急性型'}, {'relation': '症状', 'source': '叶枕瘟', 'target': '潮湿时长出灰绿色霉层'}, 'relation': '症状', 'source': '穗颈瘟', 'target': '黄白色、褐色或黑色斑点'}, {'relation': '症状', 'source': '苗瘟', 'target': '潮湿时病部可长出灰绿色霉层'}]

注:下划线文字代表与问题相关路径。

基于上述实验结果与潜在问题,为减少非有效路径对模型生成的影响、提升信息熵的效用,对可能的信息熵过滤改进措施进行了探究,提出以下改进方向:1)增强有效实体影响。在上述分析中指出,对于存在冗余干扰实体的问题,信息熵的有效性下降。因此可探索引入实体有效性识别方法,利用关键实体而不是问题中全部实体进行知识路径筛选。构建条件信息熵,对于关键实体的知识路径赋予更高的权重;2)自适应调整信息熵阈值。基于现有的人工智能技术根据问题类型和用户提问的具体情况动态调整信息熵的过滤阈值。在某些情况下,可能需要放宽阈值以获取更广泛的信息,而在另一些情况下则需要严格过滤(如冗余实体过多时)。

2.5.3 合理知识约束的重要性

在第2.5.1节提到,虽然知识的选择在一定程度上比知识的利用更加重要,但如果知识的利用方式过于粗暴,很可能严重损害模型的性能。为进一步说明合理知识约束的重要性,本节引入了知识硬约束方法(Hard Constraint)。具体地,获取相关三元组知识后,将三元组实体作为约束依据,在内容生成过程中直接将与三元组实体相关的词预测概率翻倍。对比结果如表8所示,其中Path Description为第2.5.1节的KGLLM(wo EConstraint),即通过路径描述将知识拼接到模型输入。由表8可以看出,使用知识硬约束会严重损害模型的性能,因而如何合理地将知识注入LLMs、如何利用知识优化词表分布将是未来一段时间领域大模型的研究重点。
表8 基于不同知识约束的模型生成结果

Table 8 Model-generated results under different knowledge constraints

Backbone Model GOOGLE BLEU BLEU ROUGE BertScore/%
BLEU_1 BLEU_2 BLEU_3 BLEU_4 Mean_BLEU ROUGE_1 ROUGE_2 ROUGE_3
Baichuan-7b KGLLM(Ours) 1.918 0 3.482 2 2.255 1 1.703 9 1.304 8 2.186 5 2.572 6 0.271 0 2.572 6 64.53
Path Discription 1.723 2 3.323 5 2.210 5 1.665 5 1.259 8 2.114 8 2.941 2 0.176 5 2.941 2 64.20
Hard Constraint 0.759 7 1.052 9 0.558 2 0.387 1 0.283 8 0.570 5 0.160 0 0.000 0 0.160 0 54.46
Baichuan-13b KGLLM(Ours) 1.276 7 5.844 3 3.900 5 2.796 0 2.043 1 3.646 0 5.608 0 0.132 5 5.608 0 64.37
Path Discription 1.835 7 5.556 7 3.643 6 2.620 7 1.933 2 3.438 5 5.219 8 0.239 6 5.219 8 63.95
Hard Constraint 0.609 2 1.043 3 0.597 4 0.423 6 0.316 2 0.595 1 0.287 1 0.000 0 0.287 1 55.82
ChatGLM3-6B KGLLM(Ours) 2.608 6 4.105 5 2.386 5 1.716 7 1.281 6 2.372 6 2.166 8 0.151 8 2.166 8 64.03
Path Discription 2.709 3 3.813 5 2.211 3 1.608 4 1.217 0 2.212 6 2.031 6 0.122 0 2.031 6 63.98
Hard Constraint 0.379 8 0.549 3 0.285 3 0.187 9 0.130 4 0.288 2 0.138 5 0.000 0 0.138 5 51.03
Qwen1.5-7B KGLLM(Ours) 1.441 9 3.154 4 1.923 2 1.420 7 1.084 7 1.895 8 1.192 9 0.039 1 1.192 9 61.41
Path Discription 1.157 5 2.665 4 1.616 2 1.180 0 0.888 7 1.587 6 1.383 8 0.060 2 1.383 8 60.20
Hard Constraint 0.843 3 1.948 5 1.044 7 0.724 3 0.531 6 1.062 3 0.109 9 0.000 0 0.109 9 58.44
Qwen1.5-14B KGLLM(Ours) 1.806 5 5.206 8 3.195 7 2.267 7 1.652 1 3.080 6 3.234 0 0.028 2 3.234 0 61.85
Path Discription 1.461 7 4.807 3 3.016 7 2.196 3 1.635 1 2.913 8 2.562 3 0.051 0 2.562 3 61.51
Hard Constraint 0.956 2 2.129 2 1.274 2 0.946 5 0.721 2 1.267 8 0.174 1 0.000 0 0.174 1 60.01
Average KGLLM(Ours) 1.810 3 4.358 6 2.732 2 1.981 0 1.473 3 2.636 3 2.954 9 0.124 5 2.954 9 6324
Path Discription

1.777 5

⬇0.032 9

4.033 3

⬇0.325 4

2.539 7

⬇0.192 5

1.854 2

⬇0.126 8

1.386 8

⬇0.086 5

2.453 5

⬇0.182 8

2.827 7

⬇0.127 1

0.129 8

⬇-0.005 3

2.827 7

⬇0.127 1

62.77

⬇0.47

Hard Constraint

0.709 6

⬇1.100 7

1.344 6

⬇3.014 0

0.752 0

⬇1.980 2

0.533 9

⬇1.447 1

0.396 6

⬇1.076 6

0.756 8

⬇1.879 5

0.173 9

⬇2.781 0

0.000 0

⬇0.124 5

0.173 9

⬇2.781 0

55.95

⬇7.28

注:加粗的数值为在每个评估标准下的最优值;GOOGLE_BLEU、BLEU和ROUGE为自然分数;BertScore为百分比;Average为各个模型在不同评估标准取得的平均值;Average(Path Discription)与Average(Hard Constraint)右上角的数值分别表示使用不同知识约束方法后模型效果的下降值。

3 结论与展望

本研究聚焦于领域知识图谱引导的农业LLMs构建,针对通用大模型缺乏领域知识常导致生成结果出现幻觉现象的问题,分别提出了基于信息熵的知识过滤模块以及知识图谱显式约束模型解码模块,以实现模型回复与领域知识对齐。可快速实现通用LLMs向垂直领域的迁移,也将为后续面向农事决策的农业LLMs构建提供必要技术支撑。
对Baichuan-7B在内的5个通用LLMs实现了框架迁移,利用天工开悟农业问答测试数据集进行了大量对比实验和组件消融实验,在回复的流畅性、准确性、真实性、知识一致性等十个评估标准上广泛验证了模型的性能,证实了引入领域知识前后模型生成内容的熵差对知识过滤的有效性,以及动态利用知识图谱对模型解码进行显示约束的重要性,大量的实验验证将为后续基于领域知识的农业LLMs发展提供可借鉴思路。此外,初步实验结果表明,相较于对话能力较强的GPT-4o,本研究的方法在农业相关问答任务上的BertScore提高了9.84%,在其他评估指标上也取得了明显提升,显著降低了错误回复的比例,进一步验证了方法的有效性。同时本研究针对不同知识选择方法、不同知识约束方法进行了分析验证,分析发现:1)在检索到正确的三元组知识后,仅通过与问题的拼接共同作为模型输入便可以取得不错的生成效果,即知识的选择在一定程度先于知识的利用;2)知识软约束方法优于知识硬约束,即构建知识约束时要尽可能减少对模型自身生成能力的损害。
未来,借助农业LLMs强大的认知理解能力和内容生成能力,有望在三个方面实现农业领域的变革:1)打造智慧农场人机交互的全新模式,仅通过语音问答形式完成用户指令的理解与下达,以大模型为调度引擎实现多智能体的协同,打破当前农业模型与算法、智能农机装备碎片化的现状;2)根据个性化环境、土壤、品种信息,实现耕种管收全流程的农事规程自动化生成,为无人农场的构建提供标准化种植管理方案;3)以问答大模型为基础,结合多模态数据有望实现病虫草害的识别与防治、多光谱遥感图像的理解与问答等一系列应用。本研究提出的知识引导技术为上述领域大模型的构建、缓解其幻觉现象、提供持续学习能力奠定了理论基础。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
CAO Y Y, CHEN L, YUAN Y, et al. Cucumber disease recognition with small samples using image-text-label-based multi-modal language model[J]. Computers and electronics in agriculture, 2023, 211: ID 107993.

2
YANG A Y, XIAO B, WANG B N, et al. Baichuan 2: Open large-scale language models[EB/OL]. arXiv: 2309.10305, 2023.

3
OUYANG L, WU J, JIANG X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

4
TOUVRON H, LAVRIL T, IZACARD G, et al. LLaMA: Open and efficient foundation language models[EB/OL]. arXiv:2302.13971, 2023.

5
WANG H, DU X, YU W, et al. Apollo's oracle: Retrieval-augmented reasoning in multi-agent debates[EB/OL]. arXiv: 2312.04854, 2023.

6
HUANG L, YU W J, MA W T, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[EB/OL]. arXiv: 2311.05232, 2023.

7
HU E J, SHEN Y, WALLIS P, et al. Lora: Low-rank adaptation of large language models[EB/OL]. arXiv: 2106.09685, 2021.

8
GAO Y F, XIONG Y, GAO X Y, et al. Retrieval-augmented generation for large language models: A survey[EB/OL]. arXiv:2312.10997, 2023.

9
ZHANG H B, CHEN J Y, JIANG F, et al. HuatuoGPT, towards taming language model to be a doctor[C]// Findings of the Association for Computational Linguistics: EMNLP 2023. Stroudsburg, PA, USA: ACL, 2023.

10
FATEHKIA M, LUCAS J K, CHAWLA S. T-RAG: Lessons from the LLM trenches[EB/OL]. arXiv: 2402.07483, 2024.

11
BAO Z J, CHEN W, XIAO S Z, et al. DISC-MedLLM: Bridging general large language models and real-world medical consultation[EB/OL]. arXiv: 2308.14346, 2023.

12
BAI J, BAI S, CHU Y, et al. Qwen technical report[EB/OL]. arXiv: 2309.16609, 2023.

13
HUANG Q Z, TAO M X, ZHANG C, et al. Lawyer llama technical report[EB/OL]. arXiv: 2305.15062, 2023.

14
CUI J, LI Z, YAN Y, et al. Chatlaw: Open-source legal large language model with integrated external knowledge bases[EB/OL]. arXiv: 2306.16092, 2023.

15
JIANG J, YAN L, LIU H, et al. Knowledge assimilation: Implementing knowledge-guided agricultural large language model[J]. Knowledge-based systems, 2025: ID 113197.

16
YIN Z Y, SUN Q S, GUO Q P, et al. Do large language models know what they don't know?[C]// Findings of the Association for Computational Linguistics: ACL 2023. Stroudsburg, PA, USA: ACL, 2023: 8653-8665.

17
KIRKPATRICK J, PASCANU R, RABINOWITZ N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the national academy of sciences of the United States of America, 2017, 114(13): 3521-3526.

18
JIANG X, ZHANG R, XU Y, et al. Think and retrieval: A hypothesis knowledge graph enhanced medical large language models[EB/OL]. arXiv: 2312.15883, 2023.

19
FENG Z Y, MA W T, YU W J, et al. Trends in integration of knowledge and large language models: A survey and taxonomy of methods, benchmarks, and applications[EB/OL]. arXiv: 2311.05876, 2023.

20
姜京池, 关昌赫, 刘劼, 等. 基于主动学习与众包的农业知识标注体系及语料库构建[J]. 中文信息学报, 2023, 37(1): 33-45.

JIANG J C, GUAN C H, LIU J, et al. Annotation scheme and corpus construction for agricultural knowledge based on active learning and crowdsourcing[J]. Journal of Chinese information processing, 2023, 37(1): 33-45.

21
NAKANO R, HILTON J, BALAJI S, et al. WebGPT: Browser-assisted question-answering with human feedback[EB/OL]. arXiv:2112.09332, 2021.

22
王春雨, 王芳. 基于条件随机场的农业命名实体识别研究[J]. 河北农业大学学报, 2014, 37(1): 132-135.

WANG C Y, WANG F. Study on agricultural named entity recognition based on conditional random field[J]. Journal of agricultural university of Hebei, 2014, 37 (1): 132-135.

23
YAO X, HAO X, LIU R . et al. AgCNER, the first large-scale chinese named entity recognition dataset for agricultural diseases and pests[J]. Scientific Data, 2024, 11: ID 769.

24
沈利言, 姜海燕, 胡滨, 等. 水稻病虫草害与药剂实体关系联合抽取算法[J]. 南京农业大学学报, 2020, 43(6): 1151-1161.

SHEN L Y, JIANG H Y, HU B, et al. A study on joint entity recognition and relation extraction for rice diseases pests weeds and drugs[J]. Journal of Nanjing agricultural university, 2020, 43(6): 1151-1161.

25
KUHN L, GAL Y, FARQUHAR S. Semantic uncertainty: Linguistic invariances for uncertainty estimation in natural language generation[EB/OL]. arXiv: 2302.09664, 2023.

26
ACHIAM J, ADLER S, AGARWAL S, et al. GPT-4 technical report[EB/OL]. arXiv: 2303.08774, 2023.

27
WEI T W, ZHAO L, ZHANG L C, et al. Skywork: A more open bilingual foundation model[EB/OL]. arXiv: 2310.19341, 2023.

28
ZHU K, FENG X C, DU X Y, et al. An information bottleneck perspective for effective noise filtering on retrieval-augmented generation[C]// In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. Bangkok, Thailand: Association for Computational Linguistics, 2024: 1044-1069.

29
REIMERS N, GUREVYCH I. Sentence-BERT: Sentence embeddings using Siamese BERT-networks[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Stroudsburg, PA, USA: ACL, 2019.

30
DENG Y F, ZHANG X S, HUANG H Y, et al. Towards faithful dialogues via focus learning[C]// Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: ACL, 2023: 4554-4566.

31
DU Z X, QIAN Y J, LIU X, et al. GLM: General language model pretraining with autoregressive blank infilling[C]// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: ACL, 2022: 320-335.

Outlines

/