欢迎您访问《智慧农业(中英文)》官方网站! English

ADON-R:基于语义相似与规则推理的农业本体网络构建方法

  • 陈晓静 1, 2 ,
  • 李威 1, 2 ,
  • 李瑞航 1, 2 ,
  • 林佳 2 ,
  • 姚琼 2 ,
  • 吴雯迪 2 ,
  • 樊景超 1, 2 ,
  • 闫燊 4 ,
  • 王健 1, 2 ,
  • 张建华 , 1, 2 ,
  • 周国民 , 1, 2, 3, 5
展开
  • 1. 中国农业科学院农业信息研究所/农业农村部农业大数据重点实验室/国家农业科学数据中心 北京 100081,中国
  • 2. 三亚中国农业科学院国家南繁研究院,海南 三亚 572024,中国
  • 3. 中国农业科学院 西部农业研究中心,新疆 昌吉 831100,中国
  • 4. 中国农业科学院作物科学研究所,北京 100081,中国
  • 5. 农业农村部南京农业机械化研究所,江苏 南京 210014,中国

陈晓静和李威共同第一作者

周国民,博士,研究员,研究方向为农业信息技术,E-mail:
张建华,博士,研究方向为农业信息技术,E-mail:

陈晓静,硕士,研究方向为农业信息技术,E-mail:

李 威,硕士研究生,研究方向为农业信息技术,E-mail:

收稿日期: 2025-10-15

  网络出版日期: 2026-01-20

基金资助

国家重点研发计划(2022YFF0711800)

三亚中国农业科学院国家南繁研究院南繁专项(YBXM2448)

三亚中国农业科学院国家南繁研究院南繁专项(YBXM2340)

三亚中国农业科学院国家南繁研究院南繁专项(YBXM2409)

三亚中国农业科学院国家南繁研究院南繁专项(YBXM2410)

三亚中国农业科学院国家南繁研究院南繁专项(YBXM2430)

三亚中国农业科学院国家南繁研究院南繁专项(YBXM2508)

三亚中国农业科学院国家南繁研究院南繁专项(YBXM2509)

中央级公益性科研院所基本科研业务费专项(JBYW-AII-2025-05)

国家农业科学数据中心项目(NASDC2025XM11)

ADON-R: A Method for Constructing an Agricultural Ontology Network Based on Semantic Similarity and Rule-Based Reasoning

  • CHEN XiaoJing 1, 2 ,
  • LI Wei 1, 2 ,
  • LI Ruihang 1, 2 ,
  • LIN Jia 2 ,
  • YAO Qiong 2 ,
  • WU Wendi 2 ,
  • FAN Jingchao 1, 2 ,
  • YAN Shen 4 ,
  • WANG Jian 1, 2 ,
  • ZHANG Jianhua , 1, 2 ,
  • ZHOU Guomin , 1, 2, 3, 5
Expand
  • 1. Institute of Agricultural Information, Chinese Academy of Agricultural Sciences/Key Laboratory of Agricultural Big Data, Ministry of Agriculture and Rural Affairs/National Agricultural Science Data Center, Beijing 100081, China
  • 2. Nanfan Research Institute, Chinese Academy of Agricultural Sciences, Sanya 572024, China
  • 3. Western Research Institute, Chinese Academy of Agricultural Sciences, Changji 831100, China
  • 4. Institute of Crop Sciences, Chinese Academy of Agricultural Sciences, Beijing 100081, China
  • 5. Nanjing Institute of Agricultural Mechanization, Ministry of Agriculture and Rural Affairs, Nanjing 210014, China
ZHOU Guomin, E-mail: ;
ZHANG Jianhua, E-mail:

CHEN XiaoJing, E-mail: ;

LI Wei, E-mail:

Received date: 2025-10-15

  Online published: 2026-01-20

Supported by

National Key R&D Program of China(2022YFF0711800)

Nanfan Special Project of Sanya Academy of Chinese Academy of Agricultural Sciences(YBXM2448)

Central Public-interest Scientific Institution Basal Research Fund(JBYW-AII-2025-05)

National Agricultural Science Data Center Project(NASDC2025XM11)

Copyright

copyright©2026 by the authors

摘要

【目的/意义】 农业知识的有效整合与深度挖掘对于推动智慧农业发展至关重要,然而,多源异构的农业本体数据导致了严重的“知识孤岛”现象。现有的本体推理方法局限于单一的语义维度,无法全面刻画复杂的生物学关系,这严重制约了农业知识体系的深度应用。 【方法】 针对以上问题,构建了一套完整的多策略融合农业本体网络推理框架,并提出了一种结合语义相似与规则推理的农业本体网络推理方法ADON-R(Agricultural Deep Ontology Network-Reasoner)。首先,该模型设计了一个基于逻辑规则的基础关系推理模块,利用10种生物学传递性规则精确构建本体网络的核心骨架。其次,为解决复杂相关性关系的发掘问题,创建了一套包含定义、语义、生物网络、功能特性和参考物种5个维度的分级证据体系,并依此构建了相关性关系推理模块。该模块的一个核心创新在于,它不仅是一种推理机制,更是一套可靠性量化框架,通过计算关系所满足的独立证据数量,将其划分为不同等级。为实现高效推理,该模块集成了改进的Jaccard相似度算法、基于Jena规则的解释器及融合了BioBERT预训练语言模型与FAISS(Facebook AI Similarity Search)向量检索技术的高效语义相似度计算流程,实现了对潜在关系的深度挖掘。最终,通过分级融合策略,将不同证据强度的关系划分为I~IV这4个等级,构建了农业本体知识网络。使用STS-B(Semantic Textual Similarity Benchmark)国际标准测试集取得了0.852 0的斯皮尔曼相关系数,验证了BioBERT在语义理解任务上的有效性,ADON-R方法推理共得到1 305 312条本体新关系。[结果与讨论]结果表明:I级到Ⅳ级的分级推理能够在本体之间建立复杂的上下游关系,ADON-R方法可以大幅细化本体结构和扩展本体内外部关联。同时,图数据库实例分析证实,新构建的网络能够揭示深层次、跨领域的术语关联。 【结论】 该方法的建立为农业知识挖掘提供了可借鉴的思路,所形成的农业关系网络能够极大满足多领域农业学者调用和组织的需求。

本文引用格式

陈晓静 , 李威 , 李瑞航 , 林佳 , 姚琼 , 吴雯迪 , 樊景超 , 闫燊 , 王健 , 张建华 , 周国民 . ADON-R:基于语义相似与规则推理的农业本体网络构建方法[J]. 智慧农业, 2026 : 1 -14 . DOI: 10.12133/j.smartag.SA202510014

Abstract

[Objective] The agricultural knowledge ecosystem has long been hindered by "knowledge silos" arising from heterogeneous, multi-source ontologies—a critical bottleneck impeding the advancement of smart agriculture. Existing ontology reasoning approaches are typically confined to a single semantic dimension or rely solely on formal logical rules, rendering them inadequate for capturing the intricate biological relationships and cross-disciplinary knowledge structures inherent in agricultural domains. To address this challenge, agricultural deep ontology network-reasoner (ADON-R), a novel framework is proposed, that integrates semantic similarity with rule-based inference for constructing a unified agricultural ontology network. The aim is to establish a hybrid reasoning architecture that combines logical rigor with semantic discovery capabilities, enabling the systematic integration of 28 internationally recognized agricultural ontologies into a richly interconnected, structurally refined, and reliability-quantified knowledge network. [Methods] A dual-track inference architecture was designed, comprising a basic relational reasoning module and a graded relevance-based reasoning module. In the basic module, ten biologically plausible transitivity rules (R1-R10) were manually formulated based on four core relations defined by the open biomedical ontologies (OBO) Foundry: is_a, part_of, has_part, and regulates. These rules were implemented via explicit SPARQL(SPARQL Protocol and RDF Query Language) queries using the Apache Jena library to precisely complete missing triples, thereby establishing a logically consistent backbone for the knowledge network. This strategy prioritized interpretability and controllability, effectively avoiding rule conflicts or redundant derivations commonly introduced by generic reasoners. In the graded relevance-based module, a five-dimensional evidence framework was introduced, encompassing: definition-based similarity, semantic similarity, biological network proximity, functional trait alignment, and taxonomic co-reference. Semantic similarity was computed by embedding term definitions using the BioBERT pre-trained language model, followed by large-scale approximate nearest neighbor search via FAISS(Facebook AI Similarity Search) across more than 130 000 definition texts. To validate BioBERT's efficacy, comparative experiments were conducted on the STS-B(Semantic Textual Similarity Benchmark) benchmark, with performance evaluated using Spearman's rank correlation coefficient. The remaining four evidence dimensions were derived through string matching, Jena rule execution, and traversal of specific relation paths (e.g., regulates, subClassOf, only_in_taxon). Newly inferred relations were classified into four confidence tiers (I-IV) based on the number of independent supporting evidence types: Tier I required ≥3 heterogeneous evidence sources; Tier II required exactly 2; Tier III relied solely on definition-based similarity; and Tier IV represented associations supported by a single non-definition evidence type. To mitigate error propagation, only relations of Tiers I–III were permitted to participate in subsequent transitive inference under constrained conditions, while Tier IV relations were excluded from further chaining due to insufficient evidential support. [Results and Discussion] The experimental pipeline integrated approximately 167 887 terms and 249 603 initial relations from 28 agricultural ontologies. ADON-R generated 1 305 312 new ontology relations. The basic reasoning module contributed 182 779 triples, substantially expanding high-confidence is_a and part_of hierarchies through transitive closure. Within the graded relevance module, definition-based similarity yielded the largest volume of inferences (557 825 relations). Notably, only four Tier I relations were produced—reflecting the method's "high precision, low recall" design principle that prioritized consensus among multiple orthogonal evidence streams. Tier II comprised 3 539 relations, while Tiers III and IV each exceeded 557 825 and 561 165 relations, respectively, collectively forming a nuanced spectrum of inferred associations ranging from highly reliable to exploratory. On the STS-B test set, BioBERT achieved a Spearman correlation of 0.852 0—slightly below general-domain BERT (0.868 1) but outperforming specialized biomedical models such as ClinicalBERT (0.844 2) and BlueBERT (0.818 0)—demonstrating its suitability for domain-specific semantic understanding. Case studies in a graph database further illustrated ADON-R's capacity to uncover deep, cross-ontology connections. [Conclusions] The ADON-R framework successfully constructs a large-scale, structurally granular, and reliability-stratified agricultural ontology network, effectively mitigating knowledge fragmentation across heterogeneous sources. By harmonizing logical rule inference with deep semantic modeling, ADON-R not only preserves the logical integrity of core ontological structures but also substantially enhances the discovery of latent cross-domain associations. Its novel evidence-grading mechanism endows automatically inferred relations with actionable confidence labels, markedly improving the adaptability and robustness of the knowledge network in real-world applications. Although rigorous empirical validation remains pending, ADON-R provides a methodological foundation for knowledge infrastructure in smart agriculture.

0 引 言

农业本体是通过系统定义农业领域中的专业概念、属性、关系,以及逻辑规则1, 2,将分散的农业知识整合为机器可读、可推理的结构化知识体系3,从而推动农业科学研究与生产实践系统化、标准化和可持续发展的一种技术方法4, 5。然而,由于农业领域各学科存在知识壁垒6, 7,即便将涵盖广泛的农业本体集成在数据库中,也会形成显著的孤岛效应,从而导致农业知识服务响应迟缓8、跨学科协同研究受阻、作物灾害预警决策失误等严重影响农业现代化发展的后果9, 10。因此,编辑推理规则丰富本体关系,推动构建统一、互联的农业本体对齐网络,对推动农业数字化转型和可持续发展至关重要。
本体推理方法包括基于传统描述逻辑的推理方法、基于规则的方法、基于一阶谓词证明器的方法、基于逻辑编程的推理和基于语义相似度的推理等11,常用的推理方法有基于规则和基于语义相似度两大类12。在基于规则的方法中,通过应用预定义的规则推导新知识,通常使用“前提”和“结论”两部分定义规则,描述本体中的概念、属性、关系及其之间的逻辑联系,依赖推理引擎自动化推理过程,过程一般包括规则匹配、规则应用和知识推导。规则推理在多领域均有应用。例如,黄家豪等13开发了化工过程安全分析本体,提出了一种使用Jena的结合本体和领域专家知识的推理方法,以进行知识补全。徐鹏飞14在构建运动本体的基础上,分析本体属性关系,利用Jena推理引擎得到运动处方参数,为运动处方的监测和指导提供了数据支持。ERTUĞRUL等15使用改进方法创建医学临床知识本体,并将决策规则写入Jena,搭建决策支持系统根据患者的临床情况推断建议。BRENAS和SHABAN-NEJAD16提出在评估公共卫生干预措施中使用语义推理和因果推理,可以确定必须改变疾病因果路径中的元素,以阻止不期望的结果复发。在基于语义相似度的技术方法中,以计算对象间的相似性、推导相关知识或发现潜在联系为核心思想17,通过衡量本体的概念、实例或关系之间的语义相似度进行推理。该推理过程包括相似度计算18、相似性推导和知识融合,在研究中通常使用统计方法、图论算法或深度学习进行语义表示学习和相似度度量19。在计算生物学和生物信息学领域,使用预训练语言模型的深度学习推理方法能够保持较高的精确性和泛化能力20,因此受到广泛的关注和应用。例如,JEIPRATHA等21从基因本体的生物过程维度出发,构建了基因语义相似性网络模型,并将其成功应用于疾病相关基因的预测研究。ZHANG等22创新性地开发了一种基于基因本体结构特征的术语相似度计算方法,该方法使用了机器学习技术,在蛋白质互作预测方面展现出良好的效果。CARTEALY和LIAO23开发了一种基于查询蛋白和已知是给定途径成员的蛋白质之间的基因本体相似性的途径成员推理方法。然而,面向广泛农业领域的本体推理技术尚未成熟24,通用语言模型在高度专业的农学术语上理解能力有限,如何制定科学严格的知识推理规则,将不同来源、不同维度的相似性证据进行有效融合,仍是一个开放性问题。
近年来,融合规则与语义相似性的混合推理方法成为研究热点,旨在结合二者的优势。例如,在生物医学领域,一些研究利用本体的层次结构(规则基础)来约束或加权语义相似度的计算结果,以提高关系预测的准确性。然而,将这些现有方法直接应用于本研究面临的农业知识网络构建场景时,面临三大核心挑战。首先,领域特殊性与数据异构性构成了双重壁垒,源自28个异构来源的农业数据拥有高度专业的术语体系与关系类型,诸如农艺性状与栽培管理,且缺乏类似生物医学领域的统一标准,致使通用推理规则和语义模型难以适配此类跨领域高维度数据。其次,传统本体对齐方法主要局限于识别等价关系,难以满足在统一网络内部推理层级、组成及复杂潜在相关性等多样化新关系的需求,限制了深层语义关联的挖掘。最后,现有混合推理方法缺乏系统性的可靠性量化评估框架,无法为海量新推理关系提供确切的可信度度量,从而难以保障农业决策支持等高精度应用场景中知识应用的准确性与安全性。
针对上述瓶颈,本研究提出一种结合语义相似度计算与规则推理的农业深度本体网络推理方法——ADON-R(AgriculturalDeep Ontology Network-Reasoner),旨在构建兼具逻辑精确性与语义发现能力的综合推理体系。该方法采用逻辑与语义双轨并行的核心架构,首先通过基础关系推理模块利用10种生物学传递性规则精确构建知识网络的逻辑骨架以确保结构严谨性,随后建立涵盖定义、语义、生物网络、功能特性及参考物种5个维度的分级证据体系,并据此构建相关性关系推理模块。为解决农业术语高度专业化及海量计算难题,该模块创新性地融合领域预训练语言模型BioBERT25与FAISS(Facebook AI Similarity Search)向量检索技术,实现大规模高效率的语义相似度计算。最终,本研究采用分级融合策略整合不同来源与强度的推理证据,构建出规模宏大、关系丰富且可靠性可度量的农业本体知识网络,为打破农业知识孤岛及实现跨领域知识深度融合提供了行之有效的方法论与技术支撑。

1 材料与方法

1.1 试验数据

本研究的数据源于对28个国际公开的、与农业领域高度相关的生物医学本体的整合。这些本体覆盖了从宏观生态到微观分子等多个层级,主要包括农业综合本体(Agricultural Integrated Ontology)、植物本体(Plant Ontology)、基因本体(Gene Ontology)、化学实体本体(Chemical Entities of Biological Interest)、环境本体(Environment Ontology)、食品本体(Food Ontology)等。原始数据集以三元组(Subject, Predicate, Object)的形式存储,共包含约167 887个独立术语(实体)和249 603条初始关系(边)。为便于处理,所有数据均被整合并清洗,存储于CSV文件中。

1.2 ADON-R方法

1.2.1 模型框架

为了系统性地整合并扩充多源农业本体知识,本研究设计了ADON-R方法。该方法是一个双模块、多层次的推理系统,旨在将逻辑规则的精确性与数据驱动方法的发现能力相结合,以构建一个全面且可靠的农业本体知识网络。ADON-R的整体架构如图1所示,其核心流程包括两个并行执行的主模块:基础关系推理模块和分级相关性关系推理模块,最终将两模块的推理结果进行合并去重,导入图数据库形成最终的知识网络。
图1 ADON-R推理框架整体架构图

Fig. 1 Framework diagram for the construction of an agricultural ontology network

1)基础关系推理模块。该模块专注于处理本体中具有明确逻辑传递性的核心生物学关系,如is_a(是)、part_of(是...的一部分)等。通过应用预定义的、符合生物学常识的逻辑规则,该模块能够精确地补全分类层级和组成结构关系,为整个知识网络构建一个稳定可靠的骨架。
2)分级相关性关系推理模块。该模块旨在挖掘术语间更广泛、更复杂的潜在关联,这些关联往往缺乏严格的逻辑传递性,需要从多个维度的证据中综合判断。为此,本研究设计了一套包含5个子模块的多维证据提取体系,分别从定义、语义、生物网络、功能特性和参考物种5个角度挖掘术语间的关联证据。随后,通过分级融合与传递推理子模块,根据证据的强度和数量,将这些潜在关系划分为I级(强相关)到IV级(弱相关)4个等级,从而为推理出的新知识赋予了可靠性度量。该模块的核心创新在于引入了深度学习模型(BioBERT)进行大规模语义分析,并结合多种计算方法,实现了对异构证据的有效融合。
通过这一双轨并行的设计,ADON-R方法既保证了核心知识的逻辑严谨性,又极大地扩展了知识网络的广度与深度,为构建一个高质量的农业知识图谱提供了系统化的解决方案。

1.2.2 基于逻辑规则的本体基础关系推理

基础关系推理根据开放生物医学本体组织定义的生物学本体基础关系,除去各本体中自定义关系外,保留4项关系构建新三元组,则推理上可用的基础关系为is a、part of、has part和regulates。由于基础关系数量众多,推理规则繁冗复杂,为避免推理机规则应用顺序或冲突造成的错误,该模块采用手动设计规则的方式,Jena库仅作为辅助工具,本体基础关系推理模块的流程如图2所示。
图2 基于逻辑规则的本体基础关系推理流程图

Fig. 2 Flowchart of logic-based reasoning for fundamental ontology relationships

具体过程如下:
1)读取数据,创建RDF模型。读取CSV文件中Subject、Predicate、Object的3列数据,将数据加载到1个Jena的集合接口List<String[]>中。使用Jena库的Model类,对于从CSV文件中读取的每一行数据,用“http://example.org/”作为基本前缀来构建统一资源标识符(Uniform Resource Identifier,URI)。
2)基于查询的显式推理。使用findRelatedByPredicate和findRelatedSubjects方法通过SPARQL(SPARQL Protocol and RDF Query Language)查询找到与指定资源相关的对象,去掉URI前缀,保留本体,将结果加入列表。其中指定的规则包括以下10种:
R1:(a <is_a> b) and (b <is_a> c) -> (a <is_a> c),如果a是b的子类,b是c的子类,那么a是c的子类。
R2:(a <part_of> b) and (b <is_a> c) -> (a <part_of> c),如果a是b的一部分,b是c的子类,那么a是c的一部分。
R3:a <has_part> b) and (b <is_a> c) -> (a <has_part> c),如果a包含b,b是c的子类,那么a包含c。
R4:(a <regulates> b) and (b <is_a> c) -> (a <regulates> c),如果a调控b,b是c的子类,那么a调控c。
R5:(a <is_a> b) and (b <part_of> c) -> (a <part_of> c),如果a是b的子类,b是c的一部分,那么a是c的一部分。
R6:(a <part_of> b) and (b <part_of> c) -> (a <part_of> c),如果a是b的一部分,b是c的一部分,那么a是c的一部分。
R7:(a <is_a> b) and (b <has_part> c) -> (a <has_part> c),如果a是b的子类,b有c作为一部分,那么a是c的一部分。
R8:(a <has_part> b) and (b <has_part> c) -> (a <has_part> c),如果a有b作为一部分,b有c作为一部分,那么a有c作为一部分。
R9:(a <is_a> b) and (b <regulates> c) -> (a <regulates> c),如果a是b的子类,b调控c,那么a也调控c。
R10:(a <part_of> b) and (b <regulates> c) -> (a <regulates> c),如果a是b的一部分,b调控c,那么a也调控c。
去重,保存结果。将推理结果保存为CSV文件,为验证方法准确性,在三元组旁增加一列输出推理过程。另外,由于存在推理层次的交叉影响,在推理过程中一个数据组合符合多个层次的推理条件时,会导致重复计算,生成相同的推理结果,同时,由多项推理规则得出的结果可能会与原始数据重合,因此进行两次去重以保证结果唯一性。

1.2.3 基于分级证据的相关性关系推理

在建立新的本体关系时,鉴于生物体生命活动的多元性与复杂性,简单的是非判断已不足以描述关系的置信度。尤其在无法进行大规模专家标注以计算精确率等指标的情况下,建立一套内在的质量控制机制至关重要。为此,本研究设计了一套分级证据体系,它既是推理的依据,也是一种对推理关系可靠性的量化评估指标。其核心思想是:一个关系所能满足的独立、不同维度证据的数量,直接决定了其可靠性等级。
本研究提出4级相关性体系,分别为I级相关、Ⅱ级相关、Ⅲ级相关和Ⅳ级相关。本研究制定了5种不同维度的相关性作为分级体系的基础证据:定义相关、语义相关、生物网络相关、功能特性相关和参考物种相关。等级划分规则如下。
1)I级相关(最高可靠性)。若术语间同时满足至少3项不同维度的相关性证据,则判定为I级相关。这种“多源共指”的严苛标准确保了该级别关系的最高置信度。
2)Ⅱ级相关(较高可靠性)。若术语间同时满足两项相关性证据,则为Ⅱ级相关。
3)Ⅲ级相关(中等可靠性)。定义相关性源于本体的标准化定义文本,具有较好的规范性,可作为Ⅲ级相关的唯一证据。
4)Ⅳ级相关(潜在关联)。除定义相关外,若术语间仅满足其他4种相关性中的任意一项,则为Ⅳ级相关。此类关系作为“孤证”,更多用于探索性分析和假设生成。
该分级体系采用证据支持强度递减的方法,有效降低了关系建立过程中的新增错误,并为下游应用提供了差异化的置信度选择。基于此,相关性关系推理模块下设5个相关性子模块,子模块全部推理完毕后,再基于子模块结果数据推理分级相关性关系。

1.2.3.1 定义相关性推理模块

定义相关,即术语A在定义过程中,直接标注为参考了术语B,或者认为与术语B相关。该相关性推理模块的主要方法思路是检查外部参考属性文本与术语名称的匹配程度,同时计算定义与术语名称的Jaccard相似度,从而识别并提取定义相关的术语关系。本体定义相关性模块的推理流程如图3所示,具体推理流程如下。
图3 术语定义引用识别流程图

Fig. 3 Flowchart for term citation identification in definitions

1)基于外部参照列字符串匹配。因为xref列可能包含多个值,首先拆分xref字段,过滤乱码无效数据。其次,对于每个xref值,检查它是否与任何行的ontology_id列匹配,如果匹配,则生成(Vertex_ID1,定义相关,Vertex_ID2)三元组,其中Vertex_ID1是当前行的Vertex_ID,Vertex_ID2是与xref匹配的行的Vertex_ID。最后,对于每个xref值,再检查它是否与任何行的 name列匹配,如果匹配,则生成(Vertex_ID1,定义相关,Vertex_ID2)三元组。
2)基于改进的Jaccard相似度计算方法匹配。尽管传统Jaccard相似度已经适用于文本词集合相似度计算,但当两个文本集合中只存在少数共同元素,可能会给出较低的相似度结果,不能反映它们之间的实际相似度。例如,如果A=“soil”,B=“soil is essential for plant growth”,那么AB = {“soil”},交集的大小为1,AB = {“soil”,“is”,“essential”,“for”,“plant”, “growth”},并集的大小为6,Jaccard相似度计算J(AB) = 0.166 7。在农业本体构建过程中,术语名称和定义文本的长度通常相差较大,使用传统Jaccard相似度并不合理,所以为了有效衡量术语是否存在于定义中,优化Jaccard相似度计算的关键在于计算文本交集词汇比例,将分母替换为短文本词数,只要名称出现在定义中,且覆盖比例较高,就会得到更合理的相似度。改进版Jaccard计算如公式(1)所示。
J ' A , B = A B B
式中:A为定义文本对应的词集合;B为术语名称对应的词集合; A B为两个集合共有的单词数量;∣B∣是术语名称的词数。
定义好改进版Jaccard计算公式后,编写代码构建1个字典,将name值作为键,对应的Vertex_ID作为值,遍历def列数据,计算其与所有name的改进Jaccard相似度,当相似度达到1.0的阈值,表示完全匹配,记录该匹配结果,生成三元组数据,与基于外部参照列字符串匹配中的结果合并去重,保存三元组结果至新CSV文件。

1.2.3.2 语义相关性推理模块

语义相关,即术语A的语义解释与术语B的语义解释类似。该推理模块的主要思路是运用验证过有效性的BioBERT预处理定义文本数据,引入FAISS加速大规模数据集的相似度计算,配合向量化方法实现快速获取目标句子对,并显著提高计算效率。
该模块为无监督语义相似性推理,因此在使用BioBERT实际应用于本体推理之前,需要先在已有的标注数据集上进行验证。本研究选取国际语义评测大赛SemEval2017发布的STS-B(Semantic Textual Similarity Benchmark)数据集(https://huggingface.co/datasets/mteb/stsbenchmark-sts)作为实验数据源,该数据集是新闻标题、视频标题、图像标题等中提取的英文句子对的集合,由领域专家进行人工标注,采用0~5的连续评分体系对句对语义相似度进行量化表征,其中5分表示语义完全等同,0分则表明语义完全无关,通过这一权威数据集与标准化评估体系,可以系统验证BioBERT模型在语义相似度任务中的性能表现。同时,设置BERT、ClinicalBERT、Sentence-BERT和BlueBERT作为实验的对比模型,5种模型在生物医学领域均应用广泛,该实验不仅可以验证BioBERT在语义相似度推理中的有效性,还可以评估生物医学预训练模型的性能差异。
经过有效性验证后,模块使用BioBERT模型与FAISS结合进行句向量计算与相似度搜索。BioBERT基于BERT针对生物医学领域的自然语言处理任务进行了优化,因此相较于通用BERT,它能够更准确地理解生物医学术语和科学概念,在生物医学相关数据集上的性能更佳。FAISS是Facebook AI团队开源的针对高维空间中的海量数据(稠密向量),提供的高效且可靠的相似性聚类和检索方法,是目前最为成熟的近似近邻搜索库,非常适合处理大规模数据集。
推理模块由BioBERT文本向量化层、FAISS向量索引层和欧氏距离相似度计算层组成。
首先,通过使用分词器将输入的术语定义文本转换为BioBERT所需的输入格式(即Token IDs),随后输入BioBERT模型进行嵌入处理,在BioBERT内部,经过3种Embedding处理,即Token Embeddings(词向量):每个Token ID映射为768维向量,用于表示词的语义信息;Position Embeddings(位置编码):为Token提供位置信息,确保模型能区分不同Token在句子中的顺序;Segment Embeddings(句子片段编码):输入为单句,则所有Token赋值为0,这3种Embedding相加后形成最终的Token级别向量表示。然后输入到多层Transformer编码器进行计算,在Transformer编码器的每1层,模型利用自注意力机制计算每个Token与其他Token之间的关系,并不断优化每个Token的表示,捕捉更深层次的语义信息。最终,[CLS]标记的输出向量被认为是整个句子的语义表示,至此,输入文本被转换为768的高维句向量,过程如公式(2)~公式(5)所示。
i n p u t s = C L S , t 1 , t 2 , L , t n , S E P
E m b e d d i n g = T + P + S
H I L = L a y e r n o r m H I L - 1 + S e l f A t t e n t i o n H I L - 1
S e n t e n c e E m b e d d i n g = H C L S
式中:[CLS]为句子的开始标记;[SEP]是句子的结束标记;t 1t 2t n为句子的Token;T(Token Embedding)表示Tokenizer将输入的文本分解为Token,并将其映射到模型的词汇表中,得到每个token的嵌入表示;P(Position Embedding)表示为每个Token添加位置信息,以便模型知道每个Token在句子中的相对位置;S(Segment Embedding)表示句子类型,在单句任务中,所有Token都会被赋予相同的段编码(通常是0);HIl)是第l层中第i个Token的表示。
其次,利用FAISS索引对所有句向量进行高效存储和查询,使用L 2距离(即欧氏距离)计算句子间相似度。
最后,通过FAISS查询相似度,计算给定查询向量与索引中所有向量的L 2距离,并返回与查询向量最相似的所有向量的索引和距离,筛选出符合阈值<0.1条件的相似句子对,并生成最终的匹配结果。其中L 2距离计算、查询和筛选如公式(6)~公式(8)所示。
d i s t q , x = i = 1 d q i - x i 2
d i s t _ s q q , x i = i = 1 d q 1 - x i 1 2 + q 2 - x i 2 2 + + q d - x i d 2
d i s t _ s q q , x i < t h r e s h o l d
式中:q为查询向量;x为索引中的向量;d为向量的维度;threshold为设定阈值。

1.2.3.3 生物网络相关性推理模块

生物网络相关,即术语A在生物网络中的直接下游产物与术语B相关。该相关性推理模块的主要思路是通过regulates、positively_regulates、negatively_regulates和develops_from关系查找术语的下游产物,从而识别并提取生物网络相关的术语关系,具体推理流程如下。
1)定义规则。将生物网络相关性推理逻辑归纳到一个以“rules”命名的文本研究件中,定义的规则包括以下8种。
R1:(a <regulates> b) and (b <rel> c) -> (a <生物网络相关> c),如果a调控b,b与c有某种关系,那么a与c具有生物网络相关的关系。
R2:(a <positively_regulates> b) and (b <rel> c) -> (a <生物网络相关> c),如果a正向调控b,且b与c有某种关系,那么a与c具有生物网络相关的关系。
R3:(a <negatively_regulates> b) and (b <rel> c) -> (a <生物网络相关> c),如果a负向调控b,且b与c有某种关系,那么a与c具有生物网络相关的关系。
R4:(a <develops_from> b) and (a <rel> c) -> (b <生物网络相关> c),如果a是从b发展而来的,并且a与c有某种关系,那么b与c具有生物网络相关的关系。
R5:(a <regulates> b) and (c <rel> b) -> (a <生物网络相关> c),如果a调控b,并且c与b有某种关系,那么a与c具有生物网络相关的关系。
R6:(a <positively_regulates> b) and (c <rel> b) -> (a <生物网络相关> c),如果a正向调控b,并且c与b有某种关系,那么a与c具有生物网络相关的关系。
R7:(a <negatively_regulates> b) and (c <rel> b) -> (a <生物网络相关> c),如果a负向调控b,并且c与b有某种关系,那么a与c具有生物网络相关的关系。
R8:(a <develops_from> b) and (c <rel> a) -> (b <生物网络相关> c),如果a是从b发展而来的,并且c与a有某种关系,那么b与c具有生物网络相关的关系。
2)使用Jena内建规则解释器执行推理。使用Jena的GenericRuleReasoner创建推理引擎,该方法解析规则文件中的规则,并创建对象,使用ModelFactory.createInfModel(Reasoner, Model) 创建一个推理后的模型(InfModel),获取推理后的所有三元组,最后将推理结果添加到结果列表中保存为CSV。

1.2.3.4 功能特性相关性推理模块

功能特性相关,即术语A和术语B自同一父类,且具有类似的特性。该相关性推理模块的主要思路是通过subClassOf识别术语之间的继承关系,利用父类推导出具有相似特性的子类之间的相关性。具体推理流程如下。
1)定义规则。将功能特性相关性推理逻辑写入规则文本研究件中,所定义规则如下:
R:(a <subClassOf> b) and (c <subClassOf> b) -> (a <功能特性相关> c),如果a是b的继承子类,且c也是b的继承子类,那么a与c之间具有功能特性相关的关系。
2)使用Jena内建规则解释器执行推理。使用Jena创建推理引擎,推理能生成新的RDF(Resource Description Framework)三元组数据。

1.2.3.5 参考物种相关性推理模块

参考物种相关,即在某物种中已有实验证实术语A与术语B相关。该相关性推理模块的主要思路是通过聚焦共同适用的物种术语,联系两个本身独立的术语,以探究隐藏的相关性知识。具体推理流程如下。
1)定义规则。将功能特性相关性推理逻辑写入规则文本研究件中,所定义规则如下。
R:(a <only_in_taxon> b) and (c <only_in_taxon> b) -> (a <参考物种相关> c),如果a和c都仅适用于b这个物种或类群,那么a和c之间具有参考物种相关的关系。
2)使用Jena内建规则解释器执行推理。使用Jena创建推理引擎。值得注意的是,数据中存在Mus musculus和Homo sapiens两个术语,分别代表研究中常见的小鼠和人类物种,这两个物种的研究极为庞大且关系复杂,偏离参考物种相关性推理的研究目标,为了避免引入过多复杂的关联并确保推理结果的专注性,跳过这两个物种的相关性推理,这一决定同时也是基于计算效率和资源管理的考虑,旨在确保整个推理过程的可操作性和稳健性。

1.2.3.6 分级相关性关系推理模块

基于以上5种相关性结果推理分级相关性关系,具体流程如下。
1)基于统计的构建推理。编写脚本,首先,从5个相关性结果文件中提取主语、宾语组合,统计哪些组合在多个文件中重复出现,筛选出至少出现在3个文件中的组合,构建I级相关原始数据集;同理,筛选出现在两个文件中的组合,构建Ⅱ级相关数据集。其次,分别读取除定义相关的其余4个文件中主语、宾语组合,同时提取I级相关和Ⅱ级相关数据的主语、宾语组合存入集合,过滤掉文件与集合中组合重复的行,生成Ⅳ级相关数据集。最后,定义相关结果即为Ⅲ级相关数据集。
2)定义规则。使用Jena库作为辅助,由于在构建分级关系时,使用不同级别的相关性来标定证据的充分性和可靠性,Ⅲ级相关被规定为术语A在定义过程中,直接标注为参考了术语B,或者在相似度计算中认为与术语B相关,因此无法进一步直接参与传递推理。Ⅳ级相关属于孤证类型,表明只有单一相关证据支持该关系,这种级别的相关性表明其证据的支持极为薄弱,仅能作为偶然发现或推测的关系,且其推理结果的可靠性较差,为了严格避免引入新的推理结果,传递推理时完全停止基于此类关系进行进一步推导。因此,定义的规则有以下几种。
R1:(a <I级相关> b) and (b <I级相关> c) -> (a <I级相关> c),如果术语a和b之间具有I级相关关系,且术语b和c之间具有I级相关关系,那么可以推理出术语a和c之间也具有I级相关关系。
R2:(a <Ⅱ级相关> b) and (b <I级相关> c) -> (a <Ⅱ级相关> c),如果术语a和b之间具有Ⅱ级相关关系,且术语b和c之间具有I级相关关系,那么a和c之间可以推理出有Ⅱ级相关关系。
R3:(a <Ⅲ级相关> b) and (b <I级相关> c) -> (a <Ⅱ级相关> c),如果术语a和b之间具有Ⅲ级相关关系,且术语b和c之间具有I级相关关系,那么可以推理出术语a和c之间具有Ⅱ级相关关系。
R4:(a <I级相关> b) and (b <Ⅱ级相关> c) -> (a <Ⅱ级相关> c),如果术语a和b之间具有I级相关关系,且术语b和c之间具有Ⅱ级相关关系,那么可以推理出术语a和c之间具有Ⅱ级相关关系。
R5:(a <Ⅱ级相关> b) and (b <Ⅱ级相关> c) -> (a <Ⅱ级相关> c),如果术语a和b之间具有Ⅱ级相关关系,且术语b和c之间也具有Ⅱ级相关关系,那么可以推理出术a和c之间具有Ⅱ级相关关系。
R6:(a <I级相关> b) and (b <Ⅲ级相关> c) -> (a <Ⅱ级相关> c),如果术语a和b之间具有I级相关关系,且术语b和c之间具有Ⅲ级相关关系,那么可以推理出术语a和c之间具有Ⅱ级相关关系。
3)基于查询的显式推理。输出推理过程验证并去重,保存推理得到的三元组。

1.3 试验环境与设置

本研究所有试验均在以下环境中进行:操作系统为Windows 11,CPU为12th Gen Intel(R) Core(TM) i5-12500 @ 3.00 GHz,内存(RAM)为32.0 GB,GPU为NVIDIA GeForce RTX 3080(10 GB显存)。软件环境基于Python 3.10,深度学习部分采用PyTorch 2.0.0框架,本体处理与规则推理部分则使用Java环境下的Apache Jena库。
各推理模块的数据集均从整合后的主数据集中按需抽取,具体数据量见表1。在语义相关性推理模块的有效性验证实验中,本研究使用了STS-B数据集。在清洗了异常数据后,共保留8 607对句子,并按8∶2的比例随机划分为训练集(6 886对)和测试集(1 721对)。
表1 本体网络推理框架中各模块实验数据集

Table 1 Datasets for modules in the ontology network reasoning framework

模块名称 数据内容 数据量
基础关系性推理模块 is a、part of、has part和regulates关系数据 158 731
定义相关性推理模块 Vertex_ID、name、ontology_id、def和xref属性数据 167 887
语义相关性推理模块 Vertex_ID和def属性数据 131 817
STS-B数据集 总计8 607,训练集6 886,测试集1 721
生物网络相关性推理模块 全部关系数据 249 603
功能特性相关性推理模块 subClassOf关系数据 14 419
参考物种相关性推理 only_in_taxon关系数据 37 500
分级相关性关系推理模块 I级相关、Ⅱ级相关、Ⅳ级相关、Ⅲ级相关关系数据 I级相关4,Ⅱ级相关3 085,Ⅳ级相关561 165,Ⅲ级相关557 825

1.4 评估指标

在语义相关性推理模块的模型有效性检验中,本研究采用斯皮尔曼等级相关系数作为评估指标,用以量化模型预测值与专家人工标注的语义相似度评分之间的统计关联程度,其具体计算如公式(9)所示。
ρ = 1 - 6 d i 2 n n 2 - 1
式中: ρ为斯皮尔曼相关系数;di 为第i对数据点的排名差,即预测分数与专家标注分数的排名差异;n为样本数量。
结果分为以下几种情况: ρ=1表示完全正相关, ρ=0表示没有相关性, ρ= -1表示完全负相关。使用模型进行多次训练测试,斯皮尔曼相关系数取多次试验调参后的平均值。

2 结果与分析

2.1 BioBERT模型语义相似度分析有效性验证

在语义相关性推理中,为评估所选BioBERT模型在语义相似度计算方面的有效性,本研究将其与4种主流句向量语义表征模型在STS-B数据集上进行了对比测试。各基础模型的性能对比详见表2。结果显示,通用预训练模型BERT获得了最高的斯皮尔曼相关系数(0.868 1),表明其具有较强的上下文理解与文本关系捕捉能力。BioBERT的相关系数为0.852 0,仅次于BERT,说明其在语义相似度分析任务中表现优异。此外,BioBERT是基于BERT、针对生物医学领域文本进行优化的版本,对专业领域的术语与语义具有更强的适应性。因此,尽管其整体数值略低于BERT,但应用于农业本体语义分析任务时可能更具领域优势。对比同为生物医学领域的模型,BioBERT的性能显著优于ClinicalBERT(0.844 2)和BlueBERT(0.818 0),分别高出0.007 8和0.034 0,进一步证实其在本研究句子对相似度计算任务中的适用性。
表2 5种句向量语义表征模型性能对比

Table 2 Performance comparison of five sentence vector semantic representation models

模型 基础模型 斯皮尔曼相关系数
BERT bert-base-uncased 0.868 1
BioBERT biobert-base-cased 0.852 0
ClinicalBERT Bio_ClinicalBERT 0.844 2
Sentence-BERT paraphrase-MiniLM-L6-v2 0.841 4
BlueBERT Bluebert_pubmed_mimic_uncased_L-12_H-768_A-12 0.818 0

2.2 农业本体网络推理关系数量分析

农业本体网络推理共得到1 305 312条本体新关系。表3统计了经过每个推理过程后新增的三元组关系数目。其中,基础关系是本体网络中的核心关系,182 779条关系表明在本体之间构建了强有力的生物学规则连接。在5种相关性推理中,定义相关性推理产生了最多的推理结果,总计557 825条,由本体自身定义层级得到的相关关系具有一定的可靠性,能够在分级推理中具有关键作用。
表3 推理结果中不同关系三元组数量

Table 3 Number of different relational triples in the inference result

关系名称 基础关系推理 5种相关性推理 4级分级相关性推理 本体网络推理总计
构建推理 规则推理
基础关系 182 779 0 0 0 182 779
定义相关 0 557 825 0 0 0
生物网络相关 0 117 158 0 0 0
参考物种相关 0 28 502 0 0 0
语义相关 0 257 986 0 0 0
功能特性相关 0 160 750 0 0 0
I级相关 0 0 4 0 4
Ⅱ级相关 0 0 3 085 586 3 539
Ⅲ级相关 0 0 557 825 0 557 825
Ⅳ级相关 0 0 561 165 0 561 165

注:基础关系推理过程、4级分级相关性推理过程和本体网络推理总计均有去重。

从I级到Ⅳ级的分级推理分别生成了4、3 539、557 825和561 165条关系。I级关系仅有4条,与关系总数形成巨大反差。这并非方法的缺陷,而是由其极其严苛的判定标准(需同时满足≥3项独立证据)所导致的必然结果。这种“高精度、低召回”的设计旨在筛选出置信度最高的“基石”关系,确保知识网络核心的可靠性。而II、III、IV级关系数量的逐级增大,则说明了分级证据支撑体系能够在保证严谨性的前提下,逐层放宽约束,从而在本体之间建立起从强到弱、覆盖广泛的复杂上下游关系,增强了推理方法的深度和全面性。
4项关系的原始数据和推理结果的数量对比情况如图4所示,is_a关系的原始数据是4项关系中最高,达到了141 046,在推理结果中,该项数量为153 867,has_part、is_a、part_of、regulates4项关系的原始数据和推理结果之差分别为1 429、12 821、7 276和2 522,is_a和part_of差异显著较大,可能是由于该两项关系在知识表示中具有较强的基础性和传递性,容易通过推理进行扩展,has_part和regulates差值相对较小,表明它们在推理过程中的扩展性较弱。
图4 农业本体4项关系推理原始数据与结果三元组数量对比

Fig. 4 Quantity comparison of original data vs. result triples in 4 basic agricultural ontology relation reasoning tasks

根据表4提供的数据可以分析各本体的4级分级关系在本体内部和本体间的分布情况。在本体内部,大部分本体的I级、Ⅱ级相关数量较少,而在Ⅳ级相关中,部分本体呈现出明显较高的数量,这可能表明本体内部的细分关系大多为单证据支持的潜在关联。在本体间,关系数量普遍较低,尤其在I级和Ⅱ级关系上,这反映出跨本体建立强相关链接的难度。总体来看,本体内部的I级和Ⅱ级相关性相对更多,这些由两种以上证据支撑的关系结果更为严谨可靠。
表4 分级关系推理各本体内部和本体间关系数量对比

Table 4 Comparison of the quantity of original data and result triplets in 4 relationreasoning tasks

本体名称 本体内部 本体之间
I级相关 Ⅱ级相关 Ⅲ级相关 Ⅳ级相关 I级相关 Ⅱ级相关 Ⅲ级相关 Ⅳ级相关
atol 0 0 0 13 004 0 0 2 192 0
lpt 0 0 101 282 0 0 2 416 0
flopo 0 0 7 66 020 0 0 28 671 0
assfo 0 27 144 1 698 0 2 1 531 0
chebi 0 0 1 888 102 0 0 9 549 32
cdno 0 0 1 527 84 0 1 12 146 82
omo 0 0 17 0 0 0 86 0
cl 3 1 538 18 300 91 324 1 371 85 772 20 816
lbo 0 0 51 0 0 0 1 699 0
eol 0 16 249 3 110 0 0 2 702 0
ecocore 0 910 7 793 23 698 1 275 50 704 13 776
foodon 0 277 11 270 54 313 0 3 74 571 16
po 0 74 2 630 1 152 0 0 10 504 58
envo 0 0 3 127 26 0 0 15 542 19
aeo 0 0 56 2 0 1 3 635 92
pato 0 0 2 189 50 0 4 33 425 6
EDAM 0 0 8 016 2 0 3 99 953 0
so 0 0 4 344 196 0 0 82 587 0
seont 0 0 1 248 2 0 1 52 040 2
peco 0 0 379 8 0 0 4 199 51
agro 0 50 905 21 137 0 0 15 454 560
to 0 0 6 025 18 0 0 41 645 86
OBIws 0 4 151 566 0 0 1 151 544
go 0 215 6 983 6 497 0 82 49 124 7 287
pso 0 56 375 190 0 0 5 813 13
sfwo 0 0 428 0 0 0 36 718 0
pro 0 0 22 204 255 958 0 1 180 772 12
ro 0 0 9 0 0 0 10 217 0
图5表示本体原始定义的内部和跨关系与本体网络推理结果的数量对比情况。在本体网络推理下,本体内关系增长了743 841条,本体之间关系增长了561 471条,这一显著增长表明,本体原始定义较为简化,推理算法能够高效识别并生成更多的本体关系,从而大幅细化本体结构和扩展本体内外部关联,不仅体现了推理算法对现有定义的扩充能力,还凸显了其在挖掘潜在关系方面的强大潜力,表明了本体推理在知识发现与知识体系完善中发挥了重要作用。
图5 农业本体网络推理原始数据与结果三元组数量对比

Fig. 5 Quantity comparison of original data vs. resultant triples in agricultural ontology network reasoning tasks

2.3 图数据库实例分析

以编号为40的AGRO_00000049术语为例,将推理前全部关系与推理后关系数据对比分析,图6图7直观展现了关系数量的扩增情况,40(AGRO_00000049)犁底层放置术语原始关联术语为27(AGRO_00000036)应用方法,通过推理得到关联术语还包括521(AGRO_00000651)犁沟、37(AGRO_00000046)深层施肥、158894(CHEBI:33232)应用、84501(PATO:000068943)连续的、(AGRO_00000052)土壤注入、160117(ENVO:00001998)土壤、70139(EDAM_topic:0780)植物等。由此,本体新关系构建所形成的关系网络能够极大地满足多种不同研究层次调用和组织的需求,农业科研人员可以利用这一网络精准定位特定术语间的细微关联,整合链接多方面的相关数据,促进跨学科研究的开展,该网络为优化农业生产系统、制定合理的农业管理策略提供了坚实依据。
图6 编号为40的AGRO_00000049术语推理前所有关系

Fig. 6 All relationships before reasoning for term AGRO_00000049 numbered 40

图7 编号为40的AGRO_00000049术语推理后所有关系

Fig. 7 All relationships after reasoning for term AGRO_00000049 numbered 40

3 结论与展望

针对传统农业向智慧农业转型过程中面临的知识孤岛与多源异构本体整合难题,本研究构建并验证了融合深度学习与多策略推理的农业本体网络推理框架ADON-R。该方法旨在通过系统化的技术路径打破数据壁垒,实现从分散数据到综合知识的价值跃升。研究的核心创新在于提出了一种互补型的混合推理架构,有效克服了单一方法论的局限。一方面利用逻辑规则推理确立知识网络核心骨架的逻辑严谨性,另一方面借助数据驱动方法极大地扩展了知识覆盖的广度与深度。其中,引入以BioBERT模型和FAISS技术为核心的深度学习管道,不仅精准捕捉了专业术语定义中的深层语义,还成功解决了大规模向量相似性搜索的效率瓶颈。在包含28个农业相关本体的测试集上,ADON-R展现出卓越的性能,成功推理出1 305 312条新关系,显著提升了知识网络的密度与连通性;其核心语义模块在标准测试集上的斯皮尔曼系数达到0.852 0,进一步证实了该技术路线在处理大规模异构本体时的鲁棒性与有效性。
为解决大规模专家标注缺失的现实约束,本研究建立并验证了一套分级证据体系,实现了对推理关系可靠性的量化评估。该体系通过融合定义及语义等5种不同维度的证据,为每一条新关系赋予从I级至IV级的明确置信度等级。这一内在的质量控制机制在知识的规模与准确性之间取得了有效平衡,为下游应用提供了高度的灵活性:自动化决策等高精度应用场景可优先采用稀少但可靠的I级与II级关系,而知识发现与探索性分析则可利用更广泛的III级与IV级关系。定性分析表明,经此方法重构的知识网络形成了具有深度语义的知识簇,术语间的联系远比原始定义更为紧密,能够有效支撑跨学科知识查询,并为精准育种及智能农场管理等领域提供强有力的数据驱动决策支持。
尽管ADON-R在构建统一农业知识网络方面表现出巨大潜力,但目前的研究仍存在局限性。现阶段对推理结果的评估主要依赖于定量统计、定性抽样以及基于分级体系的间接验证,尚未全面开展基于专家标注的直接精确率计算。未来的工作将致力于建立更直接的评估体系,通过邀请领域专家对不同等级推理结果进行抽样标注以获取核心实证指标。同时,基于ADON-R的模块化设计,后续研究将探索引入科研文献挖掘与实验数据分析等更多类型的证据来源,以进一步增强系统的推理能力与应用广度,从而为智慧农业的知识基础设施建设提供更为坚实的技术支撑。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

[1]
FONOU-DOMBEU J V, NAIDOO N, RAMNANAN M, et al. OntoCSA: A climate-smart agriculture ontology[J]. International journal of agricultural and environmental information systems (IJAEIS), 2021, 12(4): 1-20.

[2]
陈宝发, 任妮. 面向农业学者领域的本体构建及可视化研究[J]. 江苏农业科学, 2023, 51(18): 191-200.

CHEN B F, REN N. Ontology construction and visualization research for agricultural scholars field[J]. Jiangsu agricultural sciences, 2023, 51(18):191-200.

[3]
HOU Z W, JING W L, QIN C Z, et al. Prospects on mangrove knowledge services in the smart era: from plant atlas to knowledge graphs[J]. Science China earth sciences, 2025, 68(1):111-127.

[4]
GOLDSTEIN A, FINK L, RAVID G. A framework for evaluating agricultural ontologies[J]. Sustainability, 2021, 13(11): ID 6387.

[5]
RODRÍGUEZ-REVELLO J, BARBA-GONZÁLEZ C, RYBINSKI M, et al. KNIT: Ontology reusability through knowledge graph exploration[J]. Expert systems with applications, 2023, 228: ID 120239.

[6]
SHOAIP N, EL-SAPPAGH S, ABUHMED T, et al. A dynamic fuzzy rule-based inference system using fuzzy inference with semantic reasoning[J]. Scientific reports, 2024, 14: ID 4275.

[7]
SCHLINDWEIN S L. Breaking down disciplinary silos in search of interdisciplinary integration in postgraduate agroecosystems research[J]. Kybernetes, 2025, 54(11):6507-6518.

[8]
杨晨雪, 李娴, 周清波. 知识图谱驱动下粮食生产大数据应用现状与展望[J]. 智慧农业(中英文), 2025, 7(2): 26-40.

YANG C X, LI X, ZHOU Q B. Knowledge graph driven grain big data applications: Overview and perspective[J]. Smart agriculture, 2025, 7(2): 26-40.

[9]
VAN GINKEL M, BIRADAR C. Drought early warning in agri-food systems[J]. Climate, 2021, 9(9): 134..

[10]
WU P Q, ZHONG Y X. Artificial intelligence in sustainable agriculture: towards a socio-technical roadmap[J]. Smart agricultural technology, 2025, 12:101578.

[11]
刘聪琳. 基于本体的高支模事故知识建模与推理研究[D]. 扬州: 扬州大学, 2021.

LIU C L. Research on knowledge modeling and reasoning of high formwork accident based on ontology[D]. Yangzhou: Yangzhou University, 2021.

[12]
WU J T, ORLANDI F, O'SULLIVAN D, et al. An ontology model for climatic data analysis[C]// 2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS. Piscataway, New Jersey, USA: IEEE, 2021: 5739-5742.

[13]
黄家豪, 王冰, 唐漾. 化工安全知识图谱的本体设计与基于规则推理的知识补全[J/OL]. 控制工程. (2024-05-09)[2025-10-08].

HUANG J H, WANG B, TANG Y. Ontology design of chemical safety knowledge graph and a rule-based inference approach for knowledge completion[J/OL]. Control engineering of China. (2024-05-09) [2025-10-08].

[14]
徐鹏飞. 基于本体推理与相似性融合计算的运动处方推荐方法研究与应用[D]. 西安: 西安理工大学, 2021.

XU P F. Research on exercise prescription recommendation method with ontology reasoning and similarity fusion calculation[D]. Xi'an: Xi'an University of Technology, 2021.

[15]
ERTUĞRUL D Ç, AKCAN N, BITIRIM Y, et al. A knowledge-based decision support system for inferring supportive treatment recommendations for diabetes mellitus[J]. Technology and health care, 2023, 31(6):2279-2302.

[16]
BRENAS J H, SHABAN-NEJAD A. Health intervention evaluation using semantic explainability and causal reasoning[J]. IEEE access, 2020, 8: 9942-9952.

[17]
ZHANG S B, TANG Q R. Protein–protein interaction inference based on semantic similarity of gene ontology terms[J]. Journal of theoretical biology, 2016, 401: 30-37.

[18]
韩程程, 李磊, 刘婷婷, 等. 语义文本相似度计算方法[J]. 华东师范大学学报(自然科学版), 2020(5): 95-112.

HAN C C, LI L, LIU T T, et al. Approaches for semantic textual similarity[J]. Journal of East China normal university (natural science), 2020(5): 95-112.

[19]
KAMRAN A B, NAVEED H. GOntoSim: A semantic similarity measure based on LCA and common descendants[J]. Scientific reports, 2022, 12: ID 3818.

[20]
WANG B Y, XIE Q Q, PEI J H, et al. Pre-trained language models in biomedical domain: a systematic survey[J]. ACM Computing surveys, 2023, 56(3):1-52.

[21]
JEIPRATHA P N, VASUDEVAN B. Optimal gene prioritization and disease prediction using knowledge based ontology structure[J]. Biomedical signal processing and control, 2023, 82:104548.

[22]
ZHANG F, M A Z M, LI W J. Storing OWL ontologies in object-oriented databases[J]. Knowledge-based systems, 2015, 76: 240-255.

[23]
CARTEALY I, LIAO L. Metabolic pathway membership inference using an ontology-based similarity approach[C]// Proceedings of the 2019 8th International Conference on Bioinformatics and Biomedical Science. New York, USA: ACM, 2020: 97-102.

[24]
AL-ASWADI F N, CHAN H Y, GAN K H. Automatic ontology construction from text: A review from shallow to deep learning trend[J]. Artificial intelligence review, 2020, 53(6): 3901-3928.

[25]
LEE J, YOON W, KIM S, et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.

文章导航

/