0 引 言
1 材料与方法
1.1 试验数据
1.2 ADON-R方法
1.2.1 模型框架
1.2.2 基于逻辑规则的本体基础关系推理
1.2.3 基于分级证据的相关性关系推理
1.2.3.1 定义相关性推理模块
1.2.3.2 语义相关性推理模块
1.2.3.3 生物网络相关性推理模块
1.2.3.4 功能特性相关性推理模块
1.2.3.5 参考物种相关性推理模块
1.2.3.6 分级相关性关系推理模块
1.3 试验环境与设置
表1 本体网络推理框架中各模块实验数据集Table 1 Datasets for modules in the ontology network reasoning framework |
| 模块名称 | 数据内容 | 数据量 |
|---|---|---|
| 基础关系性推理模块 | is a、part of、has part和regulates关系数据 | 158 731 |
| 定义相关性推理模块 | Vertex_ID、name、ontology_id、def和xref属性数据 | 167 887 |
| 语义相关性推理模块 | Vertex_ID和def属性数据 | 131 817 |
| STS-B数据集 | 总计8 607,训练集6 886,测试集1 721 | |
| 生物网络相关性推理模块 | 全部关系数据 | 249 603 |
| 功能特性相关性推理模块 | subClassOf关系数据 | 14 419 |
| 参考物种相关性推理 | only_in_taxon关系数据 | 37 500 |
| 分级相关性关系推理模块 | I级相关、Ⅱ级相关、Ⅳ级相关、Ⅲ级相关关系数据 | I级相关4,Ⅱ级相关3 085,Ⅳ级相关561 165,Ⅲ级相关557 825 |
1.4 评估指标
2 结果与分析
2.1 BioBERT模型语义相似度分析有效性验证
表2 5种句向量语义表征模型性能对比Table 2 Performance comparison of five sentence vector semantic representation models |
| 模型 | 基础模型 | 斯皮尔曼相关系数 |
|---|---|---|
| BERT | bert-base-uncased | 0.868 1 |
| BioBERT | biobert-base-cased | 0.852 0 |
| ClinicalBERT | Bio_ClinicalBERT | 0.844 2 |
| Sentence-BERT | paraphrase-MiniLM-L6-v2 | 0.841 4 |
| BlueBERT | Bluebert_pubmed_mimic_uncased_L-12_H-768_A-12 | 0.818 0 |
2.2 农业本体网络推理关系数量分析
表3 推理结果中不同关系三元组数量Table 3 Number of different relational triples in the inference result |
| 关系名称 | 基础关系推理 | 5种相关性推理 | 4级分级相关性推理 | 本体网络推理总计 | |
|---|---|---|---|---|---|
| 构建推理 | 规则推理 | ||||
| 基础关系 | 182 779 | 0 | 0 | 0 | 182 779 |
| 定义相关 | 0 | 557 825 | 0 | 0 | 0 |
| 生物网络相关 | 0 | 117 158 | 0 | 0 | 0 |
| 参考物种相关 | 0 | 28 502 | 0 | 0 | 0 |
| 语义相关 | 0 | 257 986 | 0 | 0 | 0 |
| 功能特性相关 | 0 | 160 750 | 0 | 0 | 0 |
| I级相关 | 0 | 0 | 4 | 0 | 4 |
| Ⅱ级相关 | 0 | 0 | 3 085 | 586 | 3 539 |
| Ⅲ级相关 | 0 | 0 | 557 825 | 0 | 557 825 |
| Ⅳ级相关 | 0 | 0 | 561 165 | 0 | 561 165 |
|
表4 分级关系推理各本体内部和本体间关系数量对比Table 4 Comparison of the quantity of original data and result triplets in 4 relationreasoning tasks |
| 本体名称 | 本体内部 | 本体之间 | ||||||
|---|---|---|---|---|---|---|---|---|
| I级相关 | Ⅱ级相关 | Ⅲ级相关 | Ⅳ级相关 | I级相关 | Ⅱ级相关 | Ⅲ级相关 | Ⅳ级相关 | |
| atol | 0 | 0 | 0 | 13 004 | 0 | 0 | 2 192 | 0 |
| lpt | 0 | 0 | 101 | 282 | 0 | 0 | 2 416 | 0 |
| flopo | 0 | 0 | 7 | 66 020 | 0 | 0 | 28 671 | 0 |
| assfo | 0 | 27 | 144 | 1 698 | 0 | 2 | 1 531 | 0 |
| chebi | 0 | 0 | 1 888 | 102 | 0 | 0 | 9 549 | 32 |
| cdno | 0 | 0 | 1 527 | 84 | 0 | 1 | 12 146 | 82 |
| omo | 0 | 0 | 17 | 0 | 0 | 0 | 86 | 0 |
| cl | 3 | 1 538 | 18 300 | 91 324 | 1 | 371 | 85 772 | 20 816 |
| lbo | 0 | 0 | 51 | 0 | 0 | 0 | 1 699 | 0 |
| eol | 0 | 16 | 249 | 3 110 | 0 | 0 | 2 702 | 0 |
| ecocore | 0 | 910 | 7 793 | 23 698 | 1 | 275 | 50 704 | 13 776 |
| foodon | 0 | 277 | 11 270 | 54 313 | 0 | 3 | 74 571 | 16 |
| po | 0 | 74 | 2 630 | 1 152 | 0 | 0 | 10 504 | 58 |
| envo | 0 | 0 | 3 127 | 26 | 0 | 0 | 15 542 | 19 |
| aeo | 0 | 0 | 56 | 2 | 0 | 1 | 3 635 | 92 |
| pato | 0 | 0 | 2 189 | 50 | 0 | 4 | 33 425 | 6 |
| EDAM | 0 | 0 | 8 016 | 2 | 0 | 3 | 99 953 | 0 |
| so | 0 | 0 | 4 344 | 196 | 0 | 0 | 82 587 | 0 |
| seont | 0 | 0 | 1 248 | 2 | 0 | 1 | 52 040 | 2 |
| peco | 0 | 0 | 379 | 8 | 0 | 0 | 4 199 | 51 |
| agro | 0 | 50 | 905 | 21 137 | 0 | 0 | 15 454 | 560 |
| to | 0 | 0 | 6 025 | 18 | 0 | 0 | 41 645 | 86 |
| OBIws | 0 | 4 | 151 | 566 | 0 | 0 | 1 151 | 544 |
| go | 0 | 215 | 6 983 | 6 497 | 0 | 82 | 49 124 | 7 287 |
| pso | 0 | 56 | 375 | 190 | 0 | 0 | 5 813 | 13 |
| sfwo | 0 | 0 | 428 | 0 | 0 | 0 | 36 718 | 0 |
| pro | 0 | 0 | 22 204 | 255 958 | 0 | 1 | 180 772 | 12 |
| ro | 0 | 0 | 9 | 0 | 0 | 0 | 10 217 | 0 |





