欢迎您访问《智慧农业(中英文)》官方网站! English
专刊--遥感+AI 赋能农业农村现代化

基于物理约束PROSAIL-cGAN的冬小麦LAI光谱样本增强与反演方法

  • 卢怡行 1, 2, 3 ,
  • 董文 , 4 ,
  • 张新 1, 4 ,
  • 闫若一 1, 2, 3 ,
  • 张玉加 5 ,
  • 唐涛 5
展开
  • 1. 兰州交通大学 测绘与地理信息学院,甘肃 兰州 730070,中国
  • 2. 地理国情监测技术应用国家地方联合工程研究中心,甘肃 兰州 730070,中国
  • 3. 甘肃省测绘科学与技术重点实验室,甘肃 兰州 730070,中国
  • 4. 遥感与数字地球全国重点实验室,中国科学院空天信息创新研究院,北京 100101,中国
  • 5. 重庆市农业信息中心,重庆 401121,中国
董 文,博士,副研究员,研究方向为遥感地学时空分析及其精准应用。E-mail:

卢怡行,硕士研究生,研究方向为农业遥感。E-mail:

收稿日期: 2025-08-28

  网络出版日期: 2025-10-31

基金资助

国家重点研发计划项目(2021YFB3901300)

Physics-Constrained PROSAIL-cGAN Approach for Spectral Sample Augmentation and LAI Inversion of Winter Wheat

  • LU Yihang 1, 2, 3 ,
  • DONG Wen , 4 ,
  • ZHANG Xin 1, 4 ,
  • YAN Ruoyi 1, 2, 3 ,
  • ZHANG Yujia 5 ,
  • TANG Tao 5
Expand
  • 1. Faculty of Geomatics, Lanzhou Jiaotong University, Lanzhou 730070, China
  • 2. National-Local Joint Engineering Research Center of Technologies and Applications for National Geographic State Monitoring, Lanzhou 730070, China
  • 3. Key Laboratory of Science and Technology in Surveying & Mapping of Gansu Province, Lanzhou 730070, China
  • 4. Key Laboratory of Remote Sensing and Digital Earth, Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100101, China
  • 5. The Center of Agriculture Information of Chongqing, Chongqing 401121, China
DONG Wen, E-mail:

LU Yihang, E-mail:

Received date: 2025-08-28

  Online published: 2025-10-31

Supported by

National Key Research and Development Program of China(2021YFB3901300)

Copyright

copyright©2025 by the authors

摘要

目的/意义 针对冬小麦叶面积指数(Leaf Area Index, LAI)样本量有限导致反演模型精度不足及自动生成样本物理合理性难以保障的问题,提出一种基于物理约束的PROSAIL与条件生成对抗网络(Conditional Generative Adversarial Network, cGAN)联合的光谱样本增强方法,旨在提升遥感LAI反演的准确性和稳定性,为冬小麦生长监测提供高质量数据支持。 方法 首先,利用PROSAIL模型生成冬小麦冠层光谱与对应物理参数,训练多层感知机代理模型以模拟PROSAIL模型光谱生成的过程,在此基础上设计结合物理参数条件的cGAN生成网络,构建PROSAIL-cGAN模型生成满足预设物理约束的高质量光谱样本;其次,基于增强样本构建机器学习LAI反演模型,验证样本增强的效果。以山东省邹平市为实验区,进行样本增强并进行LAI反演验证。 结果和讨论 物理约束下的PROSAIL-cGAN生成样本与真实样本在物理参数空间重叠度达到82.7%,基于增强样本训练的随机森林模型的决定系数(R2)可达到0.848 8,均方根误差(Root Mean Square Error, RMSE)可达到0.540 9,分析表明,物理约束有效提升了生成样本的合理性与反演模型的泛化能力,其中当样本量达到79个以上时,模型精度已接近较高水平。 结论 本研究提出的物理约束的PROSAIL-cGAN样本增强方法有效缓解了小样本限制对LAI反演的影响,提升了模型精度和稳定性,为农业遥感监测与作物生长动态评估提供了坚实的数据基础和技术保障。

本文引用格式

卢怡行 , 董文 , 张新 , 闫若一 , 张玉加 , 唐涛 . 基于物理约束PROSAIL-cGAN的冬小麦LAI光谱样本增强与反演方法[J]. 智慧农业, 2025 , 7(6) : 149 -160 . DOI: 10.12133/j.smartag.SA202508026

Abstract

Objective The leaf area index (LAI) is a key biophysical parameter that reflects the canopy structure and photosynthetic capacity of crops. However, the inversion of winter wheat LAI from remote sensing data is often constrained by the limited availability of field measurements, leading to insufficient model generalization. Although radiative transfer model (RTM)-based simulations can expand the sample size, discrepancies between simulated and observed spectra persist due to simplified canopy and soil parameterizations. Conversely, purely data-driven generative models such as generative adversarial networks (GANs) can enhance sample diversity but often produce physically inconsistent samples in the absence of biophysical constraints. To address these issues, a physics-constrained PROSAIL-cGAN (conditional generative adversarial network) spectral sample augmentation method was proposed that integrated the PROSAIL model with cGAN to improve the accuracy and robustness of LAI inversion under small-sample conditions, generate physically realistic spectral-parameter pairs and provide reliable data support for remote sensing-based monitoring of winter wheat growth. Methods The study area was located in Zouping city, Shandong Province, a major winter wheat production region within the Huang-Huai-Hai Plain. A total of 133 field samples were collected during the jointing stage in April 2025 using an LAI-2200C canopy analyzer, with synchronous canopy spectra acquired. A Sentinel-2A Level-2A image from April 15, 2025, served as the remote sensing source, comprising 13 bands resampled to a spatial resolution of 10 m. The dataset was divided into training (70%) and validation (30%) subsets, with LAI values ranging from 1.646 to 7.505. The proposed method combined the PROSAIL radiative transfer model with a conditional GAN framework. First, PROSAIL was employed to simulate canopy reflectance and corresponding biophysical parameters, including chlorophyll content (Cab), carotenoid content (Car), brown pigment content (Cbrown), equivalent water thickness (Cw), dry matter content (Cm), LAI, and leaf inclination distribution (LIDFa). A multi-layer perceptron (MLP) surrogate model was then trained to approximate the forward mapping of PROSAIL, enabling differentiability for integration with deep learning architectures. The cGAN generator received random noise and physical parameters as conditional inputs to produce corresponding canopy reflectance, while the discriminator jointly evaluated authenticity and physical consistency. During adversarial training, physical constraints were incorporated into the generator's loss function to ensure biophysical realism. The generated samples were subsequently filtered based on parameter ranges and discriminator confidence scores. Kernel density overlap between real and generated LAI distributions was used to quantify their statistical consistency. Finally, the enhanced dataset was used to train random forest (RF) and extreme gradient boosting (XGBoost) regression models for the LAI inversion. Model performance was assessed using the coefficient of determination (R2), root mean square error (RMSE), and mean absolute error (MAE), and compared with three baselines: 1) field-measured modeling, 2) the PROSAIL lookup table (LUT) method, and 3) cGAN-only augmentation. Results and Discussions The surrogate MLP model accurately reproduced PROSAIL-simulated spectra, achieving R2 0.817, RMSE 0.008 5, and MAE 0.005 5, confirming its feasibility as a differentiable physical proxy. The cGAN-based augmentation achieved a LAI distribution overlap of 0.806 with the measured samples, whereas the PROSAIL-cGAN improved the overlap to 0.827, demonstrating enhanced physical realism and sample diversity. Model comparisons revealed substantial differences in performance. The LUT-based inversion yielded only R2 0.353 0 and RMSE 1.284 0, reflecting its limited adaptability to spectral heterogeneity. Direct regression using field data improved accuracy (R2=0.680 1 for XGBoost and 0.648 8 for RF). Incorporating cGAN-generated samples further enhanced model accuracy (R2 0.745 0 for RF and 0.739 0 for XGBoost). The PROSAIL-cGAN-enhanced RF model achieved the best overall performance, with R2 0.848 8, RMSE 0.540 9, and MAE 0.293 7. The sample-size sensitivity analysis demonstrated that as the number of field samples increased from 27 to 106, R2 improved from 0.546 2 to 0.848 8 and RMSE decreased from 1.024 3 to 0.540 9. When the sample size exceeded 79, model performance stabilized, indicating strong robustness. Spatial mapping results showed that LAI values were higher in the central and northern regions (4~7) and lower in the southern mountainous areas (1.5~4), consistent with variations in soil fertility and field management practices. These findings validate the model's applicability for regional-scale monitoring of crop growth. Conclusions This study developed a physics-constrained PROSAIL-cGAN spectral sample augmentation method for winter wheat LAI inversion. By integrating a radiative transfer model, a conditional generative network, and a differentiable surrogate, the method effectively generated physically consistent and diverse spectral-parameter samples under small-sample conditions. The PROSAIL-cGAN-based RF model achieved a relatively high inversion accuracy, outperforming traditional LUT and field-only approaches. The proposed method successfully mitigated small-sample limitations, ensured physical interpretability, and improved model generalization. It provides a robust framework for the remote sensing inversion of crop canopy parameters, supporting precision agriculture and dynamic monitoring of crop growth. Future work will focus on optimizing sample generation strategies, integrating multi-temporal satellite data and additional physiological parameters, and coupling with deep or semi-supervised learning techniques to further enhance scalability and applicability across crops and regions.

0 引 言

叶面积指数(Leaf Area Index,LAI)是衡量作物冠层结构及光合能力的重要生物物理参数,在作物生长监测、产量预测、精准农业管理,以及生态环境评价中具有广泛应用1。作为单位土地面积上作物叶片总面积的量化指标,LAI不仅能够反映作物的生理状态和生物量积累水平,还可用于估算作物需水、需肥及受灾风险等关键农业参数。冬小麦作为中国黄淮海平原及长江中下游地区主要冬季粮食作物,其生长状况直接影响国家粮食安全与区域农业生态稳定。LAI与干物质积累、氮素吸收及光合效率等关键生理过程密切相关,因此,准确反演冬小麦LAI对于提升精准管理水平、优化施肥灌溉策略及支持变量作业决策具有重要意义2
遥感反演LAI相较于传统地面实测方法具有明显优势。地面测量虽然精度较高,但耗时费力、空间代表性有限;而遥感技术能够在区域乃至全球尺度上实现大范围、非破坏性和多时相连续观测,突破了人工采样在时间和空间上的限制,为农作物生长监测和生态环境研究提供高效可靠手段3, 4。然而,基于遥感数据的LAI反演在实际应用中仍面临两个主要挑战:其一,野外实测样本量有限,难以支撑复杂模型的构建与泛化5;其二,自动生成的模拟样本虽然可以缓解样本不足问题,但如何确保其物理合理性与真实观测的一致性仍是亟需解决的难题。
基于物理机理的辐射传输模型(Radiative Transfer Model, RTM),如PROSAIL(PROSPECT+SAIL),可利用作物生理参数与观测几何信息模拟冠层反射光谱,为LAI反演提供可解释的数据支撑6, 7。然而,RTM仿真数据与真实遥感观测数据之间仍不可避免地存在差异。第一,RTM在建模过程中往往需要对复杂的作物冠层结构、大气传输过程及土壤背景反射特性进行简化,从而导致生成的光谱分布与真实观测结果存在系统性偏差。第二,模型输入参数的设定范围与实际作物生长环境未必完全一致,这也在一定程度上限制了基于RTM数据训练的反演模型的泛化能力。第三,基于数据驱动的生成模型,如生成对抗网络(Generative Adversarial Network, GAN)虽能扩充样本多样性8,但由于缺乏物理约束,GAN生成的数据可能出现与作物真实生理特性不符的情况,导致部分“虚假样本”在用于模型训练时反而降低反演结果的可信度和精度。因此,如何在保证生成样本物理一致性的同时扩充样本规模,成为提升遥感LAI反演精度的关键问题之一。
针对上述问题,本研究提出一种融合物理约束的PROSAIL-cGAN光谱样本增强方法。该方法首先利用PROSAIL生成冠层光谱与物理参数,并通过多层感知机(Multi-layer Perceptron, MLP)代理模型9模拟光谱生成过程。在此基础上,构建结合物理参数回归的条件生成对抗网络(Conditional Generative Adversarial Network, cGAN),生成满足物理约束的高质量光谱样本。最后进行评分与参数范围筛选,确保生成数据的物理一致性与多样性。生成的增强样本将用于训练机器学习反演模型,以提升冬小麦LAI的遥感反演精度与稳定性。

1 数据与方法

1.1 研究区概况

本研究以山东省邹平市为研究区(图1),开展冬小麦LAI及对应光谱的样本扩充方法研究,并用于LAI反演。邹平市地处山东省中部(位于36°41′N~37°08′N,117°18′E~117°57′E),属暖温带季风气候,农业种植条件优越,是中国重要的粮食生产基地。整体地势南高北低,北部为黄河冲积平原,是冬小麦集中种植区,占全市种植总面积80%以上。研究区内灌溉基础设施完善,光热资源丰富,有利于冬小麦生长发育,冬小麦生长季光谱特征差异显著,LAI时空动态变化明显。同时,区域内存在田块破碎化程度高、种植结构空间异质性显著等特点,对遥感反演中训练样本的代表性及物理一致性构成挑战,但也为检验模型在复杂农业景观中的泛化能力提供了典型场景,适于验证物理约束生成模型在区域尺度上的适用性与稳定性。
图1 研究区地理位置及调查样本分布

a. 研究区地理位置 b. 调查样本点分布图

注: 该图基于国家地理信息公共服务平台天地图网站下载的审图号为GS(2024)0650号标准地图制作,底图无修改。

Fig. 1 Geographical location of the study area and distribution of survey samples

1.2 数据获取与处理

实验使用的Sentinel-2A多光谱影像来源于欧洲航天局(European Space Agency, ESA)官方网站(https://scihub.copernicus.eu/),采用L2A产品,已完成大气校正、正射纠正和几何精校正,提供地表反射率信息。为保证遥感数据与LAI实测的时间一致性,本研究选取了2025年4月15日的影像,与实地采样时间一致,此时冬小麦处于拔节期10。影像包含13个波段,不同波段空间分辨率不一致,统一重采样至10 m分辨率,用于后续特征提取和LAI反演分析。
实验共选取冬小麦样方地133个,采用五点采样法进行LAI测定,即在每个样地的4个对角及中心位置分别设置测量点。为降低测量误差,每个测量点沿同一测量线路进行不少于3次重复测定,并对5个点的测量结果取平均值,作为该样地的LAI实测值。所有测量均使用LAI-2200C植物冠层分析仪(LI-COR Biosciences, USA)在太阳高度角大于60°时开展,并与冠层光谱测定同步进行,确保数据的时间一致性与空间对应性。同时,利用全球定位系统(Global Positioning System, GPS)实时记录每个采样点的经纬度坐标,为后续与遥感数据的配准提供精确的空间位置参考。
将133个野外实测冬小麦LAI样本按7∶3划分为训练集和验证集,数据的统计信息如表1所示。统计结果显示,训练集LAI值范围为1.646~7.505,均值为4.389,标准差为1.322,变异系数为0.301;测试集LAI值范围为1.760~7.201,均值为4.482,标准差为1.247,变异系数为0.278。统计结果表明,训练集与测试集在数值范围、均值及分布形态上高度一致,同时覆盖了冬小麦不同生长阶段的LAI变化区间,具有适度的离散性和代表性,为模型训练和验证提供了可靠的数据基础,能够有效支撑不同机器学习模型的LAI反演分析并保障结果的准确性与稳定性。
表1 冬小麦LAI实测样本统计信息

Table 1 Statistical information of winter wheat LAI measured samples

数量 范围 均值 标准差 变异系数
训练集106 1.646~7.505 4.389 1.322 0.301
测试集27 1.760~7.201 4.482 1.247 0.278
总和133 1.646~7.505 4.418 1.293 0.293

1.3 研究方法

本研究共采用4种方法开展冬小麦LAI建模与对比分析:1)基于实测数据直接建模反演LAI;2)查找表(Look Up Table, LUT)方法:利用PROSAIL辐射传输模型批量模拟光谱数据,并基于LUT检索反演LAI11;3)cGAN模拟样本方法:通过cGAN在实测数据分布的约束下生成合成样本,结合生成的光谱-LAI对构建反演模型;4)PROSAIL-cGAN方法:综合利用PROSAIL模拟数据与cGAN增强样本,形成物理约束驱动的混合样本集,以提升建模的泛化能力和物理合理性。后两种样本构建方法均在独立的实测样本上进行验证与精度评估。研究的整体技术流程如图2所示。
图2 传统模型、生成增强与PROSAIL-cGAN方法的LAI反演技术对比流程

Fig. 2 Comparative workflow of LAI inversion using traditional modeling, generative augmentation, and the PROSAIL-cGAN approach

1.3.1 cGAN

生成对抗网络是一类基于博弈思想的生成模型,由生成器(Generator)与判别器(Discriminator)组成,通过相互竞争实现分布逼近12。然而,传统GAN在生成过程中缺乏对生成结果的可控性,难以满足特定任务需求。为此,Mirza和Osindero13、Woldesellasse和Tesfamariam14提出了cGAN,在模型训练中引入外部条件信息,以增强生成样本的可控性和多样性。
在本研究中,条件变量设定为冬小麦冠层的关键生理参数,包括叶绿素含量(C ab)、类胡萝卜素含量(C ar)、褐色素含量(C brown)、叶片水含量(C w)、干物质含量(C m)、LAI,以及叶倾角分布(Leaf Inclination Distribution Function Parameter A, LIDFa)等15, 16。生成器以随机噪声向量与上述条件参数作为输入,输出与条件一致的高光谱反射率样本;判别器则接收“物理参数-光谱”对,并学习区分真实样本与生成样本,同时通过引入物理参数预测约束,引导生成器生成符合生理机理的光谱数据。相比传统GAN,本研究构建的cGAN不仅能够在有限样本条件下扩充训练集,还能通过物理约束机制提高生成样本的合理性和可解释性,为LAI遥感反演提供高质量的增强数据支撑。

1.3.2 PROSAIL辐射传输模型模拟

PROSAIL模型是由叶片光学性质模型(Leaf Optical Properties Spectra, PROSPECT)与冠层辐射传输模型(Scattering by Arbitrarily Inclined Leaves, SAIL)耦合而成的经典辐射传输模型,能够系统地刻画叶片生化参数(如叶绿素含量、干物质含量和水分含量等)、冠层结构参数(如LAI、平均叶倾角(Average Leaf Angle, ALA)等),以及观测几何条件与冠层反射光谱之间的定量关系17, 18
在本研究中,PROSAIL用于生成冬小麦冠层光谱与对应物理参数的模拟数据19,为后续cGAN模型训练提供样本。为了准确模拟冬小麦冠层的光谱特性,本研究结合田间实测的冬小麦生化参数与已有文献中的参数设定,对PROSAIL模型的输入参数进行了合理取值,参数范围如表2所示。具体而言,为保证各输入参数之间的独立性,所有参数均按照正态分布进行随机抽样,充分反映其自然变异特性。然而,PROSAIL本身是基于辐射传输方程的前向模拟模型,具有不可微分的特性,因此无法直接嵌入cGAN的训练框架,也无法通过梯度反向传播的方式来优化生成器的参数。为克服这一限制,本研究设计并引入了1个MLP代理模型Proxy Model。该代理模型通过学习PROSAIL的输入-输出映射关系,即以生理参数和观测条件为输入,并输出对应的模拟光谱,实现了对PROSAIL的快速近似。与传统的PROSAIL前向运算相比,MLP代理模型不仅大幅提升了计算效率,而且能够与深度学习框架实现无缝对接。
表2 PROSAIL模型输入参数范围

Table 2 Input parameter range of the PROSAIL model

参数类别 参数名称 符号 单位 取值
叶片光学 叶绿素含量 C ab μg/cm2 20~60
类胡萝卜素含量 C ar μg/cm2 3~25
叶片水含量 C w μg/cm2 0.005~0.03
干物质含量 C m μg/cm2 0.005~0.03
冠层结构 叶面积指数 LAI 1~8.0
叶片角度分布 ALA (º) 30~90
热点参数 Hotspot 0.0~0.5
土壤背景 土壤亮度(Proportion of Soil Brightness, Psoil) Psoil 0.1~0.9
几何观测 太阳天顶角(Solar Zenith Angle, SZA) SZA (º) 26~28
观测天顶角(View Zenith Angle, VZA) VZA (º) 0
方位角差(Relative Azimuth Angle, RAA) RAA (º) 0~180

注:—代表无数据。

1.3.3 PROSAIL-cGAN 模型与样本生成流程

在PROSAIL与cGAN的基础上,本研究构建物理约束驱动的PROSAIL-cGAN框架:生成器以随机噪声(及可选条件信息)输出冬小麦冠层物理参数向量θ(如C abC arC brownC wC m、LAI、LIDFa等);为实现端到端训练并保证梯度可传播,采用可微的多层感知机代理模型Proxy Model近似PROSAIL的前向映射,将θ转换为对应冠层光谱r=f proxyθ)。本研究模型输出为高光谱反射率数据,覆盖400~2 500 nm波段,光谱分辨率为1 nm。为了与Sentinel-2A多光谱观测对应,需要将高光谱数据转换为Sentinel-2A的13个波段反射率。具体方法是利用图3所示的Sentinel-2A的光谱响应函数(Spectral Response Function, SRF),对每个波段的光谱响应进行加权积分,即在每个波段的SRF权重作用下,对高光谱光谱值进行积分求和,得到该波段的等效反射率20
图3 Sentinel-2光谱响应函数

Fig. 3 Sentinel-2 spectral response function

在对抗训练框架中,判别器同时接收两类输入:一类为真实样本对,即来源于实测数据的参数-光谱组合(θr);另一类为由生成器输出的候选样本对。判别器通过计算并输出真伪判别分数,实现对输入样本真实性的区分。训练过程中,生成器与判别器采用典型的对抗优化策略交替更新,即生成器不断优化以生成更“逼真”的参数样本,而判别器则持续提升其识别真实与虚假样本的能力,从而在博弈中逐步达到均衡。模型收敛后,首先利用生成器批量生成θ,再经f proxy得到r以构成候选样本;随后依据预设的物理参数取值范围对θ进行硬阈值筛选,并以判别器得分作为可信度指标进行二次筛选;最终仅保留同时满足物理范围与判别器阈值条件的样本作为有效增强数据,用于后续LAI反演模型的训练与验证。该流程避免将不可微的PROSAIL直接嵌入对抗训练,兼顾梯度可传递与物理一致性,从而在小样本条件下显著提升训练数据的规模与多样性。
为定量评估增强样本与实测样本在LAI分布上的一致性,本研究采用核密度分布重叠度进行计算。具体而言,分别对两类LAI值进行核密度估计(Kernel Density Estimation, KDE),得到其概率密度函数p realx)与p simx)。通过对两条概率密度曲线在整个定义域上的最小值进行积分,得到分布重叠度,其取值范围为[0,1],值越大表示两类样本的分布越接近。分布重叠度的计算如公式(1)所示。
O v e r l a p = m i n   ( p r e a l x , p s i m ( x ) ) d x
式中:Overlap为分布重叠度指标;x为样本的LAI取值;p realx)为基于实测样本的LAI分布核密度估计所得到的概率密度函数;p simx)为基于增强样本的LAI分布核密度估计所得到的概率密度函数。

1.3.4 LAI建模算法

本研究共采用4种方法开展冬小麦LAI建模与对比分析。首先利用实测数据进行回归分析。其次,LUT方法完全依赖于PROSAIL辐射传输模型生成的模拟样本,其主要优势在于可控性强、样本量可大规模扩展,并且每个样本的生理参数和光谱响应具有明确的物理解释。这使得LUT方法在理论上能够覆盖广泛的参数空间,并为数据驱动的反演模型提供充分训练样本。cGAN方法通过在实测数据分布的约束下生成合成样本,能够有效扩展有限的观测数据量,并提高样本的分布匹配度,但其生成能力在样本稀缺条件下易受到训练不稳定性的影响。相比之下,PROSAIL-cGAN方法综合了两者优势:一方面利用PROSAIL扩充参数空间,保证物理合理性;另一方面通过cGAN引入实测分布约束,使生成样本更贴近真实观测。
为验证所提出的样本增强方法在冬小麦LAI遥感反演中的有效性,本研究在增强后的样本集上构建回归模型进行对比。通过皮尔逊相关系数法对遥感特征与LAI之间的相关性进行分析,选取相关性高的植被指数作为建模特征,所选模型为具有代表性的经典机器学习方法随机森林(Random Forest, RF)和极端梯度提升树(Extreme Gradient Boosting, XGBoost)。随机森林通过集成多棵决策树,并在特征与样本层面引入随机性,具备较强的非线性拟合能力与鲁棒性21, 22。XGBoost是一种高效的梯度提升树方法,采用二阶导数信息进行模型优化,并结合正则化与并行计算策略,在处理大规模复杂数据时表现优异23, 24
在本实验中,cGAN方法和PROSAIL-cGAN方法均生成400个模拟样本,与实测训练集的106个真实样本对机器学习模型进行训练。模型精度评价采用决定系数(R 2)、均方根误差(Root Mean Square Error, RMSE)和平均绝对误差(Mean Absolute Error, MAE),从相关性、整体误差和偏差3个维度综合评估模型性能。通过比较实测数据直接建模、基于传统PROSAIL模型查找表方法、cGAN生成样本方法与基于PROSAIL-cGAN增强样本方法的建模效果,系统分析不同算法在LAI反演中的适用性及样本增强带来的性能提升,计算如公式(2)~公式(4)所示。
R 2 = 1 - i = 1 n y i - y ^ i 2 i = 1 n y i - y ¯ 2
R M S E = 1 n i = 1 n y i - y ^ i
M A E = 1 n i = 1 n y i - y ^ i
式中: y i为第i个样本的实测值; y ^ i为第i个样本的预测值; y ¯为实测值的平均值;n为样本总数。

2 结果与分析

2.1 PROSAIL模拟光谱和代理模型对比

为了评估代理模型在不同LAI条件下对作物光谱的模拟能力,本研究分别建立了高光谱与多光谱(Sentinel-2)两类代理模型。高光谱代理模型以PROSAIL模型生成的高光谱样本(波长400~ 2 500 nm)为训练目标,而多光谱代理模型则以PROSAIL卷积后得到的Sentinel-2波段光谱为训练目标,能够直接预测多光谱反射率。针对不同LAI(2、4、6),本研究分别使用PROSAIL与两个代理模型生成光谱样本,并将结果绘制为图4
图4 PROSAIL与代理模型模拟光谱效果对比

Fig. 4 Comparison of simulated spectra between PROSAIL and proxy model

为验证代理模型对PROSAIL光谱模拟的近似能力,本研究首先利用PROSAIL正向模型在设定的生理参数与观测条件范围内生成样本数据,并将其划分为训练集与独立测试集。随后,以生理参数和观测条件作为输入、光谱反射率作为输出,训练MLP模型以学习PROSAIL的输入-输出映射关系。在测试集上,将MLP输出光谱与PROSAIL输出进行对比。代理模型在测试集上的精度为R 2=0.817,RMSE=0.008 5,MAE=0.005 5。该结果说明MLP代理模型能够准确复现PROSAIL的输出光谱,在保证较高精度的同时显著提升计算效率,可为后续大规模数据增强与参数反演提供可靠支撑。

2.2 样本模拟效果对比

为评估不同样本生成方法对冬小麦LAI反演的效果,本研究比较了3类数据:原始实测样本133个、基于实测样本的cGAN增强样本500个,以及基于PROSAIL-cGAN的增强样本500个。结果显示,原始样本数量有限,尤其在高LAI区域(LAI>7)和低LAI区域(LAI<3)分布稀疏;cGAN增强样本在高LAI区域显著增加了样本密度,同时保持光谱与LAI的非线性关系。进一步的核密度分布重叠度分析显示,cGAN增强样本与实测样本的LAI分布重叠度为0.806,表明增强样本在整体分布上与实测样本较为一致;而PROSAIL-cGAN增强样本的分布重叠度提高至82.7%,进一步验证了物理约束生成方法在保持样本物理合理性与覆盖稀疏区域方面的优势。
图5中的箱线图和散点分布清晰显示了3类数据在LAI空间的差异,尤其突出增强样本在高LAI区域的补充效果。整体而言,基于PROSAIL-cGAN的增强样本使用既保留了实测样本的真实特征,又解决了LAI区域的稀疏性和训练数据不足的问题,为LAI反演模型提供了高质量的训练基础。
图5 实测样本、cGAN 增强样本、PROSAIL-cGAN增强样本分布对比图

Fig. 5 Distribution comparison of measured samples, cGAN-augmented samples, and PROSAIL-cGAN-augmented samples

2.3 遥感特征与LAI之间的相关性分析

为了揭示遥感特征与冬小麦LAI之间的关系,本研究选取常用植被指数作为候选特征,植被指数均基于遥感影像进行计算,计算如表3公式(5)~公式(11)所示。对实测样本及增强样本进行相关性分析。计算每个指数与LAI的相关系数25,并绘制热力图展示相关性分布。
表3 植被指数计算公式

Table 3 Calculation formula of vegetation index

植被指数 计算公式 参考文献
归一化植被指数(Normalized Difference Vegetation Index, NDVI) N D V I = N I R - R e d N I R + R e d (5) 26
归一化红边植被指数(Normalized Difference Red Edge Index, NDRE) N D R E = N I R - R E N I R + R E (6) 27
绿色叶绿素指数(Green Chlorophyll Index, GCI) G C I = N I R G r e e n - 1 (7) 28
土壤调节植被指数(Soil-Adjusted Vegetation Index, SAVI) S A V I = ( N I R - R e d ) ( 1 + L ) N I R + R e d + L (8) 29
植被比值指数(Ratio Vegetation Index, RVI) R V I = N I R R e d (9) 30
植被近红外反射率(Near-Infrared Reflectance of Vegetation, NIRv) N I R v = N D V I × N I R (10) 31
近红外红边比值(Near-Infrared Red-Edge, NIR_RE) NIR_RE = N I R R E (11) 32

注:NIR为近红外波段反射率;Red为红光波段反射率;RE为红边波段反射率;Green为绿色波段反射率。L为土壤调整因子,常取L=0.5。

图6显示了冬小麦LAI与多种遥感指数之间的相关性特征。LAI与NDVI、NDRE、GCI、SAVI、RVI,以及近红外波段(NIRv、NIR_RE)均表现出较高的正相关,其中NDVI与LAI的相关系数最高(r=0.83),表明红光与近红外波段构建的植被指数能够有效反映叶面积指数的变化。红光相关指数NDRE在高LAI区间对LAI的区分能力较强(r=0.79),而蓝光和绿光相关指数表现稍弱(r<0.7)。此外,增强样本生成后,相关性矩阵显示LAI与主要植被指数及NIR波段的相关结构保持一致,且在高 LAI 区间增加了样本密度,有助于缓解实测样本稀疏带来的偏差问题。这表明,选取的遥感特征能够为LAI反演提供有效的输入变量,同时增强样本在保持物理一致性的前提下提升了特征LAI的统计覆盖度,为后续机器学习建模提供了可靠基础。
图6 LAI与多种遥感指数的相关性热力图

Fig. 6 Heatmap of correlations between LAI and various remote sensing indices

2.4 不同数据组合方式下建模精度对比

本研究采用4种方法对冬小麦LAI进行建模与对比:1)实测数据直接建模;2)LUT方法:基于PROSAIL辐射传输模型模拟光谱并进行LAI检索;3)cGAN模拟样本方法:在实测数据分布约束下生成合成光谱-LAI对构建反演模型;4)PROSAIL-cGAN方法:在PROSAIL模拟数据基础上引入cGAN增强样本。建模所选算法为RF和XGBoost,共形成7种组合:LUT方法、实测-RF、实测-XGBoost、cGAN-RF、cGAN-XGBoost、PROSAIL-cGAN-RF及PROSAIL-cGAN-XGBoost,用以系统评估不同方法与模型对LAI反演精度的影响。
对7种建模组合的冬小麦LAI反演精度进行了系统对比,基于7种组合的估测结果如表4所示,估测结果散点图如图7所示。整体来看,LUT方法反演精度相对较低,R 2为0.353 0,RMSE为1.284 0,主要受限于模型对真实田块光谱异质性的适应能力。实测数据直接建模中,XGBoost略优于RF,R 2分别达到0.680 1和0.648 8,表明非线性树模型在小样本条件下具有更强的拟合能力。引入cGAN生成样本后,模型精度明显提升,RF和XGBoost的R 2分别提高至0.745 0和0.739 0,说明生成样本有效增强了训练数据的代表性与模型精度。进一步结合PROSAIL模拟数据与cGAN增强的组合(PROSAIL-cGAN方法),模型精度达到最高,RF的R 2为0.848 8,RMSE为0.293 7,显著优于其他方法,表明模拟数据与生成样本的联合使用能够充分覆盖LAI-光谱空间,提高模型的泛化能力。综合来看,PROSAIL-cGAN-RF为本研究条件下LAI反演的最优组合。
表4 不同数据组合方式下建模精度对比

Table 4 Comparison of modeling accuracy under different data combination strategies

建模方法 R 2 RMSE MAE
LUT方法 0.353 0 1.284 0 1.017 0
实测-RF 0.648 8 0.863 6 0.687 3
实测-XGBoost 0.680 1 0.859 9 0.677 5
cGAN-RF 0.745 0 0.740 2 0.508 2
cGAN-XGBoost 0.739 0 0.721 2 0.505 1
PROSAIL-cGAN-RF 0.848 8 0.540 9 0.293 7
PROSAIL-cGAN-XGBoost 0.827 9 0.577 1 0.286 4
图7 不同建模方法结果散点图

Fig. 7 Scatter plot of estimates from different modeling methods

2.5 抽取实测样本量对模型的影响

为系统评估模型在不同实测样本量条件下的稳健性,本研究从106个实测样本中随机抽取不同数量的子集构建训练集。具体设置了25%、50%、75%和100%的训练样本比例,分别对应约27、53、79和106个样本,并在独立测试集上进行精度验证。基于各个子集训练随机森林模型,并计算R 2、RMSE和MAE等性能指标(表5)。随着实测样本数量的增加,模型精度呈现出显著提升的趋势。当样本量为27时,模型的R 2为0.546 2,RMSE和MAE分别为1.024 3和0.827 5,说明在小样本条件下模型仍具备一定的预测能力。随着样本量扩展至53和79个,R 2分别提高至0.599 5和0.755 2,RMSE与MAE则逐步下降至0.962 1/0.725 1和0.785 6/0.427 6,表明模型精度和稳定性持续改善。当使用全部106个样本时,模型表现最佳,R 2达到0.848 8,RMSE和MAE分别降至0.540 9和0.293 7,误差水平显著降低。整体来看,增加样本量能够有效提升模型的泛化能力与可靠性,其中当样本量达到79个以上时,模型精度已接近较高水平,为后续在大范围区域应用提供了实证参考。
表5 不同训练样本数量构建的数据集对随机森林模型精度的影响

Table 5 Impact of datasets constructed with different sample sizes on the accuracy of random forest model

抽取样本量 R 2 RMSE MAE
27 0.546 2 1.024 3 0.827 5
53 0.599 5 0.962 1 0.725 1
79 0.755 2 0.785 6 0.427 6
106 0.848 8 0.540 9 0.293 7

2.6 研究区LAI分布制图

为直观展示本方法的空间应用能力,本研究利用训练得到的PROSAIL-cGAN-RF模型对研究区冬小麦进行预测。图8展示了基于本研究方法反演的邹平市冬小麦拔节期LAI空间分布格局。邹平市冬小麦LAI在空间上呈现明显差异性。北部与中部地区LAI值整体偏高,多为4~7,反映出该区域耕地集中、土壤条件较好,且水肥管理较好,作物生长旺盛。西北部地区LAI水平均值略低于北部,主要为3~5,部分地块因养分有限而表现出一定的减弱趋势。南部及东南部地区LAI整体偏低,普遍为1.5~4,山区耕地在空间上呈斑块化分布,与平原相比土壤层浅薄,养分贫乏,地力较弱,且水肥投入条件受限。总体而言,研究区冬小麦LAI呈现“中北部高、南部低、西北部次之”的空间格局,揭示了耕地条件、管理水平与地理环境对作物长势的综合影响。该结果不仅揭示了冬小麦在区域尺度上的生长差异性,也表明本研究方法能够有效捕捉作物长势的空间分异特征,为后续的大范围精准管理和水肥调控提供科学依据。
图8 基于PROSAIL-cGAN-RF模型反演的邹平市冬小麦LAI分布图

Fig. 8 Spatial distribution of winter wheat leaf area index (LAI) in Zouping city retrieved using the PROSAIL-cGAN-RF model

3 讨 论

本研究系统评估了实测数据建模、LUT方法、cGAN生成样本及PROSAIL-cGAN增强方法在冬小麦LAI反演中的性能差异。结果显示,LUT方法虽在物理解释性和可控性上具有优势,但反演精度较低,主要受限于模型对真实田块光谱异质性和冠层结构的适应能力。实测数据直接建模中,XGBoost略优于RF,表明非线性树模型在小样本条件下能够更好地拟合复杂的光谱-LAI关系。引入cGAN生成样本后,模型精度显著提升,说明生成样本有效扩展了训练数据分布,增强了样本代表性和反演精度。进一步结合PROSAIL模拟数据与cGAN增强样本的PROSAIL-cGAN方法,模型精度达到最高,显著优于其他方法,表明物理机理驱动的模拟数据与生成样本的联合使用能够充分覆盖LAI-光谱空间,提高模型在不同生长阶段和地块的适应能力,并缓解高LAI区间样本稀疏带来的偏差问题。
尽管PROSAIL-cGAN方法在精度和稳定性方面表现突出,但仍存在一定局限性。首先,生成样本的质量在很大程度上依赖于实测数据和模拟数据的代表性,当输入数据存在偏差时,生成样本可能带来误差传播。其次,本研究主要在单一区域和单一作物(冬小麦)上开展,方法在更大区域及其他作物类型上的适用性尚需验证。此外,本研究未充分考虑土壤背景、气象条件和管理措施等外部因素,这在一定程度上限制了方法的推广性。未来研究可进一步优化生成策略,结合多时相遥感数据及其他作物生理参数,或与深度学习和半监督学习方法融合,以提升反演精度和适用范围。

4 结 论

本研究提出了一种基于物理约束的PROSAIL-cGAN光谱样本增强方法,并在冬小麦LAI遥感反演中进行了验证。结果表明,PROSAIL-cGAN结合随机森林模型在LAI反演中表现最佳,达到R 2=0.848 8,RMSE=0.540 9,显著优于传统LUT方法及仅使用实测数据建模的方案。研究显示,cGAN生成的增强样本有效扩展了训练数据的分布,尤其提升了高LAI区域的拟合能力。同时,结合PROSAIL模拟数据保证了生成样本的物理一致性,使样本在保持合理性的同时具有多样性,从而显著增强了模型的泛化能力。
本研究方法在缓解小样本限制、保持物理解释性及增强数据代表性方面具有明显优势,为多作物、多时相LAI及其他冠层参数的遥感反演提供了可参考的技术途径。未来可进一步优化样本生成策略,结合多时相遥感数据及其他作物生理参数,或与深度学习和半监督学习方法融合,以进一步提升反演精度和适用范围,为智慧农业和精准农情管理提供更全面、可靠的数据支撑。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

[1]
陈家华, 张立福, 黄长平, 等. 基于Sentinel-2A影像光谱和纹理特征的冬小麦叶面积指数估算模型研究[J]. 遥感技术与应用, 2024, 39(2): 290-305.

CHEN J H, ZHANG L F, HUANG C P, et al. Research on estimation model of winter wheat leaf area index based on spectral and texture features of Sentinel-2A image[J]. Remote sensing technology and application, 2024, 39(2): 290-305.

[2]
马战林, 文枫, 周颖杰, 等. 基于作物生长模型与机器学习算法的区域冬小麦估产[J]. 农业机械学报, 2023, 54(6): 136-147.

MA Z L, WEN F, ZHOU Y J, et al. Regional winter-wheat yield estimation based on coupling of machine learning algorithm and crop growth model[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(6): 136-147.

[3]
杜一博, 朱瑞飞, 巩加龙, 等. 基于吉林一号光谱星影像的农作物叶面积指数反演[J]. 遥感技术与应用, 2023, 38(4): 816-826.

DU Y B, ZHU R F, GONG J L, et al. Retrieval of crop leaf area index based on Jilin-1GP image[J]. Remote sensing technology and application, 2023, 38(4): 816-826.

[4]
李雪玲, 董莹莹, 朱溢佞, 等. 基于EnMAP卫星和深度神经网络的LAI遥感反演方法[J]. 红外与毫米波学报, 2020, 39(1): 111-119.

LI X L, DONG Y Y, ZHU Y N, et al. Leaf area index estimation with EnMAP hyperspectral data based on deep neural network[J]. Journal of infrared and millimeter waves, 2020, 39(1): 111-119.

[5]
谢智东, 谭信, 袁昕旺, 等. 基于生成对抗数据增强支持向量机的小样本信号调制识别算法[J]. 电子与信息学报, 2023, 45(6): 2071-2080.

XIE Z D, TAN X, YUAN X W, et al. Small sample signal modulation recognition algorithm based on support vector machine enhanced by generative adversarial networks generated data[J]. Journal of electronics & information technology, 2023, 45(6): 2071-2080.

[6]
赵燕红, 侯鹏, 蒋金豹, 等. 植被生态遥感参数定量反演研究方法进展[J]. 遥感学报, 2021, 25(11): 2173-2197.

ZHAO Y H, HOU P, JIANG J B, et al. Progress in quantitative inversion of vegetation ecological remote sensing parameters[J]. National remote sensing bulletin, 2021, 25(11): 2173-2197.

[7]
LI H, LIU G H, LIU Q S, et al. Retrieval of winter wheat leaf area index from Chinese GF-1 satellite data using the PROSAIL model[J]. Sensors, 2018, 18(4): ID 1120.

[8]
刘建伟, 谢浩杰, 罗雄麟. 生成对抗网络在各领域应用研究进展[J]. 自动化学报, 2020, 46(12): 2500-2536.

LIU J W, XIE H J, LUO X L. Research progress on application of generative adversarial networks in various fields[J]. Acta automatica sinica, 2020, 46(12): 2500-2536.

[9]
吕利叶, 鲁玉军, 王硕, 等. 代理模型技术及其应用: 现状与展望[J]. 机械工程学报, 2024, 60(3): 254-281.

L Y, LU Y J, WANG S, et al. Survey and prospect of surrogate model technique and application[J]. Journal of mechanical engineering, 2024, 60(3): 254-281.

[10]
赵一静, 王晓利, 侯西勇, 等. 2003—2019年山东省冬小麦关键物候期时空特征[J]. 生态学报, 2021, 41(19): 7785-7795.

ZHAO Y J, WANG X L, HOU X Y, et al. Spatio-temporal characteristics of key phenology of winter wheat in Shandong province from 2003 to 2019[J]. Acta ecologica sinica, 2021, 41(19): 7785-7795.

[11]
WANG C F, YANG C H, ZHANG J, et al. A PROSAIL model with a vegetation index lookup table optimized with in situ statistics for rapeseed leaf area index estimation using diverse unmanned aerial vehicle sensors in the Yangtze River Basin[J]. Computers and electronics in agriculture, 2023, 215: ID 108418.

[12]
WU M S, PENG J M, YU X Y, et al. The generative adversarial network combined with noise guidance and global features generates high quality defect samples[J]. Neurocomputing, 2025, 657: ID 131639.

[13]
MIRZA M, OSINDERO S. Conditional generative adversarial nets[J]. Computer Science, 2014: 2672-2680.

[14]
WOLDESELLASSE H, TESFAMARIAM S. Data augmentation using conditional generative adversarial network (cGAN): Application for prediction of corrosion pit depth and testing using neural network[J]. Journal of pipeline science and engineering, 2023, 3(1): ID 100091.

[15]
汪彦龙, 王钧, 李广, 等. 采用机器学习优化PROSAIL模型的青贮玉米叶面积指数反演[J]. 农业工程学报, 2025, 41(9): 134-142.

WANG Y L, WANG J, LI G, et al. Inversion of silage maize leaf area index based on machine learning optimized PROSAIL model[J]. Transactions of the Chinese society of agricultural engineering, 2025, 41(9): 134-142.

[16]
马建威, 黄诗峰, 李纪人, 等. 改进Sobol算法支持下的PROSAIL模型参数全局敏感性分析[J]. 测绘通报, 2016(3): 33-35, 106.

MA J W, HUANG S F, LI J R, et al. Global sensitivity analysis of parameters in the PROSAIL model based on modified sobol's method[J]. Bulletin of surveying and mapping, 2016(3): 33-35, 106.

[17]
ZHANG Y F, JIN X L, SHI L S, et al. A hybrid method for water stress evaluation of rice with the radiative transfer model and multidimensional imaging[J]. Plant phenomics, 2025, 7(1): ID 100016.

[18]
GAO Z, LU X P, WANG X X, et al. Study on winter wheat leaf area index inversion employing the PSO-NN-PROSAIL model[J]. International journal of remote sensing, 2024, 45(9): 2915-2938.

[19]
王枭轩, 卢小平, 杨泽楠, 等. 基于PROSAIL结合VMG模型的冬小麦叶面积指数反演方法[J]. 农业机械学报, 2022, 53(6): 209-216.

WANG X X, LU X P, YANG Z N, et al. Retrieving method for leaf area index of winter wheat by combining PROSAIL model with VMG model[J]. Transactions of the Chinese society for agricultural machinery, 2022, 53(6): 209-216.

[20]
任建强, 张宁丹, 刘杏认, 等. 基于哨兵-2A模拟反射率及其影像的冬小麦收获指数估算[J]. 农业机械学报, 2022, 53(12): 231-243.

REN J Q, ZHANG N D, LIU X R, et al. Estimation of harvest index of winter wheat based on simulated Sentinel-2A reflectance data and its real remote sensing imagery[J]. Transactions of the Chinese society for agricultural machinery, 2022, 53(12): 231-243.

[21]
BELGIU M, DRĂGUŢ L. Random forest in remote sensing: A review of applications and future directions[J]. ISPRS journal of photogrammetry and remote sensing, 2016, 114: 24-31.

[22]
WANG L A, ZHOU X D, ZHU X K, et al. Estimation of biomass in wheat using random forest regression algorithm and remote sensing data[J]. The crop journal, 2016, 4(3): 212-219.

[23]
CHEN T Q, GUESTRIN C. XGBoost: A scalable tree boosting system[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA: ACM, 2016: 785-794.

[24]
HUSSAIN S, TESHOME F T, TULU B B, et al. Leaf area index (LAI) prediction using machine learning and UAV based vegetation indices[J]. European journal of agronomy, 2025, 168: ID 127557.

[25]
李健, 江洪, 罗文彬, 等. 融合无人机多光谱和纹理特征的马铃薯LAI估算[J]. 华南农业大学学报, 2023, 44(1): 93-101.

LI J, JIANG H, LUO W B, et al. Potato LAI estimation by fusing UAV multi-spectral and texture features[J]. Journal of South China agricultural university, 2023, 44(1): 93-101.

[26]
PENG X, LU X, CAI H, et al. The potential of SIF, NDVI·PAR, and NIRv·PAR in estimating winter wheat GPP across multi-temporal scales[J]. European journal of agronomy, 2025, 170: ID 127777.

[27]
BAI G, GE Y F, HUSSAIN W, et al. A multi-sensor system for high throughput field phenotyping in soybean and wheat breeding[J]. Computers and electronics in agriculture, 2016, 128: 181-192.

[28]
KUMAR V, SHARMA A, BHARDWAJ R, et al. Comparison of different reflectance indices for vegetation analysis using Landsat-TM data[J]. Remote sensing applications: Society and environment, 2018, 12: 70-77.

[29]
徐雯靓, 王少军. PROSAIL模型模拟下的植被指数土壤调节能力比较与适用环境分析[J]. 遥感学报, 2014, 18(4): 826-842.

XU W J, WANG S J. Soil-adjusted power comparison and application conditions of vegetation indices based on PROSAIL model[J]. Journal of remote sensing, 2014, 18(4): 826-842.

[30]
于丰华, 许童羽, 郭忠辉, 等. 基于红边优化植被指数的寒地水稻叶片叶绿素含量遥感反演研究[J]. 智慧农业(中英文), 2020(1): 77-86.

YU F H, XU T Y, GUO Z H, et al. Remote sensing inversion of chlorophyll content in rice leaves in cold region based on optimizing red-edge vegetation index (ORVI)[J]. Smart agriculture, 2020(1): 77-86.

[31]
ZHANG J R, XIAO J F, TONG X J, et al. NIRv and SIF better estimate phenology than NDVI and EVI: Effects of spring and autumn phenology on ecosystem production of planted forests[J]. Agricultural and forest meteorology, 2022, 315: ID 108819.

[32]
KANKE Y, TUBAÑA B, DALEN M, et al. Evaluation of red and red-edge reflectance-based vegetation indices for rice biomass and grain yield prediction models in paddy fields[J]. Precision agriculture, 2016, 17(5): 507-530.

文章导航

/