系统辨识:其理论、演进与应用的综合评述

Posted by TheD Blog on June 17, 2025

系统辨识:其理论、演进与应用的综合评述

第一部分:系统辨识的基础

第1章 定义学科

1.1 核心任务:从数据中建模

系统辨识(System Identification)是一门利用统计学方法,根据测量的系统数据来构建动态系统数学模型的科学领域 1。其本质是一种数据驱动的方法,与基于第一性原理(物理定律)的建模方式形成对比 2。该领域的核心目标是创建一个能够捕捉系统动态行为本质特征的简化数学表示,同时忽略非关键细节,以便于后续的分析、设计与控制 3。由此衍生的核心目标包括仿真、预测、滤波,以及在控制工程领域至关重要的——设计基于模型的控制系统 4。

从根本上说,系统辨识旨在回答三个基本问题:为什么要使用模型?如何对模型进行分类?以及如何构建模型?4。模型的使用是多方面的:它可以替代物理系统进行测试环境中的仿真,从而提高效率;它可以用于性能分析,以保证系统的性能和安全性;更重要的是,精确的数学模型是实现最优控制系统设计的基础 3。

然而,系统辨识远不止是简单的曲线拟合。曲线拟合的目标是找到一个静态函数,使其能最好地描述一组数据点。而系统辨识的目标是理解产生观测行为的潜在_动态特性_ 3。这意味着模型不仅要能复现用于训练的数据,还必须能够预测系统在不同工况和新输入信号下的未来行为。这一过程从根本上说是一个在不确定性下进行推断的学科。它承认观测数据是有限的,并且总是被随机因素(即噪声)所污染 7。因此,其核心挑战并非仅仅是拟合一条曲线,而是从有限且含有噪声的观测中推断出一个动态过程。这使其成为一个经典的统计推断问题,其理论基础深深植根于概率论和统计学,这也是为什么最大似然法和贝叶斯方法等成为其核心工具的原因 4。

1.2 建模谱系:从白箱到黑箱

系统辨识的实践过程涵盖了一个从完全依赖先验知识到完全依赖数据的建模谱系。根据所利用的先验物理知识的程度,模型可以被分为三类,这种分类法已成为该领域的通用语言 2。

  • 白箱模型 (White-Box Models):这类模型完全基于第一性原理(如牛顿力学、化学反应动力学、电路理论等)推导得出 2。理论上,白箱模型能够最深刻地揭示系统的内在机理。然而,在现实世界中,许多系统(特别是工业过程、生物系统和经济系统)的复杂性使得构建精确的白箱模型变得极其困难,甚至是不可能的 2。

  • 黑箱模型 (Black-Box Models):与白箱模型相对,黑箱模型在构建时完全不依赖关于系统内部结构的任何先验知识,仅利用测量的输入-输出数据来确定一个数学关系 2。大多数系统辨识算法,特别是那些基于通用函数逼近器(如多项式或神经网络)的算法,都属于此类。黑箱方法提供了最大的灵活性,因为它不对系统结构做任何预先假设 2。

  • 灰箱模型 (Grey-Box Models):灰箱模型是介于白箱和黑箱之间的一种混合方法,它试图将物理洞察力与数据驱动的估计相结合 2。在这种方法中,模型的

    _结构_是基于对系统不完全的物理理解而预先设定的,但该结构中包含一些未知的自由参数(如质量、阻尼系数、反应速率等),这些参数的值需要通过系统辨识技术从实验数据中估计出来 2。例如,在微生物生长模型中,可以使用基于分子结合理论的Monod饱和模型结构,然后从数据中辨识出最大比生长速率和半饱和常数等参数 2。灰箱建模也被称为半物理建模(semi-physical modeling),在实践中往往是最强大和最有效的方法,因为它兼顾了物理真实性和数据拟合的灵活性 9。

1.3 标准工作流程:一个迭代过程

系统辨识的实践是一个系统化、迭代化的流程,任何成功的应用都离不开这一标准工作流程。这个流程不仅是构建模型的步骤,更是一个通过不断验证和修正来提升模型质量的循环 12。

  1. 实验设计与数据采集 (Experiment Design & Data Collection):模型质量的上限从根本上由数据质量决定。这一步的目标是设计信息丰富的实验,确保采集到的数据能够充分反映系统的动态特性。关键要求包括:使用能充分激励系统动态的输入信号(例如,简单的阶跃信号通常不足以激励系统的所有模式);测量足够长的时间以捕捉系统重要的时间常数;确保数据采集系统具有良好的信噪比;以及选择合适的采样间隔或频率分辨率 12。一个精心设计的实验是成功辨识的先决条件。

  2. 模型结构选择 (Model Structure Selection):在获得数据后,下一步是选择一个合适的数学结构来描述系统。这个结构是一个包含未知参数的输入-输出关系式,例如具有特定阶数(极点和零点数量)的传递函数,或具有特定状态维数的线性状态空间方程 12。这一选择直接受到前述建模谱系(白箱、灰箱、黑箱)思想的指导。对于黑箱建模,这通常是一个试错过程,从简单的结构开始,逐步尝试更复杂的结构。

  3. 参数估计 (Parameter Estimation):选定模型结构后,需要应用一种数值估计算法来确定结构中未知参数的具体数值。算法的目标是调整这些参数,使得模型输出与实际测量输出之间的误差最小化 12。这个误差可以是模型的仿真输出与测量输出之差,也可以是模型的单步预测输出与测量输出之差。最小化的准则是误差的某个加权范数。

  4. 模型验证 (Model Validation):参数估计完成后,必须对得到的模型进行严格的验证,以判断其是否满足应用需求。验证不是流程的终点,而是一个关键的反馈环节。常用的验证技术包括:

    • 响应比较:将模型的仿真或预测响应与一组新的、未用于参数估计的验证数据进行比较,并计算拟合优度百分比 12。

    • 残差分析:分析模型未能解释的那部分数据,即残差(预测误差)。一个好的模型,其残差应该是不相关的白噪声序列,并且与过去的输入不相关。残差中的任何结构性信息都表明模型未能完全捕捉系统的动态 12。

    • 模型不确定性分析:评估参数估计的不确定性对模型响应(如波特图、阶跃响应)的影响。较大的不确定性可能意味着模型阶次过高、输入激励不足或数据信噪比差 12。

如果模型验证结果不令人满意,辨识工程师需要返回前面的步骤,例如尝试不同的模型结构、调整估计算法设置,甚至重新设计实验并采集新的数据。这个“设计-估计-验证”的循环是系统辨识实践的核心 12。

第二部分:历史演进与思潮变迁

系统辨识作为一门独立的学科,其发展并非在真空中进行,而是与统计学、计量经济学、控制理论和计算机科学等领域紧密互动、共同演进的。它的历史是一部思想不断碰撞、范式不断更迭的历程,深刻地反映了科学与工程领域的需求变迁和技术进步。

第2章 学科的起源:从统计学到控制论

2.1 控制时代前夜:统计学基础

系统辨识的思想根源可以追溯到18世纪末至19世纪的早期统计学工作。高斯(Gauss)和勒让德(Legendre)为了预测行星和彗星的运行轨道,从望远镜测量数据中发展出了最小二乘法,这可以说是系统辨识最早的数学雏形 4。这些早期的工作主要集中于寻找数据中隐藏的周期性和趋势 14。

然而,为现代系统辨识奠定理论基石的是20世纪20至40年代平稳随机过程理论的发展。Wold、Kolmogorov和Wiener等数学家的工作,特别是关于谱表示、Wold分解和线性最小二乘预测与滤波的理论,为描述和分析含有噪声的动态系统提供了强大的数学语言 14。Norbert Wiener的滤波理论,旨在从噪声信号中提取有用信息,更是基于模型的信号处理的直接先驱 16。

与此同时,在经济学领域,早期的计量经济学家(如考尔斯委员会的成员)在20世纪30至40年代也发展了系统性的方法,用于辨识多输入多输出(MIMO)系统,尽管这些方法通常依赖于白噪声误差和已知动态结构的强假设 14。经济学中经典的供给-需求曲线辨识问题就源于这一时期,该问题旨在从市场价格和交易量的观测数据中分离出供给和需求两个相互交织的动态关系 18。

2.2 催化剂:现代控制革命

尽管系统辨识的理论基础早已存在,但真正将其催生为一门独立的工程学科的,是20世纪50年代末至60年代初的现代控制革命 19。

这一时期的标志性事件是Rudolf E. Kálmán引入了状态空间表示法,并在此基础上创立了最优控制(如线性二次型高斯,LQG)和最优滤波(卡尔曼滤波器)的完整理论体系 15。这些强大的、基于模型的控制设计技术,使得工程师们能够设计出性能卓越的控制系统。然而,这些技术的应用前提是必须拥有一个精确的系统动态模型。

对于航空航天、机械和电气等领域,通过第一性原理建立相对精确的模型是可能的。但是,对于许多其他领域,如工业过程、化学反应和经济系统,建立精确的物理模型极为困难 17。这种对精确模型的迫切

需求,直接催生了系统辨识作为一门正式的工程学科的诞生和发展,其任务就是为了满足模型基控制的需求而从实验数据中构建模型 19。

第3章 黄金时代:预测误差法的兴起与“Ljung式”革命

3.1 诞生之年:1965年的两篇奠基之作

如果说现代控制革命是系统辨识的催化剂,那么1965年则被普遍认为是其在控制工程界的“诞生之年”。这一年发表的两篇里程碑式的论文,分别开创了该领域至今仍在延续的两大主流思想 15。

  • Ho & Kalman (1965):这篇论文首次给出了从系统的脉冲响应数据中构建最小阶状态空间模型的有效算法,即确定性系统实现问题。这项工作奠定了实现理论(Realization Theory)的基础,并在数十年后,随着数值线性代数的发展,演变成了强大的子空间辨识方法 15。

  • Åström & Bohlin (1965):这篇论文则奠定了预测误差辨识方法(Prediction Error Methods, PEM)和基于最大似然估计的理论框架。它系统地阐述了如何从系统的正常运行记录中辨识出动态模型,其思想主导了此后数十年的研究与应用 17。

这两篇论文分别代表了两种不同的建模哲学:前者基于几何和代数方法,直接从数据构造状态空间模型;后者则基于统计优化,通过最小化预测误差来寻找最佳参数。

3.2 预测误差框架的主导地位

在1965年之后,特别是随着Box和Jenkins于1970年出版的极具影响力的著作《时间序列分析:预测与控制》的问世,预测误差方法(PEM)迅速成为系统辨识领域的主导范式 14。

在Karl Johan Åström和Lennart Ljung等学术领袖的带领下,研究界投入了大量精力来完善PEM的理论体系 22。研究重点集中在参数估计的统计特性上,如可辨识性(identifiability)、一致性(consistency,即当数据量趋于无穷时,估计参数是否收敛于真值)以及参数估计误差的渐近正态性(asymptotic normality)等 15。这一时期的研究充满了对统计最优性的追求。

3.3 哲学转向:从“探寻真系统”到“寻求最佳近似”

在系统辨识的发展史上,最深刻的思潮转变发生在20世纪70年代中期。这一转变的核心在于对辨识目标本身的重新定义。

最初,整个领域的研究都笼罩在一种“探寻真系统”(search for the true system)的哲学之下 15。研究者们普遍假设存在一个唯一的、真实的系统,而辨识的目标就是通过数据无限逼近这个真系统的参数。

然而,大约在1976年,由Lennart Ljung倡导的一种新观点开始出现,并逐渐改变了整个领域的风貌。这种新观点认为,系统辨识本质上不是一个探寻真理的过程,而是一个近似问题(approximation problem) 15。由于真实世界系统极其复杂,任何有限参数的模型都只能是其一种近似。因此,辨识的目标不应是找到那个虚无缥缈的“真系统”,而是在一个给定的模型集合中,找到对真实系统的

最佳近似

这一哲学上的转向带来了研究重心的巨大变化。研究焦点从证明参数收敛于“真值”,转向了对模型误差的量化和分析,特别是对估计出的传递函数的偏差(bias)和方差(variance)的系统性研究 19。这一思想的成熟最终体现在Ljung于1987年出版的划时代著作《系统辨识:用户的理论》(

System Identification: Theory for the User)中,这本书以其务实、面向应用的哲学,至今仍是该领域的权威经典 22。

这种思想的最终演化是将辨识视为一个设计问题(design problem)。实验条件(如输入信号)、模型结构和复杂度都成为可以调节的“旋钮”。辨识工程师的目标是调整这些旋钮,以“设计”出一个最适合特定应用目的的模型。例如,如果模型用于鲁棒控制器设计,那么辨识的目标就是最小化那些对闭环性能影响最大的模型误差。这一思想催生了“为控制而辨识”(identification for control)这一重要的子领域 15。

这种从理想主义的“求真”到实用主义的“求佳”的转变,标志着系统辨识作为一门工程学科的完全成熟。它不再仅仅是应用统计学,而是发展出了自己独特的世界观和方法论,其核心是理解和管理模型与现实之间的必然差距。

第三部分:主要方法学派

系统辨识领域已经发展出多种成熟的建模方法,这些方法可以从不同的维度进行划分。其中,最基本的划分是参数化与非参数化方法,而从实现技术的角度,时域与频域方法、预测误差法与子空间法则是最重要的几大学派。

第4章 参数化与非参数化之分

4.1 参数化方法:结构化估计

参数化方法是系统辨识的主流,其核心思想是预先假设模型具有一个特定的数学结构,这个结构由一组有限数量的参数来定义 25。例如,一个二阶系统可以由一个包含几个待定系数的传递函数来描述。辨识的任务就是从数据中估计出这些参数的具体数值。常见的参数化模型包括ARX(带外部输入的自回归模型)、ARMA(自回归移动平均模型)、状态空间模型等 28。

  • 优势:当模型结构选择正确时,参数化方法通常比非参数化方法更为强大和数据高效。它们能够提供对系统物理特性(如极点、零点、时间常数)的直接洞察,因此模型具有较好的可解释性 29。其理论,特别是对于线性系统,已经非常成熟和完善 28。

  • 劣势:其性能严重依赖于对模型结构的先验假设。如果假设的结构与真实系统不符(即模型误设),会导致系统性的偏差 29。此外,许多参数化方法依赖于对数据分布的假设(如高斯噪声),若假设不成立,估计结果可能并非最优。

4.2 非参数化方法:直接响应建模

非参数化方法不预设一个固定的、有限参数的数学结构,而是直接对系统的某些响应特性进行建模 25。典型的方法包括估计系统的脉冲响应(通过相关分析)或频率响应(通过谱分析)。

  • 优势:由于对系统底层结构的假设较少,非参数化方法更加灵活,对异常值和模型误设问题更为鲁棒 29。在计算机能力有限的早期,这类方法(如频率分析)曾是主导技术 30。它们通常作为参数化建模前的预备步骤,用于初步了解系统的动态特性,如时间延迟、主导频率等。

  • 劣势:通常需要更多的数据才能达到与参数化方法相当的精度。模型结果(如一条频率响应曲线)可能不如一组参数那样易于直接用于控制器设计,并且计算上可能更慢 28。

值得注意的是,机器学习,特别是深度学习的兴起,正在模糊参数化与非参数化之间的传统界限。从技术上讲,一个具有固定网络结构的神经网络是一个参数化模型,因为它由一组固定数量的权重和偏置来定义 26。然而,这些模型的参数数量极其庞大(可达数百万甚至更多),使其获得了传统非参数化方法才有的高度灵活性和自适应能力 25。这催生了一种新的建模范式:在一个高维甚至无限维的函数空间中搜索模型,并使用正则化技术来控制模型的复杂度 31。因此,深度学习在系统辨识中的应用,可以被看作是一种“超灵活的参数化”或“正则化的非参数化”方法,它挑战了旧有的二分法。

第5章 域之争:时域 vs. 频域

5.1 历史背景与误解

长期以来,时域辨识与频域辨识被视为解决同一问题的两种相互竞争的方法,并且频域方法一度声誉不佳 32。主要问题在于,当使用离散傅里叶变换(DFT)将有限长度的含噪时域数据转换到频域时,会产生所谓的“泄漏误差”(leakage error)。这种现象会导致即使在时域中无噪声的数据,其计算出的频率响应函数(FRF)也会出现明显的噪声,这使得许多研究者对频域方法持怀疑态度 32。

5.2 等价性的建立

后来的理论研究,特别是Ljung等人的工作,明确证明了在特定条件下,时域方法(如预测误差法)与频域方法在渐近意义上是完全等价的 21。关键的洞见在于,只要在从时域到频域的转换过程中,正确地处理了由有限数据长度引起的瞬态效应和初始条件,两种方法就能得到相同的估计结果 32。

5.3 频域的独特优势

尽管存在理论上的等价性,但在实际应用中,频域辨识提供了许多时域方法难以比拟的独特优势:

  • 噪声解耦:DFT作为一种酉变换,能够将时域中通常具有相关性的有色噪声,在频域中渐近地解耦。这意味着在频域中,不同频率点上的噪声分量是相互独立的。这极大地简化了最大似然估计中的协方差矩阵,使其从一个复杂的满矩阵变成一个简单的对角矩阵,从而简化了计算 33。

  • 连续时间系统建模:频域为从离散采样数据中直接辨识连续时间模型提供了一条捷径。这在时域中是一个相当复杂的问题,通常只能得到近似解。而在频域中,连续时间系统的传递函数(包含时间延迟项 e−sτ)具有简洁的参数化形式,非常适合辨识 33。

  • 处理不稳定系统:对于不稳定系统,在时域中进行仿真和预测计算可能会因为数值爆炸而变得非常困难甚至不可行。而在频域中,由于计算不依赖于时间上的递推,处理不稳定系统模型要稳定得多 32。

  • 直观的物理意义:频域分析提供了对系统行为的直观理解,特别是在处理谐振系统、振动分析或需要对控制器进行频率整形的设计时。工程师可以直接在感兴趣的频段内对模型进行拟合和加权 34。

第6章 核心算法比较分析

系统辨识领域的三大主流算法学派分别是预测误差法(PEM)、子空间辨识法(Subspace Identification Methods)和贝叶斯辨识法(Bayesian Identification)。它们各自基于不同的哲学思想,具有独特的优缺点。

6.1 预测误差法 (PEM) / 最大似然法 (ML)
  • 原理:PEM是系统辨识中应用最广泛、理论最完善的方法。其核心思想是通过迭代优化,调整一个参数化模型(如传递函数或状态空间模型)的参数,以最小化模型的单步预测输出与实际测量输出之间的误差(即预测误差) 12。在噪声服从高斯分布的假设下,最小化预测误差的二次范数等价于最大化观测数据的似然函数,因此PEM也被称为最大似然法(ML) 17。

  • 优势:该方法具有优良的统计特性,其估计量是渐近无偏和有效的(即在所有无偏估计中方差最小),因此被认为是统计最优的。它非常通用,适用于各种模型结构和噪声特性,并且是大多数商业辨识软件(如MATLAB的System Identification Toolbox)的核心 4。

  • 劣势:PEM的主要缺点在于其计算复杂性。它需要求解一个非线性的、通常是非凸的优化问题,这可能导致计算量巨大,并且优化过程可能陷入局部最优解,无法保证找到全局最优参数 35。对于多输入多输出(MIMO)系统,PEM需要选择一种“典范型参数化”(canonical parametrization)来保证参数的唯一性,而这种选择本身就是一个难题 35。

6.2 子空间辨识法 (如 N4SID, MOESP)
  • 原理:子空间方法是基于实现理论和稳健的数值线性代数(如奇异值分解SVD和QR分解)发展起来的一类方法。它们不直接优化一个非线性准则,而是通过几何投影的思想来辨识模型。其核心步骤是:首先,将输入输出数据排列成特定的块汉克尔矩阵(Block Hankel matrix);然后,利用SVD等工具从这些数据矩阵中估计出系统的扩展可观测性矩阵的列空间;最后,通过求解一个线性最小二乘问题,从估计出的子空间中提取出状态空间矩阵(A, B, C, D)35。

  • 优势:子空间方法最大的优点是其数值稳健性和计算效率。由于整个过程是非迭代的,并且只涉及可靠的线性代数运算,它从根本上避免了PEM的局部最优问题。此外,它不需要为MIMO系统选择复杂的典范型参数化,唯一需要用户指定的主要结构参数就是系统的阶次(状态维数),这使其在处理MIMO系统时尤为便捷和强大 35。

  • 劣势:在信噪比较低的情况下,子空间方法的精度可能不如经过充分优化的PEM。其统计特性(如估计量的方差)的理论分析比PEM更为复杂,尽管近年来已取得显著进展 6。标准的子空间算法在处理闭环系统数据时可能会产生有偏估计,需要使用专门的改进算法(如DSR_e)来解决 39。

6.3 贝叶斯系统辨识法
  • 原理:贝叶斯方法提供了一种完全不同的辨识哲学。它将待辨识的模型参数本身视为随机变量,而不仅仅是固定的未知常数。该方法利用贝叶斯定理,将关于参数的先验知识(以_先验分布_的形式表达)与从数据中获得的信息(体现在_似然函数_中)相结合,最终得到参数的_后验分布_ 40。这个后验分布代表了在观测到数据之后,我们对参数的所有认知。

  • 优势:贝叶斯方法最突出的优点是它提供了一个严格的框架来量化模型的不确定性。它输出的不是单一的参数点估计,而是参数的完整概率分布。这对于需要进行风险评估、鲁棒控制设计或需要知道预测置信区间的安全关键应用(safety-critical applications)来说是无价的 8。此外,它能够自然地融入先验信息(例如,根据物理定律知道某个参数必须为正),并通过其内在的统计正则化效应,使一些原本病态的(ill-posed)辨识问题变得可解 40。

  • 劣势:其主要挑战在于计算。计算后验分布通常需要求解高维积分,这在解析上是不可行的。因此,必须依赖于计算密集型的数值方法,如马尔可夫链蒙特卡洛(MCMC)或嵌套采样(Nested Sampling)等 8。此外,先验分布的选择可能带有主观性,并且会对最终结果产生影响。

下表总结了这三种主要方法学派的核心特征和权衡。

表 6.1: 主要系统辨识方法学派的比较分析

特征 预测误差法 (PEM) 子空间法 (如 N4SID) 贝叶斯方法
核心原理 最小化模型预测误差;统计优化 数据的几何投影;数值线性代数 推断参数的后验概率分布
主要输出 参数的点估计值 状态空间矩阵的点估计值 参数的完整后验概率分布
计算性质 迭代式、非凸优化 非迭代式、线性代数运算 通常需要MCMC等采样方法,计算密集
主要优势 统计最优性(渐近高效);通用性强 MIMO系统处理能力强;无局部最优问题;数值稳健 严格的不确定性量化;可融入先验知识
主要劣势 局部最优风险;MIMO参数化复杂;计算量大 在高噪声下精度可能较低;统计理论较复杂 计算成本高昂;先验选择可能具有主观性
典型用例 需要高精度的SISO/MIMO建模,且计算成本可接受 MIMO系统的初步建模;在线应用;快速建模 安全关键应用;需要鲁棒控制设计;具有强先验知识的场合

第四部分:现代前沿与新兴范式

随着计算能力的飞跃和海量数据的涌现,系统辨识领域正经历着一场深刻的变革。机器学习,特别是深度学习的融入,以及对更复杂系统(如非线性、大规模网络化系统)的建模需求,正在催生新的理论、方法和挑战。

第7章 机器学习的注入

7.1 作为通用函数逼近器的神经网络

近年来系统辨识领域的复兴,很大程度上是由神经网络(NN)作为通用函数逼近器的强大能力所驱动的 25。不同的神经网络架构能够自然地映射到经典的系统辨识模型结构上,从而将深度学习的表达能力引入到动态系统建模中:

  • 前馈神经网络 (Feedforward Neural Networks, FNNs) 可以被看作是非线性自回归外生模型(NARX)的一种实现,其中系统的下一时刻输出被建模为过去输入和输出的非线性函数 25。

  • 循环神经网络 (Recurrent Neural Networks, RNNs),如长短期记忆网络(LSTM)和门控循环单元(GRU),其内部状态的循环更新机制,使其天然地成为非线性状态空间模型的一种表示 25。

这种映射关系使得辨识高度复杂的非线性系统成为可能,并且在很大程度上减少了对系统具体结构先验知识的依赖 25。

7.2 对偏见-方差权衡的再思考:“双下降”现象

深度学习给系统辨识带来的一个核心智力挑战,是它对经典统计学习理论中“偏见-方差权衡”(bias-variance trade-off)的颠覆。经典理论(以及AIC、BIC等模型选择准则)认为,过于复杂的模型(参数过多)会过度拟合训练数据,导致其在未见数据上的泛化性能变差 31。

然而,深度学习模型在实践中经常表现出一种“双下降”(double descent)行为:随着模型复杂度的增加,测试误差首先如预期般下降然后上升(经典U型曲线),但当模型进入“高度过参数化”(highly over-parameterized)区域后,测试误差会再次下降 31。

这一惊人发现表明,过参数化和对训练数据的完美拟合(插值)可以是“良性的”(benign),并能带来良好的泛化能力。这种现象正在重塑统计学习理论,其背后的原因通常被归结为优化算法(如随机梯度下降)所带来的“隐式正则化”(implicit regularization)效应 31。

7.3 挑战:优化、可解释性与数据

神经网络带来的强大能力也伴随着巨大的挑战:

  • 优化:训练神经网络需要求解一个高维、非凸的优化问题。对于RNN,梯度消失和梯度爆炸问题尤为突出,使得模型优化变得非常困难 31。

  • 可解释性:深度学习模型通常是“黑箱”,其内部成千上万的参数缺乏明确的物理意义。这使得从模型中提取物理洞见变得困难,而这在许多工程应用中是至关重要的 25。

  • 数据需求:深度学习模型是“数据饥渴”的,通常需要大规模数据集才能表现良好。这与系统辨识经典理论中强调通过精心设计实验来高效利用少量数据的理念形成了鲜明对比 31。

第8章 物理信息机器学习 (PIML)

8.1 弥合数据驱动与第一性原理的鸿沟

为了克服纯黑箱机器学习模型的缺点,一个名为“物理信息机器学习”(Physics-Informed Machine Learning, PIML)的新兴范式应运而生。PIML的核心思想是将已知的物理定律作为一种先验知识,直接嵌入到机器学习模型的训练过程中 42。其目标是创建数据效率更高、鲁棒性更强、预测结果更符合物理现实的模型,从而直接解决传统机器学习的主要痛点。

8.2 物理知识的融入方法

将物理定律融入机器学习模型有多种途径:

  1. 基于物理信息的损失函数:这是最常见的方法。在标准的损失函数(如均方误差)之外,增加一个额外的惩罚项。这个惩罚项量化了神经网络的输出对已知物理定律(通常表示为偏微分方程或常微分方程)的违反程度。训练的目标是同时最小化数据拟合误差和物理规律违反误差。物理信息神经网络(PINN)是这一方法的典型代表 43。

  2. 基于物理信息的架构设计:通过设计神经网络的结构,使其内在满足某些物理原理,如能量守恒、质量守恒等。这种方法将物理约束“硬编码”到模型架构中 42。

  3. 可微分物理:将机器学习组件与传统的数值求解器(如有限元、有限差分)相结合,并利用自动微分技术使整个仿真流程变得端到端可微。这样,就可以利用梯度下降等方法,直接根据观测数据来优化模型中的物理参数或修正未知的模型部分 43。

8.3 PIML用于安全稳定的系统辨识

在动力学与控制领域,PIML的一个关键应用是确保辨识出的模型不仅精确,而且稳定和安全。这对于自动驾驶、机器人和航空航天等安全关键系统至关重要。实现这一目标的方法是将控制理论中的稳定性判据(如基于李雅普诺夫函数)或安全约束(如基于控制屏障函数)直接整合到学习框架中 42。

具体的例子包括:

  • 物理信息动态模式分解 (Physics-Informed DMD):在学习系统的线性算子时,强制其特征值位于单位圆内,从而保证辨识出的线性模型是稳定的 42。

  • 带稳定性保证的深度库普曼算子 (DeepKO):DeepKO旨在学习一个非线性系统到线性空间的映射,从而用线性动力学来分析和控制非线性系统。通过在学习过程中施加约束,可以保证学习到的线性动力学模型是稳定的 42。

第9章 巨大挑战:非线性与大规模

9.1 非线性系统辨识的持久挑战

尽管取得了长足进步,但非线性系统的辨识仍然是控制理论中一个悬而未决的开放性问题 46。其核心挑战包括:

  • 模型结构选择:与线性系统不同,不存在一个普适的、能够描述所有非线性行为的模型结构。因此,如何为特定问题选择合适的非线性模型(如Volterra级数、NARMAX模型、神经网络、模糊模型等)是一个极其困难且关键的决定 48。

  • 计算复杂性与收敛性:非线性辨识算法通常是迭代的,并且其优化的目标函数是非凸的,充满了大量的局部最优解。这使得算法很容易陷入局部最优,无法找到全局最优模型 49。

  • 数据需求:要准确辨识非线性动力学,通常需要“精心选择的输入信号”来充分探索系统的整个状态空间。随机或简单的输入信号可能无法激励出系统的非线性特性,导致辨识失败 50。

  • 模型验证:一个在训练数据上表现良好的非线性模型,并不能保证其在未经测试的状态空间区域内也能做出准确预测(即泛化能力差)。如何有效地验证非线性模型仍然是一个难题 49。

9.2 大规模网络化系统的辨识

系统辨识的另一个前沿领域是将其理论和方法应用于建模大规模、复杂网络(如社交网络、生物网络、电力网络、交通网络等)的动态演化过程 51。这里的挑战在于,辨识的对象不再是少数几个状态变量,而是整个网络拓扑结构的演化,这是一个维度极高的问题 31。

新兴的方法尝试将经典的系统辨识思想推广到这个新领域。例如,一些研究将网络的演化过程(如邻接矩阵序列)视为一个高维线性时不变(LTI)系统的输出。基于这一思想,研究者提出了如子空间图生成器(SG-gen)线性周期图生成器(LPG-gen)等算法,它们利用子空间辨识技术来建模周期性的图序列 51。这些工作展示了将控制理论工具应用于理解复杂网络动态的巨大潜力。

这一系列现代前沿的发展轨迹,实际上描绘了系统辨识领域的一次“螺旋式上升”或“回归之旅”。该领域始于对物理世界的“白箱”建模尝试,但因其困难而转向了数据驱动的“黑箱”和“灰箱”方法。纯粹机器学习的兴起将“黑箱”哲学推向极致。然而,纯黑箱方法的局限性(如数据效率低、缺乏物理可信度、泛化能力差)又促使研究者们重新拥抱物理知识,催生了PIML这一“白箱”与“黑箱”深度融合的范式。未来,系统辨识的核心将不再是“数据”与“物理”的二选一,而是在复杂、大规模、非线性系统的建模中,如何将二者进行精妙的结合,以实现精确、安全、鲁棒且可解释的建模。

第五部分:实践中的系统辨识:应用概览

系统辨识的理论和方法已在众多科学与工程领域中得到广泛应用,并取得了显著成效。本部分将通过一系列具体的案例,展示系统辨识在解决实际问题中的强大能力。

第10章 工程与工业系统

10.1 过程控制:化工与制造系统

在化工和制造等流程工业中,精确的过程模型是实现优化控制、提高生产效率和保证产品质量的关键。系统辨识为此提供了核心工具。

  • 应用案例:对一个连续搅拌釜反应器(CSTR)进行建模与优化 52。工程师们面临的挑战是,CSTR是一个复杂的非线性过程,难以通过第一性原理精确建模。通过在反应器上施加一系列精心设计的输入扰动(如进料浓度、温度的阶跃变化),并记录关键输出(如产品浓度)的响应数据。随后,采用预测误差法(PEM)辨识一个非线性自回归外生(NARX)模型。这个数据驱动的模型准确地捕捉了反应器的动态行为。基于此模型设计的高级控制器(如模型预测控制,MPC)能够更有效地维持产品组分,减少废料,并降低能耗 52。

  • 其他应用:系统辨识模型还广泛用于工业过程的故障检测与诊断。通过比较实际过程输出与模型预测输出的残差,可以灵敏地检测到微小的设备故障或传感器漂移,从而实现早期预警,提高系统安全性并降低维护成本 53。

  • 所用方法:预测误差法(PEM)、非线性模型(NARX)、黑箱/灰箱建模方法是该领域最常用的技术 10。

10.2 航空航天工程:飞行器动力学建模

在航空航天领域,飞行器的安全性和性能至关重要,而这高度依赖于精确的飞行控制系统。系统辨识是开发这些高精度、经过飞行验证的动力学模型的首选方法。

  • 应用案例:为新型旋翼机或固定翼飞机设计飞行控制律 54。尽管可以基于空气动力学和牛顿定律建立复杂的物理仿真模型,但这些模型往往与实际飞行器的行为存在偏差。系统辨识提供了一种更高效、更准确的途径。通过在飞行试验中,由试飞员执行特定的操纵动作(如频率扫描),记录飞机的输入(操纵面偏转)和输出(姿态角、角速率、加速度等)数据。然后,利用这些数据辨识出飞行器在特定飞行包线内的线性化状态空间模型或传递函数模型。频域辨识方法在此领域尤为流行,因为它能直观地显示模型在不同频率下的拟合情况,并且能方便地提供模型不确定性信息,这对于鲁棒控制设计至关重要 55。

  • 优势:基于飞行数据的辨识模型比修正复杂的物理模型更省时,并且能更好地匹配真实飞行器的动态特性。它还能为控制工程师提供额外的物理洞察,甚至反过来用于修正和改进物理模型 55。

  • 所用方法:频域辨识法、输出误差法(OEM)、滤波器误差法(FEM)以及扩展卡尔曼滤波(EKF)等被广泛应用,特别是对于气动不稳定的现代飞行器 54。

10.3 机器人与机电一体化:精密运动控制

对于机器人和精密机电系统,实现快速、精确的运动控制是其核心功能。系统辨识在其中扮演着不可或缺的角色,它用于获取机器人各部件的精确动态模型。

  • 应用案例:辨识一个多关节机械臂的动力学参数 57。机械臂的运动受到惯性、重力、科里奥利力、摩擦力等多种复杂因素的影响。为了实现基于模型的精确控制(如计算力矩控制),必须知道这些动力学参数的准确值。通过让机械臂执行一系列轨迹,并记录电机施加的力矩和关节的实际运动(角度、角速度),可以利用最小二乘回归等方法,辨识出模型方程中的未知参数(如连杆质量、质心位置、摩擦系数等)。一个非常实用的例子是WPILib为教育和竞赛机器人提供的SysId工具,它可以自动进行实验并辨识出电机、电梯和机械臂的简单动力学模型参数(如速度增益Kv​、加速度增益 Ka​、重力补偿项 Kg​ 等)7。

  • 挑战与方法:在机器人辨识中,一个常见的挑战是状态(如位置、速度)和参数的同时估计,这构成了一个“鸡生蛋还是蛋生鸡”的问题。期望最大化(EM)算法是解决此类问题的一种有效方法,它通过迭代交替进行状态估计(E步)和参数最大化(M步)来求解 59。

10.4 土木工程:结构健康监测 (SHM)

系统辨识为评估和监测大型土木基础设施(如桥梁、高层建筑)的长期健康状况提供了强大的技术支持。

  • 应用案例:桥梁的长期健康监测与损伤评估 60。桥梁结构会因老化、疲劳、环境腐蚀以及地震、强风等极端载荷而发生性能退化。这种退化通常表现为结构刚度的降低。通过在桥梁上布设加速度计等传感器,可以长期监测其在环境激励(如交通、风)或地震作用下的振动响应。利用系统辨识技术(如模态分析、扩展卡尔曼滤波、神经网络等),可以从这些振动数据中识别出结构的模态参数(如固有频率、阻尼比)或直接识别出关键构件的等效刚度 61。通过比较当前识别出的刚度与结构完好时(基线)的刚度,就可以判断结构是否发生损伤、损伤的位置和严重程度,为桥梁的维护、维修和灾后快速评估提供科学依据 60。

  • 所用方法:基于振动数据的模态分析、时域方法(如扩展卡尔曼滤波)和频域方法被广泛用于识别结构特性的变化 61。

第11章 超越传统工程领域

系统辨识的原理和方法具有普适性,其应用早已超越了传统的工程学科,在经济、生物、医学等领域发挥着越来越重要的作用。

11.1 计量经济学:建模经济系统

在经济学中,“辨识”是一个核心概念,其历史甚至比在工程领域更为悠久。它关注的是能否从观测到的经济数据中唯一地确定理论模型中的结构性参数。

  • 应用案例:经典的供给-需求模型辨识 18。市场上的价格和交易量是由供给和需求两条曲线共同决定的。当观测到一系列价格和交易量数据点时,这些点是供给曲线和需求曲线的交点。如果两条曲线同时移动,观测到的数据点将无法区分到底是哪条曲线的变化。计量经济学中的系统辨识问题,就是利用额外的“工具变量”(Instrumental Variables),即那些只影响其中一条曲线而不影响另一条的变量(如影响供给的天气因素,或影响需求的收入水平),来解决这个纠缠,从而唯一地辨识出供给和需求曲线的参数 18。

  • 方法与思想:计量经济学发展了包括工具变量法、联立方程模型、因果推断框架等一系列复杂的辨识理论和方法 18。该领域对“可辨识性”的探讨极为深刻和严谨。

11.2 生物医学工程:人工胰腺

系统辨识在生物医学工程中最具影响力的应用之一,是为1型糖尿病患者开发“人工胰腺”(Artificial Pancreas)系统。

  • 应用案例:构建个性化的血糖-胰岛素动态模型 63。1型糖尿病患者的身体无法自行分泌胰岛素来调节血糖。人工胰腺系统通过一个闭环控制系统来模拟这一功能,该系统由连续血糖监测(CGM)传感器、胰岛素泵和核心的控制算法组成 63。控制算法(通常是模型预测控制MPC)的有效性,完全依赖于一个能够准确预测患者血糖对进食和胰岛素注射响应的数学模型。由于每个患者的生理参数(如胰岛素敏感度、葡萄糖代谢速率)差异巨大且随时间变化,为每个患者辨识一个个性化的血糖-胰岛素模型至关重要。通过分析患者的CGM数据、进食记录和胰岛素注射数据,可以辨识出描述其特定生理动态的模型参数 64。

  • 挑战与前沿:该领域的一个主要挑战是模型的“可辨识性”——即能否从有限的、有噪声的日常数据中唯一地确定所有生理参数 64。另一个挑战是如何处理模型的不确定性和个体内在的生理节律变化。最新的研究开始采用物理信息循环神经网络(BI-RNN)等先进方法,将已知的生理学知识(如葡萄糖和胰岛素作用的微分方程)作为约束,融入到神经网络的训练中,以在保证预测精度的同时,确保模型的生理学一致性 63。

第六部分:综合与未来展望

第12章 结论与未来轨迹

本次综合评述系统地梳理了系统辨识领域的理论基础、历史演进、核心方法学派、前沿挑战以及广泛的应用实践。通过对这一复杂学科的深入剖析,可以得出以下几个核心结论,并展望其未来的发展轨迹。

首先,系统辨识的智识之旅是一次深刻的哲学演进。它从早期统计学中对“真实模型”的理想化追求,在现代控制理论的催化下,转变为一门成熟的工程学科。其核心思想最终由Ljung等人确立为一种务实的、面向目标的“设计”哲学:辨识的目标不是发现绝对真理,而是在给定的模型类别和数据限制下,构建一个对特定任务(如仿真、预测或控制)而言“最佳”的近似模型。这种从“求真”到“求佳”的转变,是该领域成熟的标志,它强调了对模型误差的理解、量化和管理。

其次,当前的技术格局呈现出经典理论与现代方法并存且相互激荡的局面。一方面,以预测误差法(PEM)、子空间法和贝叶斯方法为代表的经典理论,提供了统计最优性、计算稳健性和不确定性量化的坚实基础,它们依然是解决大量工程问题的核心工具。另一方面,以深度学习为代表的机器学习方法,凭借其强大的非线性逼近能力,为处理高度复杂的系统开辟了新的道路,并挑战了传统的偏见-方差权衡观念。这两者之间存在一种富有成效的张力:经典方法严谨但灵活性有限,而机器学习方法灵活但往往缺乏可解释性和物理一致性。

展望未来,系统辨识领域的发展轨迹将是一条综合与融合之路。纯粹的“白箱”(第一性原理)和“黑箱”(纯数据驱动)建模范式正逐渐让位于更加精妙的“灰箱”思想。这一趋势最显著的体现就是物理信息机器学习(PIML)的兴起。PIML代表了该领域的一次“回归”与“超越”:它将最初因困难而被部分搁置的“白箱”物理知识,重新注入到现代强大的“黑箱”学习框架中。未来的核心挑战不再是数据_或_物理的抉择,而是如何实现数据_与_物理的深度融合。

未来的研究将集中于将这种混合建模思想扩展到更具挑战性的领域,特别是高度复杂、非线性和大规模网络化系统。在这些前沿领域,成功的关键在于开发新的理论和算法,能够在利用海量数据的同时,提供经典控制理论所珍视的核心保证:即模型的安全性、鲁棒性和可解释性。最终,系统辨识将继续作为连接理论与现实、数据与物理的关键桥梁,在推动科学发现和工程创新中扮演着不可或缺的角色。