您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页基于线性和非线性判别的工业过程建模方法

基于线性和非线性判别的工业过程建模方法

来源:化拓教育网
第3o卷第4期 2 0 1 7年1 1月 青岛大学学报(自然科学版) JOURNAL OF QINGDAO UNIVERSITY(Natural Science Edition) VoI.3O No.4 NOV.2 0 1 7 文章编号:1006一1037(2017)04—0098—05 doi:10.3969/j.issn.1006—1037.2O17.11.19 基于线性和非线性判别的工业过程建模方法 邓家磊,丁海斌,钱妍池 (中国电子科技集团第二十八研究所,南京210014) 摘要:在传统的工业过程建模方法的基础上,针对变量间往往存在复杂的数据特性的问题, 提出一种线性和非线性关系的判别方法。以多元统计分析为基础,对变量之间的相关性进 行分析,有效区分了线性变量和非线性变量。在此基础上提出了相应的建模方法,提高了模 型精度。通过仿真验证,对过程进行线性和非线性判别有助于提高过程模型的精度。 关键词:过程建模;多元统计分析;线性关系;非线性关系 中图分类号:TP271 .4 文献标志码:A 随着科学技术的发展,计算机网络和先进传感技术广泛应用于工业过程中。流程工业系统包含众多过 程变量以及各种复杂的物理、化学变化,采用传统的机理模型对这样的过程进行建模难度较大。基于数据驱 动的建模方法是基于过程采集数据建立的,具有不需要深入了解过程机理、算法通用性强等特点,广泛应用 于流程工业的建模及优化中l】 ]。由于工业过程的数据具有非线性强、耦合度高、包含噪声及动态性等特 征,传统的线性回归模型难以建立较为准确的模型。在工业现场,越来越多的过程数据被采集,这些数据蕴 含了丰富的过程信息,因此,基于数据的工业过程建模方法尤其是多元统计分析方法得到了广泛的应用 。]。 其中,主成分分析(PCA,Principle Component Analysis)是一种常见的数据分析方法,是在保证数据信息损 失最少的前提下,将多个相关的变量转化为少数几个不相关的变量,从而达到对高维数据降维的目的口。]。 然而,PCA是一种线性的方法,无法提取非线性数据的非线性特征,往往采用非线性PCA进行分析 。传 统的数据驱动的建模方法往往事先假定过程的先验知识是可以获得的,从而可以判断工业过程是线性或是 非线性的。但这一信息在实际的生产过程中往往无法事先预知。因此,传统的建模方法无法有效针对数据 特性采用相应的建模方法,容易丢失数据信息,导致模型不准确。基于此,本文提出了一种基于线性一非线 性判别的建模方法,先对数据特性进行分析判断,再基于不同特性建立不同的模型。 1 主成分分析(PCA) PCA作为一种处理多变量高耦合数据的方法,能从时间序列中获取潜在的统计信息特征。PCA的主 要原理是将原始的数据变量用潜变量进行归纳和总结,这些潜变量代表着原始信号相关性最强,波动最大的 信息,因此能进行数据降维和特征提取。 对于原始数据x,进行PCA分析后,可以得到T=xP,t 一 P。其中,T是主成分,是原始变量的线性 组合,P是负载向量,表示主成分的权重,t则是主成分的得分向量。经过PCA分解后,原始数据被分成两个 子空间,一个是主成分代表的主元空间,另一个是残差空间( 一X --Pt )。 2基于PCA的非线性一线性判别 本文提出了一种两步的非线性一线性衡量方法:(1)对整个过程进行衡量,判断整体呈现线性关系或者 非线性关系;(2)进一步筛选线性相关的变量和非线性相关的变量。将原始变量空间分解为线性空间非线性 空间,并分别建模。 收稿日期:2017-06—21 通讯作者:邓家磊,男,工程师,主要研究方向为控制理论与控制工程。 第4期 邓家磊等:基于线性和非线性判别的工业过程建模方法 99 2.1全局线性一非线性衡量 假设所获得的数据为x,根据大数定理可知,当采样样本足够多时,x可以近似服从高斯分布。对x进 行标准化处理,使得x均值为零,标准差为1。全局性衡量的步骤如下: (1)采用文献[8]提出的基于PCA的方法对x进行运行状态态识别,将 划分成离散的多个子集; (2)采用交叉验证方法 。 选取一个参考的运行状态,即选定一个子集作为参考子集; (3)假设初始数据被划分为m个离散的子集,参考子集为x,。则对xr建立PCA模型 X,一TP +E SPE—diag(EE —diag(TS rr) SPE~ ~, (1) F(n1, 2) 其中,diag表示对矩阵取对角线的元素,SPE和T2是两个监测统计量,用于衡量数据的变量相关性是否发 生变化。SPE服从加权卡方分布, 服从F分布 ],因此可以根据分布特性建立置信区间。其中,下标h是 表示卡方分布的参数,而n 和 则表示F分布的参数。 (4)对于其余 一1个备选子集,采用参考集的PCA模型计算SPE和 两个监测统计量 一X P E 一X 一ToP SPE 一diag(E E:) ===(2) diag( S ) 将新求的的两个统计量与步骤(3)的置信区间进行比较,若超限,则表示变量相关性发生了变化,全局呈 非线性;反之,则全局呈线性,可采用线性PCA的方法进行建模。 2.2非线性一线性变量隔离 在线性代数中,对于包含J个变量的数据集x,若存在 k X +…+k X 一0 (3) 其中,∑k ≠0,则说明x的变量线性相关。而对于工业过程,则要求所有系数k均不为o,才说明x线性相关。 1 因此,提出了一种迭代的变量隔离方法,对工业过程数据进行线性判断,筛选出线性变量和非线性变量, 分别建模。 (1)建立目标函数minJ一1l∑k *X l1,设定J的阈值,当J小于阈值时,认为寻找到的向量K一({志 , i一1 s.t llK【1=1 k ,…,k。)满足式(3),说明x是线性相关的,否则则认为线性不相关; (2)寻找参数K,使得J最小; (3)判断J是否小于阈值e,如果小于阈值,则说明x中含有线性部分,接下来将线性部分、非线性部分 分开,对非线性部分继续执行步骤(2),寻找其中线性部分,直到所有线性部分被区分开来。 在进行了上述两个步骤之后,原始数据集被分为两个大部分,非线性数据及线性数据。对于线性数据, 又由上述迭代过程分为若干个子集,每个子集内变量线性相关。对于非线性数据,则可以采用NLPCA和 KPCA等非线性方法进行建模,而对于线性数据部分,则可以采用PCA进行分析。 2.3线性一非线性变量建模 (1)对于线性变量x ,采用PCA进行建模分析 —TP +E (4) 其中,T是主成分,P是负载矩阵。PCA将数据分解为两个部分,主元T和残差E。基于此,两个统计指标可 以计算 Te一(t— ) (t—f) 1O0 青岛大学学报(自然科学版) 第30卷 其中,t是T的每一行,e是E的每一行。对上述两个指标,可以采用核密度估计的方法对其数据的概率分布 进行计算,并选取累计概率为0.95处的值作为控制线,代表了正常的波动范围。 (2)对于非线性变量x ,采用KPCA进行建模,首先,采用核函数对 ,进行非线性映射,得到 8( )。其次,求出 ( )的协方差矩阵K,K===EC,(x ), ( )].对K进行特征根分解得到特征向量,选 取前R个作为负载向量P。这里R的确定方法为:所选取的特征向量对应的特征之和根占总和的95%以 1:o核函数采用高斯核, 一 eXp(一号)o (3)计算式(5)中的两个统计指标,然后用核密度的估计方法求出相应的控制线。 3仿真验证 文献E1o,11]给出一个经典非线性仿真系统,在此基础上,增加变量个数,提高变量的复杂性,并将利用 此系统验证算法的有效性。设非线性仿真系统为 『3z7 1一 ̄ t -—Fe3l + z3一一t。+3t +g3 l 4一t+2t +P4 【z5—2t。+3t -F g5 其中,t为服从均匀分布的随机数据,且t∈Eo.01,2],e ( 一1,2,…,6)服从正态分布N(O,0.01),属于独 立的扰动变量。注意,此处的线性非线性指的是变量间的相关性,而非变量本身。 对整体进行线性非线性判断,将其划分为6个区域,其中 1个参考区域,5个备选区域,结果如表1,所有备选集统计量 ( 或SPE)均有超出控制线的部分,说明原始数据集整体上 为非线性。因此,需要进一步判断非线性变量以及线性变量。 采用第二步所述方法对变量进行判别,得到线性变量为 517 ,表1全局非线性一线性判别结果 z ,.27 ,非线性变量为 。, 。这和仿真实验设计是吻合 为了验证本方法建立的模型的有效性,对其拟合和泛化 的。说明了本方法能有效筛选出线性和非线性变量。 能力进行了仿真验证。将200个数据集分为两个部分,前 100用于建立训练模型,后100个用于模型测试。仿真实验的结果如图I所示,其中, 指标与控制限(虚 线)的距离反映了模型的重构数据和测量数据的统计距离,从另一方面揭示了模型的精度。 图1线性PCA模型拟合泛化性能(虚线:控制线;点:统计量) (a)训练数据的模型拟合性能;(b)测试数据的模拟泛化精度 第4期 邓家磊等:基于线性和非线性判别的工业过程建模方法 101 图1是基于训练数据的模型拟合性能,统计指标都没有超出控制线,表明拟合良好。模型用于处理测试 数据时,统计指标均超限,说明泛化能力较差,这是因为数据整体呈非线性,单一线性PCA无法准确表征。 采用全局非线性PCA模型得到的模型性能如图2所示,若不加判断采用非线性模型,虽然模型泛化能 力有所提升,但却牺牲了模型拟合能力。 图2非线性PCA模型性能(虚线:控制线;点:统计量) (a)模型的拟合精度;(b)模型应用于测试数据的泛化精度 采用本文的方法对线性变量和非线性变量进行分别建模得到的模型性能结果如图3所示。 0 0 0 0 图3本文方法模型性能 (a)本文模型的线性数据性能图;(b)本文非线性数据性能图 图3的顶部图表示模型应用于训练数据的拟合精度,而底部的图表示模型用于测试数据的泛化精度。 与红色控制限的距离均较为接近,说明本模型的拟合和泛化精度都良好,进一步说明模型的可靠性。对 比图1、图2和图3的结果可以看出,本文所提出的方法对于复杂的数据(既有线性又有非线性)有很好的表 征能力,而若不加判断进行建模,则很容易导致模型精度降低,从而验证了本方法的有效性。 4 结论 本文提出了一种基于数据特性分析的统计建模方法,判断了数据的整体非线性,针对线性子空间和非线 性子空间分别建模,有效刻画了系统不同的数据特征,提高了模型精度。通过仿真验证了算法的有效性。 参考文献 [1]Jackson J E.A User’s Guide to Principal Components[M].Wiley:New York,l991. E2]约翰逊.实用多元统计分析EM].北京:清华大学出版社,2003. 23]Jolliffe I.Principal component analysis[M].New York:John Wiley&Sons,2002. E4]Karhunen J,Joutsensalo J.Representation and separation of signals using nonlinear PCA type learning[J].Neural networks,1994,7 (1),113—127. E53 Chin T J,Suter D.Incremental kernel principal component analysis[J].IEEE Transactions on Image Processing,2007,16(6),1662— 102 1b74. 青岛大学学报(自然科学版) 第30卷 E6]Choi S W.Lee C,Lee J M,et a1.Fault detection and identiifcation of nonlinear processes based on kernel PCA[J3.Chernometrics and in telligent laboratory systems,2005,75(1):55—67. r7]H0ffmann H.Kerne1 PCA for novelty detection ̄J].Pattern Recognition,2007,40(3),863—874・ r8]wold S.Cross-validat0ry estimati0n of the number of principal components in factor and principal component models[J]・Technometrics 1987。20(4),397—406. r9]Stone M.Cross-validatory choice and assessment of statistical prediction[J].Journal of the Royal Statistical Society,Series B(Method。 logica1).1974,(36),111—133. ElO]Lee J M,Yoo C,Choi S W,et a1.Nonlinear process monitoring using kernel principal component analysis[J].Chemical Engineering s i ence,2004,(59):223—234. [11]Dong D,McAv。y T J.Batch tracking via nonlinear principal c。mp㈣nt analysisEJ].AIChE Journa1,1996,42(8),2199—22。8・ A Linear—nonlinear Discriminant Analysis Based on Statistical Modeling Method for Industrial Processes DENG Jia—lei,DING Hal—bin,QIAN Yan—chi (China E1ectronic Technology Group 28th esearch Laboratory,Nanjing,210014,China) Abstract:Based on the traditional industrial process modeling methods,focusing on the complex data char— acteristic problem,a linear and nonlinear discriminant analysis algorithm is proposed.This method adopts muhivariate statistica1 analysis to analyze variable correlations,which can effectively distinguish linear var— iab1es and nonlinear variables。 Based on it,corresponding modeling strategy is proposed.The method 1S verifled by simulation example and conclusion can be drawn that modeling accuracy can be improved・ KeyWOrds:Dr0cess modeling;multivariate statistical analysis;linear relationship;nonlinear relationship 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务