您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页基于形态相似距离的时间序列相似度计算

基于形态相似距离的时间序列相似度计算

来源:化拓教育网
2016年3月 计算机工程与设计 COMPUTER ENGINEERING AND DESIGN Mar.2016 第37卷第3期 Vo1.37 No.3 基于形态相似距离的时问序列相似度计算 李 中,刘洋洋+,张铁峰 (华北电力大学电气与电子工程学院,河北保定071003) 摘要:针对现有时间序列相似度距离计算方法的不足,应用具有一定形态区分能力的形态相似距离(morpho ̄gy simila- rity distance,MSD)研究解决时间序列的相似度评估问题。完成金融时间序列的分段线性表示,分别基于动态时间弯曲距 离、欧氏距离和0形态相似距离分析其相似度,仿真对比分析结果表明,形态相似距离的计算精度近似于动态时间弯曲距 离,其计算速度近似于欧氏距离。 关键词:时间序列;相似度;距离;形态;线性表示 中图法分类号:TP311 文献标识号:A 文章编号:1000—7024(2016)03—679-05 doi:10.16208 ̄.issnl000—7024.2016.03.0023 Time series similarity measurement based on morphology similarity distance LI Zhong,LIU Yang-yang+,ZHANG Tie—feng (School of Electrical and Electronic Engineering,North China Electric Power University,Baoding 071003,China) Abstract:Aiming at the shortcomings of the existing time series similarity distance measurements,the morphology similarity distance(MSD)with the ability of shape discrimination was used to study the issue of time series similarity assessment.The similarity between ifnancial time series was calculated based on the dynamic time warping distance,the Euclidean distance and the morphology similarity distance after piecewise linear processing.Results of simulation indicate that the MSD is similar to the dy- namic time warping distance on accuracy,and it has the same computation speed as the Euclidean distance. Key words:time series;similarity;distance;morphology;linear representation 0 引 言 相似性问题是时间序列数据挖掘中的一个基础和关键 性问题『1 ],为其提供了基本的工具与研究手段,且相似性 度量方法的选择往往对挖掘的效果起着决定性作用。由于 动态时间弯曲距离和欧式距离的时间序列相似度计算性能。 1时间序列相似度及其度量 相似度常以距离作为其外在表现形式,任意两条时间 序列可通过距离来衡量其相互关系,距离越小,两条序列 就越相似;反之则越不相似_3]。目前,基于距离的时间序 列相似度度量中,欧氏(Euclidean)距离和动态时间弯曲 (dynamic time warping,DTW)距离使用较为广泛。 1.1欧氏距离 时间序列具有和海量的特点,相似性的度量过程常需 要结合时间序列的特征表示来提高度量效率。 目前时间序列相似性度量方法主要有经典的点距离法 或是在其基础上进行修正、扩展的方法,以及传统的动态 规划方法,这些方法均是针对序列元素值进行数学计算的 欧式距离是应用最广泛的相似度计算工具之一,计算 方法简单直接、易于理解,常作为一种基础算法应用到索 引、聚类和分类等数据挖掘过程中。但其应用过程中要求 被比较序列必须有相同的长度,且不具有形态识别能力、 过程,忽略了序列本身的形态特征和变化趋势。本文拟采 用具有一定形态识别能力的形态相似距离(morphology similarity distance,MSD)分析计算时间序列的相似度,并 在分段表示的基础上对金融时间序列数据进行了实验仿真, 从计算精度和计算速度两个方面,对比分析形态相似距离、 收稿日期:2015—05—08;修订日期:2015—07—15 基金项目:河北省自然科学基金项目(F2015502047) 对噪声或序列的平移、压缩和拉伸等突变敏感,计算准确 度不高。 作者简介:李中(1970一),男,浙江宁波人,博士,副教授,研究方向为智能信息处理、电气设备故障诊断;+通讯作者:刘洋洋(1989一), 女,河北保定人,硕士研究生,研究方向为数据挖掘;张铁峰(1974一),男,内蒙古乌兰察布人,博士,副教授,研究方向为信息系统与 信息安全、智能决策支持系统。E-mail:ncepulyy@126.corn ・ 68O ・ 计算机工程与设计 2016焦 1.2动态时间弯曲距离 算对象各维的差值具体分布因素进行相似度计算的一种方 法,已有的研究结果表明该距离能够结合对象的大小和形 状相似两个因素进行相似度评估_g ,其定义为:P个 维 数据L 一(z …z ) 与■一(z …z ) ,i、 —i,2 …动态时间弯曲距离(以下均简称为DTW距离)是一 种以动态规划思想对时间序列进行合理匹配的相似度度量 方法,早期主要应用于语音的识别工作中,后由Berndt和 Cliford成功应用到时间序列的数据挖掘领域。DTW距离通 过递归法计算出其弯曲矩阵中代价最小的最优路径来得到 ,P,L 与L,之间的形态相似距离是 【)MsD=DE lid×(2一ASD/SAD) (1) 最小距离值,不要求两比较序列的长度一致,允许时间轴 上的漂移,对噪声或突变不敏感。但是DWT计算量大、 时间复杂度高,且不满足三角不等式,这些在一定程度上 了其使用。 其中,DEud d是Ll与L,之间的欧氏距离,SAD(sum of the absolute differences)是 与L,之间的曼哈顿距离,ASD (absolute sum of the differences)是L与L,之间的各维差 值之和的绝对值,即 2基于形态相似距离的时间序列相似度计算 2.1形态相似距离 ‰c…一 ×}z— l ( 一Z l 一 (2) 形态是时间序列的重要特征,目前基于时间序列的形 态进行其相似度评估,主要有基于形态的自然语言描述、 2.2分段表示和时刻对等 基于符号聚合近似和基于某种几何性质的相似度计算方法: (1)基于形态和趋势的自然语言描述方法:能够表征 序列各子集的变化趋势的三元模式(上升、保持和下降) 分段线性表示方法(piecewise linear representation, PLR)能有效反映时间序列的形态特征和变化趋势,但需 要对分段数目进行合理地设置:线段太少,会丢失关键的 细节信息和形态特征;线段太多,则会保留较多的冗余信 息增加计算复杂度。PLR主要有3种具有代表意义的线性 分段方法:即滑动窗口(sliding windows,SW)、自顶向下 (top-down,TD)和自底向上(bottom-up,BU)。其中, 距离,具有多分辨率特性,但模式分类粗糙只能反映序列 的动态变化趋势;在三元模式距离基础上进行改进的七元 模式(快速下降,保持下降、平缓下降,水平,平缓上升, 保持上升,快速上升)形态距离,以及文献[4]提出的基 于趋势(上升趋势、下降趋势、平缓趋势,分割区间内取 得峰值、分割区间内取得峰谷)的时间序列相似性度量方 法,在一定程度上均提高了相似性度量精度,但两类方法 的模式和趋势划分有限、对应分段距离值是离散的,计算 精度不高。 自底向上表现最佳,能够有效解决分段数量K的确定问题。 后有学者在PLR的基础上进行了扩展,如文献[8]提出 了基于PLR的分段6维表示,文献Eli]提出了基于时间 序列趋势转折点的分段线性表示方法,文献De]提出一 种连续分段多项式模式表示方法等。 时间序列线性分段后各段端点往往不会完全对齐,而 不具时间弯曲性质的距离度量方法无法直接对其相似度进 行准确评估。因此可采用等模式数(equal pattern number, EPN)方法对分段后的时间序列子段进行时刻对等后,完 成其相似度计算。 2.3相似度计算及计算环境 (2)基于符号聚合近似的方法:针对符号聚合近似 (symbolic aggregate approximation,SAX)方法对时序信息 描述不完整的缺陷,文献[5]提出了基于形态特征的时间 序列符号聚合近似(shape features based symbolic aggregate approximation,SF—sAX)的相似性度量方法MINDIST, 文献E6]对MINDIST做了改进并提出基于趋势的符号化 表示(trend-based symbolic approximation,TSX)的距离 函数TSX—DIST,取得了更好的度量效果,两种方法均利 本文应用MATLAB2012a软件,提取CCER中国经济 金融数据库(http://wⅥnⅣ.ccerdata.cn)中的深发展A、 用各个子序列的均值特征(水平形态)和斜率特征(趋势 形态)来共同描述数据的变化趋势,将其符号化后进行相 似性度量,兼顾了时间序列段的统计特征和形态特征,并 能够较好的度量序列之间的关系,但由于符号化和距离计 算过程复杂,应用受到了。 (3)基于某种几何性质进行相似度计算的方法:如弧 度距离_7]分别基于相邻两点的夹角和与时间轴夹角的弧度 深万科A、深长城A、深天马A四支股票自2000年1月4 日之后的1800条日收盘价组成4条的时间序列作为测 试对象,进行其相似度分析。图1中图(a)~图(d)依 次是前述四支股票序列样本的原始波形图,分别命名为 L 、L2、 、L 。计算环境:编译软件/Matlab2012a,操 作系统/Windows7,CPU/Intel(R)Core(TM)一4200, 进行相似度计算,部分反映时间序列形态变化,但形态信 息挖掘不充分,完整性差;基于分段拟合曲线在各时刻处 主频1.6 GHz,内存4 G,硬盘容量500 G。 首先,采用自底向上分段表示方法对各序列进行分段 线性表示。图2、图3给出了各序列在分段数为20和8O时 的分段线性表示效果。 曲率的曲率距离 8],实验效果较好但计算复杂、效率不高。 形态相似距离是在经典欧氏距离的基础上,考虑待计 第37卷第3期 李中,刘洋洋,张铁峰:基于形态相似距离的时间序列相似度计算 68l 娟 嘏 翎 稍 时间点 时问点 (b) 翥 时间点 (c) 胡 时间点 (d)t 图1测试原始时间序列 ¥胡 娟 媚 (a) (b]L (d) 图2原始时间序列的分段线性表示(分段数20) (a)£ (b) 时间点 (c)‘ 时间点 (d)L 图3原始时间序列的分段线性表示(分段数80) 然后,采用EPN方法完成时刻对等,分别应用形态相 似距离、欧氏距离和DTW距离计算各序列对间的最终相 似距离。分段数分别为20、4O、5O、6O、8O和100的时间 序列相似度计算结果依次记录在表1中。 为了对比不同距离的计算速度,分别在分段数为2O、 40、6O和8O的条件下,用上述3种距离对序列对(Lz, L。)连续进行100次相似度计算,其平均运行时间记录在 表2。 ・682・ 计算机工程与设计 2o16拄 表1不同分段条件下的3种距离比较 最后,本文对测试原始序列进行了基于形态相似距离、 欧氏距离和DTW距离的相似度分析计算,结果记录在 表3。 表2不同距离计算运行时间对比 计算运行时间/(t/ms) 分段 D ̄妈D DELld D 表3原始时间序列之间的3种距离比较 3实验结果分析 表1、表3中,每列的加粗数字为不同分段条件下此类 距离的最小值,斜体数字为最大值。 计算精度分析:根据表1,不同分段条件下的形态相似 距离计算结果均认为Lz与 最相似,L 与L 最不相似, 与DTW距离的判定结果非常接近,也符合人工判读结果。 欧氏距离仅在分段为4O、80、100时得到与形态相似距离 和DTW距离相同的结果,表明其计算准确性较差。 稳定性分析:表1(不同分段)和表3(不分段)的相 似度计算结果表明:形态相似距离在不同分段和不分段条 件下的计算结果一致;DTW距离中除分段为2o以外,其 计算结果与形态相似距离一致;欧氏距离在分段前后判读 结果相异,并且在分段不同时结果也出现了不同的变化。 可见形态相似距离、DTW距离相比欧氏距离对时间序列数 值的依赖性低、稳定性高。 计算复杂度分析:根据表2表明DTW距离用时最长, 并随着分段数目的增加快速增大。形态相似距离、欧式距 离的运行时间随分段数目增加呈缓慢的线性增长,形态相 似距离计算时间近似于欧氏距离。 4结束语 相似性度量方法是时间序列数据挖掘中的一个关键问 题。本文用分别采用形态相似距离、DTW距离和欧式距 离,对线性分段表示后的金融时间序列进行了较细致的相 似性分析。测试数据上的计算结果表明:相比DTW距离 和经典的欧式距离,形态相似距离计算精度较高、稳定性 第37卷第3期 李中,刘洋洋,张铁峰:基于形态相似距离的时间序列相似度计算 .683. 好,并且计算速度快,能够较好地应用于时间序列数据的 相似性评估。 的分割及不一致发现研究[D].武汉:华中科技大学,2012: 1—105.] [7]D1NG Yongwei,YANG Xiaohu,CHEN Gencai,et a1.Radian- 参考文献: [1]ZHU Yangyong,DAI Dongbo,XIONG Yun.A survey of the research on similarity query technique of sequence data[J]. Journal of Computer Research and Development,2010,47 distance based time series similarity measurement[刀.Journal of Electronics&Information Technology,2011,33(1):122—128 (in Chinese).[丁永伟,杨小虎,陈根才,等.基于弧度距离 的时间序列相似度量[J].电子与信息学报,2011,33(1): 122-128.] (2):264-276(in Chinese).[朱扬勇,戴东波,熊赞.序列数 据相似性查询技术研究综述[J].计算机研究与发展,2010, 47(2):264—276.] [z]LI Hailin,GUO Chonghui.Survey of feature representations and similarity measurements in time series data mining[J]. Application Research of oCmputers,2013,30(5):1285~1291 (in Chinese).[李海林,郭崇慧.时间序列数据挖掘中特征表 示与相似性度量研究综述[J].计算机应用研究,2013,30 (5):1285—1291.] [3]zHA0 Jianxiu.Research on time series sequence similarity analysis[D].Jinan:Shandong Normal University,2014:1— 47(in Chinese).[赵建秀.时间序列的相似性分析问题研究 [D].济南:山东师范大学,2014:1-47.] [4]XIAO Rui.LIU Guohua.Research on trend-based time series similarity measure and cluster[J].Application Research of Computers,2014,31(9):2600—2605(in Chinese).[肖瑞, 刘国华.基于趋势的时间序列相似性度量和聚类研究口].计 算机应用研究,2014,31(9):2600—2605.] [5]LI Hailin,GuO Chonghui.Symbolic aggregate approximation based on shape features[J].Pattenr Recognition and Aitifieial Intelligence,20ll,24(5):665—672(in Chinese).[李海林, 郭崇慧.基于形态特征的时间序列符号聚合近似方法口].模 式识别与人工智能,2011,24(5);665—672.] [6]LI Guiling.Research on time series segmentation and discord discovery[D].wuhan:Huazhong University of Science and Technology,2012:1-105(in Chinese).[李桂玲.时间序列 [83 LIU Boning,ZHANG Jianye,ZHANG Peng,et a1.Similari- ty search method in time series based on curvature distance[J]. Journal of Electronics&Information Technology,2012,34 (9):2200—2207(in Chinese).[刘博宁,张建业,张鹏,等. 基于曲率距离的时间序列相似性搜索方法[J].电子与信息学 报,2012,34(9):2200—2207.] [9]Li z,Yuan J.An estimation similarity measure method based on the characteristic of vector difference[J].Information-An International Interdiscip1inary Journal, 2011, 14 (3): 1067—1074. [1O]Li Z,Yuan J,Zhang w.Fuzzy C-mean algorithm with mor— phology similarity distance[c]//Sixth International Conf ̄ rence on Fuzzy Systems and Knowledge Discovery,2009: 9O一94. In]SHANG Fuhua,SUN Dachen.PLR based on time series tendency turning point[J].Application Research of Compu- ters,2010,27(6):2075—2077(in Chinese). [尚福华,孙 达辰.基于时间序列趋势转折点的分段线性表示[J].计算 机应用研究,2010,27(6):2075—2077.] [123 LIU Xiangming,SHI Weiren,FAN Min.Continuous piece— wise polynomial model representation method of time series [J].Chinese Journal of Scientific Instrument,2014,35(5): 1052—1056(in Chinese).[刘祥明,石为人,范敏.一种时间 序列连续分段多项式模式表示方法[J].仪器仪表学报, 2014,35(5):1052—1056. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务