您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页基于聚类的区间数时间序列的索引方法

基于聚类的区间数时间序列的索引方法

来源:化拓教育网
维普资讯 http://www.cqvip.com

第32卷 第22期 Vo1.32 ・计算机工程 2006年l1月 November 2006 No.22 Computer Engineering 博士论文- 文章编号:1ool卜_3428(2006)22_一lo04_一l3 文献标识码l A 中田分类号:TP391 基于聚类的区间数时间序列的索引方法 |奠『小清 ,沈钧毂‘ (1.西安交通大学软件所,西安710049;2.河北经贸大学计算机-{I心,石家庄050061) 摘要:在时间序列数据库中,大多数现有的相似性搜索方法都集中在如何提高算法的效率,而对于由不精确数据纰成的时间序列如何进 行相似性搜索,则研究比较少,不精确数据经常用区间数据来表示;通过识别Ⅸ问数时间序列中的取要区问数,使得 间数时间序列的维 数大幅度降低,该文针对由区问数组成的时问序列,提出了一种基于低分率聚粪的索引方法。实验表明,该,『法加快了Ⅸ问数时间序列的 查找过程, 会出现漏报现象 关量词:区间数时间序列;相似性搜索;聚类;索引 Time Series of Intervals Index Based on Clustering WENG Xiaoqing ._.SHEN Junyi (1 Institute ofComputer Software,Xi’an JiaotongUniversity,Xi’an 710049; 2.Computer Center,Hebei University of Economics and Trade,Shijiazhuang 05006 I) [Abstractl Most existing approaches of similarity search in time series databases focus on the eficifency of algorithms but seldom provide a means to handle imprecise data.The imprecise data are normally presented in the interva1.By identifying the important interval values from the time series of intervals the dimensionality of the time series of intervals Call be greatly reduced.This paper proposes an indexing approach of time series of intervals,based on clustering the time series of intervals in low resolution.As demonstrated by the experiments,the proposed approach speeds up山e time series of intervals query process while it also guarantees no false dismissals. [Key wordsI Time series of intervals;Similarity search;Clustering;Index 时间序列数据库是数据序列的集合,序列中的元素按照 时间先后的顺序排列;对给定的需要查询的时间序列,在时 间序列数据库中查找与之变化模式相似的时间序列的过程, 称为相似性搜索(Similarity search)。大多数现有的相似性搜索 方法都集中在如何提高算法的效率,但是对于由不精确 (imprecise data)、不确定(uncertainty data)数据组成的时间序 一倒1茼兰阿姆斯特丹某年前6个月份气温变化情况组成 个区间数时间序列 J: x=(【一4,4J,【-5,31.f2,121,【5,15 J,【7,171,【10,201) 倒2 IBM公司某周5个交易日股票价格波动情况组成一 个区间数序列[51: [92,93.091,[92.14,93.191,I92 47,93.381、L92.03,93.21¨91,92.35 J,) 列,如何建立索引,如何进行相似性搜索,则研究比较少。 然而在现实世界中,不精确、不确定、不完善的数据到处存 定义2设x和Y足两个长度都为I1的区间数时间序列, x与Y之间的距离d(X,Y)为 ’ d(X,Y)=max(I 一 在,如我们无法用精确的数据来描述某天的气温情况,只能 用 问数据来描述某天气温的变化范围在f6”C,l5”c1之间,又 如我们无法用精确的数据来描述IBM公司某天的股票价格, 只能用区间数据来描述该公司某天的股价在[155,225]之间波 动。文献【1 J给出了两个区间数时问序列之间的相似度定义, 然而由于计算较繁杂,该文没有给出区间数时间序列的索引 方法。 ,I,I 一Y l,1 j n) Rangarajan等 ’证明了d(X,Y)满足作为距离度量的3个 公理(tlz负、对称和三角不等式)。 倒3阿姆斯特丹以及苏黎世某年 季度气温变化情况 分别为 x=(【一4,4],f・5,31,12,121),Y=(I一1 1,9J,【一8,151'【・7,181) 按定义容易计算出这两个区间数序列之间的距离为 d(X.Y1=12 本文针对区间数时间序列数据库,提出了一种基于低分 辨砗c聚类的索引方法,对“最优”聚类个数K的值进行了估 计,用多元方差分析对聚类的效果进行了检验。 2重要区间数的识别 2.1识别时间序列中的重要点 这里所说的重要点是时问序列的一些极值点;从时间序 列中提取重要点的方法如下” : 图l给出了从时间序列T:(0.1,0.4,0.3,0.7。0.9。0.6,0.7,0.4, 0.3,0.5)识别出前5个审要点的操作过程。 基金疆日:国家自然科学基金资助项目(60173058) 作者倚介:翁小清(1965一),男,博士生、副教授,:t- ̄Jf方向:数据 挖掘;沈钧毅,教授、博导 1相关定义 定义1区间数时间序列…: 区间数时间序列x为有限个区间数所组成的序列, (XI,X2,.-,Xn),其中xi=『 ,, 是一个区间数。 令 。。( ,x_2一・, )是区间数时间序X的下限序列, X=(x L,X 2,..., )是p(问数序列 的上限序列,则区间数时 间序列x也可以表示为(x. ,区间数时间序列在F文中简 称为区间数序列。 —— —— 收稿日期:2005-12-08 E-mail:xqweng@stu x itu.edu.cn 维普资讯 http://www.cqvip.com

一一 、= 图1从时间序列中识删前5个童要点的过程 Hlf问序列T的笫1个数{JL{0.1和最后 个数据0.5分别 足T的笫1个和第2个匝婴点,T的第3个 要点足到第1 个重要点与第2个重要点之间连线距离(纵向距离)最远的点, 通过计算是时问序列T中的第5个数据0.9,第4个重要点 是到两个相邻敲要点迮线距离最远的点,第4个莆要点可能 在第1个重要点 第2个重要点之问,也可能在第2个雨要 点与第3个最要点之问,通过计算第4个重要点是T的第9 个值【】.3,T的其它莆要点可以类似求出 2.2从区闻数序列中识别重要区闻数 对I)(0U数时间序列的卜限序列与下限序列求’}i均值,计 算Ⅱj该 问数时间序列的中值序列,采用2.1节所述方法从 中值序列III识别其重要点,在区间数时问序列l}l相应位置的 Ⅸ问数,就为市 问数。 倒4 IBM公司10个交易日股票价格的波动情况组成『, 一个I)(问数序列 X=l92.93 09l,I92.I4,93 I91,f92 47 93+38/.192 03.93 2I l,I9I,92 35] 19i 2i.92 i4l,f89.01,9i 511,f89.75 90.461,I93 55.IJ5 65l,l94 7t,95 35I) 对每个Ixl问数的上I 和下限取、 均值就得到r的rII值 序列 , (92 54,92.66,92 92,92 62,91+67,9I.67,90 26 90 10, 94 60.95.03) 采片】2.I 方法从时问序列 … 识别出它的前5个 雨要点, X 中的位 按照重嘤性排列依次为1,10,8, 9,4 I‘ 数序列x・}J牛H 位置 的Ⅸ问数即为 的重要 区 数 将这5个市嘤区问数按照它们在x中时 的先后次 序(即1,4,8,9,l())排列,组成一个长度为5的正要区间数 序列 (f92,93.09I, [92 03 93.2 Il, IS9 75,90.461, [93 55,95.651, [94 7I.95 35】) 该垣要I)(=M数序列既保留r原区问数序列x的丰要特 征,又时其进行丫 缩,数掂压缩比为10/5=2。 3区间数序列索引的建立与查询 3.1区间数序列的堆数约减 对于长度为IT1的区间数序列P,采剧2.2 1 所述方法, 抽墩m前n个鱼要J)(M数fn<<m),再将这n个雨璎区间数 按照它们在P—II时间的先后次序}If列,组成‘个长度为n的 莆 区间数序列,山r 11远远小 r m, 此山这11个币i要区 间数组成的序列,既保留了原 问数序列P的l:耍特征,又 对j上进行r大幅度的雎缩,压缩比例为m/n 3.2索引的建立 对数撕库IIl每一个 间数序列,都抽取出它的前n个甫 Ⅸ问数,将这前11个币 0Ⅱ数再按照其在原区间数序列 中的时间的先后次序组成甫要 问数序列,将这些莆要 问 数序列分成若} 个类(组),每一个类巾的Ⅸ问数序列部具有 相似的上要特征,JlJ这些类(组)作为区间数序列数据库的索 引。采用最常}=}I的K-均值聚类方法,对莆要区间数序列进行 聚类,将它们分为K类。 3.3索引的更新 对3.2节建立的索引很容易进行更新,当数据库中新增 加一个区间数序列时,首先从这个区间数序列tIl抽取前n个 重要区间数,这n个莆要区间数(按照其在原区间数序列中时 问的先后次序)组成一个长度为n的重要区间数序列,计算该 甫要区间数序列剑K个类巾心的距离,将其分配到与之距离 最短的那个类中心所在的类。 3.4索引查询 用户输入需要查询的p(问数序列Q,算法从Q中抽取前 n个l窜要区问数并组成蕾爱区间数序列,然后计算该莆要区 问数序列到K个类中心的距离,选取与之距离最矩的类;然 后,计算这个类中每一个隧问数序列与Q的前n个重要区间 数序列的距离,与之距离最短的那个区间数序列,即为查询 结果,查询结果具有与Q相似的主要特征。 3.5。最优”聚类十数K的估计 估计“最优”聚类个数K值的方法 卜:让K的取值 从1增加到N(N为数据库中含有区间数序列的个数),莆复 执行K.均值聚类,观察J(K)的变化情况来估计“最优”的聚 类个数K。J(KJ定义为 川r)-一∑∑c,q, (J) i=1 ∈Mi 其中:Mf表示笫i类,C 表示M 类的类中心,i 1 2… K, x为 问数序列,用d .X表示区间数序列x与第z类的类中 心( 的距离 一般情况F,J(K)的取值随着聚类个数K值的增加面减 小,dJ(K)描述的是J(KJ变化的情况。 d,/(K):‘ 100% (21 J( ) ( J=Sign[dJ(K+1 J—dJ( J J (3) K=I.2.….N 第1个使符譬函数 ( )由负变为正的K值即为“最优” K值,如果 ( )的符号 直4 变化,选取使得dJ(K)1#常接 近0的K值。 4实验 选取标准普尔500指数 中266家公司每天股票交易的 最高和最低价格组成的区间数序列作为测试数据集,区间数 序列长度在37~253之问 从这266家公司中随机抽取10家 公司的1)(问数序列作为查询序列,以下 示的实验结果均为 这10个1)(M数序列实验结果的平均值。用Matlab6.1编写了 所有的程序,并在清华同方笔记本(CPU 1.5GHz,内存 I I2MB,硬盘40GB,Windows XP操作系统)上实现。 4.1建立索引所花费的CPU时间 我们让酋要 间数的个数从5~30之间变化,聚类的个数 从2一10之间变化,测试了K一均值聚类的叠代次数以及所花 费的CPU时间,叠代次数都没有超过50次,说明在建立索 引时,每‘个重要区间数序列都被分配到了‘个确定的类中, 从而保证了在索引查询过程中,不会产生漏报(false dismissals)现象。 于篇幅,以F只给出承要[x=问数的个数n为l0 或5的实验结果。图2给出了重要点个数固定为l0的情况, 当聚类的个数增加时,建立索引所花费的CPU时问也逐渐 增加。 一一 —— 维普资讯 http://www.cqvip.com

从图5中可以看到J(K)随着聚类个数的增加而逐渐减小;当 聚类的个数K大于5以后,dJ(K)l ̄J取值趋于稳定;通过计算 得知第1个使符号函数 ( )由负变为正的K值是7,所以当 取5个重要区间数,进行K-均值聚类建立索引时,“最优” 的聚类个数是7个,这7个类,类与类之间的差别是否显著, 如何去检验?通常采用类的内聚性、类与类之问的相异性 1 图2聚类个数与建立索引花费的CPU时间 来评价聚类的效果或聚类的质量,本文采用多元方差分析 l 来评价聚类的效果。多元方差分析计算的统计量为 A: 旦L  IE+Bl 4.2索引查询剪切率(pruning power)测试 剪切率【]J的计算公式如下: ,, 索引查询中需检查的区间数序列的个数 数据库中存放的区间数序列的总个数 从图3可以看到,随着聚类个数的增加,剪切率快速下 降,从而索引查询时间也快速下降,说明剪切率受聚类个数 其中B是组问离差矩阵,E是组内离差矩阵,统计量八服从 Wilks分布,记作 的影响很大。 30.00 剪 切20-00 率 10 o0 (%) 0.o0 2 3 4 5 6 7 8 9 1o 聚类的个数 图3聚类个数与剪切率 4.3索引查询与顺序查询之间的比较 重要区间数的个数n固定为l0,聚类个数为5,从图4 中可以看出,本文提出的索引查询方法远远好于顺序查询, 当数据库中区间数序列个数增加时,索引查询的时间也能保 持稳定。 询 时 问 (s) 50 l00 l O 2【)【) 250 数据库中含有区间数序列的个数 图4索引查询与顺序查询的比较 从以上实验可以看出。对于区间数序列数据库。虽然建 立索引要花费一些时间。但只需建一次索引即可,而索引查 询能够大幅度减少查询时间,索引更新也比较容易,在索引 查询过程中也不会出现漏报现象。 4.4“最优”聚类个数K的选择 250 200 J(Kj l5O l00 2 3 4 5 6 7 8 9 l0 聚类的个数 (a) 0 25 0-2 K)。 0 05 3 4 5 6 7 8 9 l0 聚粪的个数K (b) 图5 J(K)与dJ(K)随聚类个数的变化情况 取重要区间数个数为5,聚类的个数K从2变化到l0。 A~AlsA 』一I 其中P是变量的个数,N是总样本含量,k是类(组)的个数。 对于取重要区间数为5个,将266个重要区间数序列分为7 个类,建立索引,即p=5,N=266,k=7,所以统计量人~ A5,259,6,对重要区问数序列的上限(下限亦可)进行多元方差 分析: ,^: 、=一lE十Bl =—4——————罢_— l0 l_0lll9q ,l618×10 …‘‘ 界值A0 OI(5,259,6)≈0,808 906,人统计量值为0.019小于界 值0.808 906,所以显著性水平(概率P值)小于0.0l,说明这 7个类,类与类之间差异显著。 5结论 针对区间数序列数据库。提出了一种基于低分辨率聚类 的索引方法,对“最优”聚类个数K的值进行了估计。用多 元方差分析对聚类的效果进行了检验。实验表明,本文提出 的方法是有效的,当选取的重要区间数的个数比较少时,K- 均值聚类经过有限的叠代次数就能收敛,从而在索引查询时 不会产生漏报现象。本文的方法对于金融证券领域的区间数 序列数据库比较有效,对于不同长度的区间数序列也能进行 比较。 如何用离散傅里叶变换(DFT)、离散小波变换(DWT)、 分段多项式(PPR)等表示区间数序列,并建立索引,值得今后 作进一步的研究。 参考文献 I Liao S S,Tang T H,Liu W Y Finding Relevant Sequences in Time Series Containing Crisp,Interval,and F uzzy Interval Data[J]IEEE Transactions on Systems.Man.and Cybernetics一一Part B: Cybernetics,2004,34(5):207I-2079, 2 Rangarajan L.Nagabhushan P.Dimensionality Reduction of Multidimensional Temporal Data Through Regression[J】Pattern Recognition Letters,2004,25(8):899-9 1 0 3 Fu T C,Chung F L,Luk R,et al Financial Time Series Indexing Based on Low Resolution Cluste ̄g[C].Proceedings of Temporal Data Mining:Algorithms,Theory and Applications Held in Conjunction with ICDM’04,2004:1.1 0 4 Singhal A.Seborg D E Clustering of Multivariate Time-series Data[C]Proceedings of the American Control Conference, Anchorage,AK,USA,2002:393 I-3936 5张尧庭。方开泰多元统计分析引论【M】.北京:科学出版社, 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务