资源描述:
第3 5 卷第4 期 2 0 0 6 年7 月 中国矿业大学学报 J o u r n a lo fC h i n aU n i v e r s i t yo fM i n i n g T e c h n o l o g y 文章编号1 0 0 0 1 9 6 4 2 0 0 6 0 4 0 5 4 0 0 5 V 0 1 .3 5N o .4 J u l .2 0 0 6 基于小波的W e b 流量组合预测方法研究 姚淑萍1 ,胡昌振1 ,郑链2 1 .北京理工大学计算机网络攻防对抗实验室 2 .北京理工大学机电工程学院,北京 ,北京1 0 0 0 8 1 ; 1 0 0 0 8 1 摘要为了提高W e b 流量的预测精度,提出一种基于小波、神经网络和自回归的组合预测方法. 首先将W e b 流量构造为2 个相关序列历史序列和相似值序列;对具有平稳特征的相似值序列 用A R 模型进行预测;对体现了W e b 流量非线性、非平稳特性的历史序列则经过小波分解与单 支重构后,针对各分支特点分别采用神经网络和自回归模型预测;最后组合2 条序列的预测结果 获得最终预测值.理论分析与实验表明组合预测方法可以充分利用与流量相关的多种数据关 系;小波分析可以将历史序列分解为多层频率成分更加单纯、更加易于预测的时间序列.因而所 建方法比传统的预测方法具有更高的预测精度. 关键词W e b 流量;小波分析;组合预测;流量预测 中圈分类号T P3 9 3文献标识码A R e s e a r c ho nC o m b i n a t i o nP r e d i c t i o no f W e bT r a f f i cB a s e do nW a v e l e t s Y A OS h u - p i n 9 1 ,H UC h a n g - z h e n l ,Z H E N GL i a n 2 1 .L a bo fC o m p u t e rN e t w o r kD e f e n s eT e c h n o l o g y , B e i j i n gI n s t i t u t eo fT e c h n o l o g y ,B e i j i n g1 0 0 0 8 1 ,C h i n a ; 2 .S c h o o lo fM e c h a t r o n i eE n g i n e e r i n g ,B e i j i n gI n s t i t u t eo fT e c h n o l o g y ,B e i j i n g1 0 0 0 8 1 ,C h i n a A b s t r a c t F o ri m p r o v i n gt h ep r e d i c t i o na c c u r a c yo fW e bt r a f f i c ,an o v e lc o m b i n a t i o np r e d i c t i o n m e t h o dw a sp r o p o s e db a s e do nt h ei n t e g r a t i o no ft h ew a v e l e t ,n e u r a ln e t w o r ka n dt h ea u t o r e g r e s s i o n A R .T w oc o r r e l a t i v et r a f f i cs e r i e s ,h i s t o r ys e r i e sa n ds i m i l a rv a l u e ss e r i e s ,w e r ed i s t i l l e df r o mt h ew e bt r a f f i cd a t a .T h es t a t i o n a r ys i m i l a rv a l u e ss e r i e sw a sp r e d i c t e db yA Rm o d e 1 .T h en o n l i n e a ra n dn o n s t a t i o n a r yh i s t o r ys e r i e sw e r ed e c o m p o s e da n dt h e nr e c o n s t r u c t e di n t os e v e r a lb r a n c h e sb yw a v e l e t .T h e s eb r a n c h e sw e r ep r e d i c t e db yn e u r a ln e t w o r k so rA Rr o o d e l sr e s p e c t i v e l ya c c o r d i n gt ot h e i rd i f f e r e n tf e a t u r e s .T h ep r e d i c t e dr e s u l t so ft h et w os e r i e s w e r ec o m b i n e di n t ot h ef i n a lp r e d i c t e dv a l u e .T h er e s u l t ss h o wt h a tt h ec o m b i n a t i o np r e d i c t i o n c a nt a k ea d v a n t a g eo fd i v e r s ec o r r e l a t i v ed a t ar e l a t i o n s h i p s .T h ew a v e l e ta n a l y s i sc a nd e c o m p o s eh i s t o r ys e r i e si n t os e v e r a lt i m es e r i a l st h a th a v es i m p l e rf r e q u e n c yc o m p o n e n t sa n da r ee a s i e rt ob ef o r e c a s t e d .S ot h em e t h o dh a sb e t t e rp r e d i c t i v ep r e c i s i o nc o m p a r e dw i t ht r a d i t i o n a l p r e d i c t i o na p p r o a c h e s . K e yw o r d s w e bt r a f f i c ;w a v e l e ta n a l y s i s ;c o m b i n a t i o np r e d i c t i o n ;t r a f f i cp r e d i c t i o n 收藕日期2 0 0 5 一0 5 2 5 基金项目国防科技工业委员会基础研究项目 2 0 0 2 1 8 2 3 作者筒介姚淑萍 1 9 7 0 一 ,女,山东省临沂市人,博士研究生,从事智能信息处理、信息安全方面的研究. E - M I y a o s p i n g 1 6 3 .c o r t lT e l 0 1 0 6 8 9 1 4 9 7 6 万方数据 第4 期姚淑萍等基于小波的W e b 流量组合预测方法研究 5 4 1 w e b 流量是用户访问量的体现,是衡量 w w w 服务器负载的一个重要指标.对W e b 流量 的准确预测是实现高效负载均衡的关键. W e b 流量受到用户日常活动规律的影响,呈 现出复杂的特性[ 1 ≈] 不仅具有日、周、月等周期性, 而且具有非线性、不稳定等特征[ 4 ] .目前国内外文 献所报道的负载预测均是利用预测时刻前N 个观 测点的流量值,基于单一数据序列进行预测[ 3 书] ,方 法简便但精度较低. 本文从非线性、非平稳信息处理角度出发,首 次提出了基于小波、神经网络和自回归模型的 W e b 流量组合预测方法,该方法充分利用了与流 量相关的多种数据关系 通过构造多条序列实现 , 并将小波引入W e b 流量预测,依据小波分解后各 分支信号变化特点的不同,分别建立神经网络和自 回归预测模型,弥补了传统的单一序列预测模型的 不足,为提高预测精度提供了新思路. 1 组合预测模型 组合预测是指依据历史数据从不同角度构造 与预测相关的序列,通过组合各序列的预测值提高 精度[ 7 _ 8 ] .令z i 表示第i 个观测点的w e b 流量,X 表示流量时间序列.则 X 一{ z 1 ,z 2 ,z 3 ,⋯,z 愚 ,⋯ . 根据X 分别构造了与W e b 。流量相关的历史 序列和相似值序列. [ 定义] 设与待预测时刻t 相关的2 条序列 为H £ ,S t ,则 H f 一{ x t i ,N ≥i ≥1 } , 1 S f 一{ x t 一- 『T ,M ≥.f ≥。1 | , 2 式中丁为一个周期的长度;H £ 为t 时刻之前 N 个流量数据按时间顺序的排列,称为历史序列; S £ 为t 时刻之前相邻M 个周期内与t 对应的观 测点流量序列,称为相似值序列. 对2 条序列中元素分别重新编号,则H £ 和 S £ 可分别表示为H £ { h 。 冬。和S £ 一 { s , 拦。. 针对H £ 和S £ ,采用如图1 所示的模型进 行多序列预测. 2 条序列从不同角度刻画流量,体现了流量的 不同特性,因此其预测方法也各不相同.相似值序 列S £ 变化较平稳,线性特性明显,采用自回归线 性预测模型.历史序列H £ 具有较高的复杂性, 体现了W e b 流量的非线性、不平稳特性,需首先对 其进行L 层小波分解和单支重构,获得1 个逼近信 号 低频信号 和L 个细节信号 高频信号 .分解 使信号的平稳性得到改善,重构保证各分支与原始 信号长度一致.逼近信号和各细节信号变换特点各 不相同,逼近信号比较平滑,较好地体现了流量的 周期性,采用低阶A R 模型即可实现预测.各细节 信号的变化较多低层信号有较强的非线性,体现 短时间依赖关系;高层信号有较弱的非线性,体现 长时间依赖关系[ 9 ] .根据细节信号的这种规律,本 文对各细节信号分别建立了参数不同的B P 神经 网络.H £ 序列的预测值是各分支预测值的对应 相加。最后,将H £ 和S £ 2 条序列预测值进行 加权组合即可得出W e b 流量的最终预测结果. 厘 应到d 黼m £销号㈣ 吲1 ‘髑号『陶 图1多相关序列组合预测模型 F i g .1 M u l t i - s e r i e sc o m b i n a t i o np r e d i c t i o nm o d e l 2W e b 流量预测算法 2 .1近似值序列S t 的预测算法 基于s £ 一{ s 0 搀。,预测第M 1 个值,表示 为8 脚,.近似值序列具有较好的线性特征,可以 用传统的时间序列A R 模型预测,算法为 1 原始序列的零均值化. 随机数据运用A R 模型进行分析必须满足平 稳时间序列假设,可将原始序列进行零均值化处 理,设卢为S t 的平均值,零均值化{ s j 得到数列 { Y 。 Y 。 一/1 . 3 则{ 弘 为近似乎稳时间序列. 2 确定模型阶数P . A R 模型的数学表达式为[ 1 0 ] Z 一鼽Z 0 1 仇Z ,2 ⋯ %Z 叫, a 。, 4 式中P 为A R 模型的阶数;仇为模型的系数,也 为待估参数;口。为白噪声. 采用从低阶到高阶逐个拟合的方式确定模型 的阶,即从P 一1 开始逐个寻找能够使序列预测曲 线与实际曲线拟合较好的阶数.具体为, 利用Y u l e - W a l k e r 方程组 口一e - ;1 p , 5 式中;o 为系数向量;p 为自相关向量;只为自相 关矩阵. 万方数据 5 4 2中国矿业大学学报第3 5 卷 降t o f 仇 f ; L 吼 p 一 对仇进行估值,然后求出序列{ Y 。 的近似预 测曲线,并从中选择一个拟合较好的模型. 3 对于选定的阶数P ,用最小二乘法求解仇 i 1 ,2 ,3 ,⋯,P . 4 利用确定的模型求出预测值多脚。,则 h s 脚l2Y 脚l 十卢 2 .2 历史序列H { t 的预测算法 基于H £ { h 。 冬。,预测第N 1 个值,表示 为是Ⅳ 。. 2 .2 .1 历史序列的小波分解与重构 设分解层数为L ,则依据小波分析理论Ⅲ3 可 8 0 0 ∞6 0 0 诗4 0 0 蓬2 0 0 O1 0 02 0 0 3 0 0 4 0 0 5 0 06 0 0 t /m i n 璺8 0 0 喇6 0 0 耀 饭4 0 0 专2 0 0 U 01 0 0 2 0 0 3 0 04 0 0 5 0 0 6 0 0 t /m i n 以得到 H G 1 G z ⋯ G L H L , 6 式中G 1 { g 。,』 整I ;G 2 { 9 2 ,』 拦。;G L { g L ., 拦- 分 别为第1 层、第2 层、第L 层细节信号的重构结果, H 。{ h 咎。为第L 层逼近信号的重构结果,则 h t 9 1 , g z ,I ⋯ g L .{ h L . . 7 因此,预测嚣肿。问题转化为对各分支求取预 测值台,.Ⅳ 。,台,Ⅳ ,,⋯,色,Ⅳ ,和是。,Ⅳ ,,即 A Ⅳ l g “l ,Ⅳ 1 g “z .N 十l ⋯ g “L .Ⅳ 1 启L ,Ⅳ 1 . 8 一 ,i Ⅳ l 一,Ⅳ 1 十.N 十l 十⋯十L .Ⅳ 1 十| 『i L ,Ⅳ 1 . 2 .2 .2 逼近信号的预测模型建立 由图2 可以看出,逼近信号保持了与原始流量 完全相同的变化趋势而且数值很接近,体现了它对 原始序列的长期的、根本性影响[ 9 ] .逼近信号已经 很光滑,可采用A R 模型进行建模和预测,预测结 果为嚣。,Ⅳ 。.具体方法同2 .1 . 受2 0 0 袭 。 似 求.2 0 0 U 1 0 0 O ol o o2 0 03 0 04 0 05 0 06 0 0 t /m i n 图2序列H £ 的3 层D B 4 分解 F i g .2 W a v e l e tt r a n s f o r mo fH ≠ D B 4 ,3l a y e r s 2 .2 .3 细节信号的预测模型建立 由图2 可以看出,随着分解层数的增大,细节 信号越来越平滑.对L 个细节信号分别建立B P 神 经网络预测模型,每个模型均为输入层、隐层和输 出层3 层.只做单步预测,各B P 模型的输出层单 元只有一个,输人层单元数随分解层数的增大递 减. 用上述所建模型对L 个细节信号的第N 1 点进行预测,共得到L 个预测值盆。,N t ,色,悱1 ,.一, g L ._ N 1 2 .3 预测值组合算法 预测值的组合同样可以通过一个3 层B P 神 经网络实现,该网络有2 个输入单元,一个输出单 元,隐层数为6 ,隐层和输出层变换函数分别采用 s i g m o i d 函数和纯线性函数,其连接权值通过训练 确定,最终预测值芏 £ 通过J ;Ⅳ 。和3 脚。映射得到. 3 预测实例 对某单位W e b 服务器的流量进行收集,信号 周期为6 0S ,每天有14 4 0 个数据,共收集6 1d 8 78 4 0 个流量数据,表示为X { z i ,1 ≤i ≤ 8 78 4 0 . 利用收集到的前6 0d 数据对第6 1 天的流量 进行预测.预测采用单步滚动方式. 按照[ 定义] ,2 个相关序列H £ 和S £ 基于 原始时间序列X 一{ z i ,1 ≤i ≤8 78 4 0 构造. 其中,H £ 为时刻t 前的5 4 0 个历史数据,S £ 为 最近6 0 天t 时刻的流量记录,即式 1 中N 5 4 0 ,式 2 中T 一14 4 0 ,M 6 0 . 对H £ 采用D B 4 进行3 层分解并单支重构. 例如,图2 所示为某天1 2 0 0a m 时H £ 的分解 与单支重构结果. p 卜;● p 夕 ● ● ● ● A ,;缸●众;k 一 ㈠ p P 要\喇琚似求≈u∞芒稠垢似求Ipu 万方数据 第4 期 姚淑萍等基于小波的W e b 流量组合预测方法研究 其中,c a 3 表示最大逼近信号,c d l ,c d 2 ,c d 3 分 别为各细节信号,原始数据波形是消噪后的结果. 3 个B P 模型的参数选择如表1 . 表1各小波分解的l i p 网络参数 T a b l e .1l i pp a r a m e t e r so fw a v e l e td e c o m p o s i t i o n s 图3 为依据本文算法对第6 1 天8 o o ~9 0 0 的流量预测结果与实际值的比较,预测误差如图 4 . ∞ _ \ 一 甥 t /r a i n 图3预测值与实际负载数据 F i g .3 P r e d i c t e dv a l u e sa n dt r u el o a dd a t a l O 5 ∞ _ 糊0 然 .5 .1 0 oI U2 0 3 0 t /m i n 图4预测误差 F i g .4 P r e d i c t e de r r o r s 基于均方误差定量评估预测效果‘9 。.令盯表示 均方误差,计算公式为 N“ 盯一∑ z 。一X “t 2 /N , 9 t 一1 式中五为流量真实值;茔;为预测值. 在8 64 0 0 个历史数据上分别用本文方法、单 一序列的小波一A R 模型、A R 模型3 种方法进行单 步预测,均方误差见表2 . 表23 种预测方法的均方误差 T a b l e .2M e a ns q u a r ee g T o l 鼍o ft h r e ep r e d i c t i o nm e t h o d s 显然,用多序列组合方法预测W e b 流量能够 获得较高的预测精度. 4 结论 本文探讨了w e b 流量的多序列组合预测方 法,建立了基于小波、神经网络和自回归的组合预 测模型,综合理论分析和实验结果可以得出以下结 论 1 小波分解与单支重构可以将非平稳的w e b 流量时间序列分解为多层频率成分更加单纯、相关 性更强的时间序列,并且针对各层的特点,可以用 神经网络或A R 模型对分解后的各层时间序列进 行最佳预测. 2 利用与W e b 流量相关的多种数据关系构 造多个相关序列进行W e b 流量的组合预测能够有 效提高预测准确性. 3 基于小波的W e b 流量组合预测模型与传 统的单序列小波一A R 模型、A R 模型相比较,预测 精度较高. 参考文献 [ 1 3 H E L L E R S T E I NJL ,F A NZ ,S H A H A B U D D I NP . C h a r a c t e r i n z i n gn o r m a lo p e r a t i o no faW e bs e r v e r a p p l i c a t i o nt ow o r k l o a df o r e c a s t i n ga n dp r o b l e md e t e c t i o n [ C ] //P r o c e e d i n g so f2 4 t hI n t e r n a t i o n a lC o r n p u t e rM e a s u r e m e n tG r o u pC o n f e r e n c e .A n a h e i m C M GP r e s s ,1 9 9 8 1 5 0 一1 6 0 . E 2 3 H E L L E R S T E I NJL ,F a nZ ,S H A H A B U D D I NP .A s t a t i s t i c a la p p r o a c ht Op r e d i c t i v ed e t e c t i o n [ J ] .C o r n p u t e rN e t w o r k ,2 0 0 1 ,3 5 1 7 7 - 9 5 . [ 3 ] D I N D AP .O n l i n ep r e d i c t i o no ft h er u n n i n gt i m eo f t a s k s [ C ] //P r o c e e d i n g so f1 0 t hI E E EI n t e r n a t i o n a l S y m p o s i u mo nH i g hP e r f o r m a n c eD i s t r i b u t e dC o r n p u t i n g .S a nF r a n c i s c o I E E EP r e s s ,2 0 0 1 3 8 3 3 9 4 . [ 4 ] S A D E KN ,k H O T A N Z A DA .M u l t i s c a l eh i g h - s p e e dn e t w o r kt r a f f i cp r e d i c t i o nu s i n gk - f a c t o rG e g e n b a u e rA R M Am o d e l [ E l //P r o c e e d i n g so f2 0 0 4 I E E EI n t e r n a t i o n a lC o n f e r e n c eo nC o m m u n i c a t i o n s . P a r i s I E E EP r e s s ,2 0 0 4 2 1 4 8 2 1 5 2 . I s ] S K I C E W I C AJ ,D I N D AP ,S C H O P FJ .M u l t i - r e s o l u - t i o nr e s o u r c eb e h a v i o rq u e r i e su s i n gw a v e l e t s [ c ] // P r o c e e d i n g so f1 0 t hI E E EI n t e r n a t i o n a lS y m p o s i u m o nH i g hP e r f o r m a n c eD i s t r i b u t e dC o m p u t i n g .S a n F r a n c i s c o I E E EP r e s s ,2 0 0 1 3 9 5 4 0 5 [ 6 ]Q I A OY ,S K I C E W I C ZJ ,D I N D AP .A ne m p i r i c a l s t u d yo ft h em u h i s c a l ep r e d i c t a b i l i t yo fn e t w o r kt r a f f i c [ C ] //P r o c e e d i n g so f1 3 t hI E E EI n t e r n a t i o n a l S y m p o s i u mo nH i g hP e r f o r m a n c eD i s t r i b u t e dC o m 万方数据 5 4 4中国矿业大学学报第3 5 卷 [ 7 ] [ 8 ] p u t i n g .H o n o l u l u I E E EP r e s s ,2 0 0 4 ,2 0 0 4 6 6 7 6 . S USF ,L ISH .N e u r a ln e t w o r kb a s e df u s i o no f g l o b a la n dl o c a li n f o r m a t i o ni np r e d i c t i n gt i m es e r i e s [ c ] //P r o c e e d i n g so f2 0 0 3I E E EI n t e r n a t i o n a lC o n f e r e n c eo nS y s t e m s ,M a n C y b e r n e t i c s .W a s h i n g t o n I E E EP r e s s ,2 0 0 3 4 4 4 5 4 4 5 0 . 李存军,杨儒贵,邓红霞.基于小波和K a l m a n 滤波的 交叉口流量组合预测[ J ] .西南交通大学学报,2 0 0 4 , 3 9 5 5 7 7 - 5 8 0 . L IC u n - j o n ,Y A N GR u - g u i ,D E N GH o n g - x i a , .C o m b i n a t i o np r e d i c t i o no ft r a f f i c v o l u m ei ni n t e r s e c t i o ns b a s e do nw a v e l e ta n a l y s i sa n dk a l m a nf i l t e r [ J ] .J o u r n a lo fS o u t h w e s tJ i a o t o n gU n i v e r s i t y ,2 0 0 4 ,3 9 5 5 7 7 5 8 0 [ 9 ] 冉启文,单永正,王骐,等.电力系统短期负荷预测 的小波一神经网络- - P A R I M A 方法[ J ] .中国电机工程 学报,2 0 0 3 ,2 3 3 3 8 4 2 . R A NQ i - 一w e n ,S H A NY o n g - z h e n g ,W A N GQ i ,e t a 1 .W a v e l e t - n e u r a ln e t w o r k s - P A R I M Am e t h o df o r p o w e rs y s t e ms h o r tt e r ml o a df o r e c a s t i n g [ J ] .P r o c e e d i n g so ft h eC S E E ,2 0 0 3 ,2 3 3 3 8 - 4 2 . [ 1 0 ] 张树京,齐立心.时间序列分析简明教程[ M ] .北京 北方交通大学出版社,2 0 0 3 2 9 - 3 5 . [ 11 ]M A L L A TsG .AT h e o r yf o rm u l t i r e s o l ut i o ns i g n a l d e c o m p o s i t i o n T h ew a v e l e tr e p r e s e n t a t i o n [ J ] . I E E ET r a n ..o nP a t t e r nA n a l y s i sa n dM a c h i n eI n t e l l i g e n c e ,1 9 8 9 ,1 1 7 6 7 4 6 9 3 . 责任编辑姚志昌 上接第5 2 5 页 [ 8 ] S C H N E I D E RB .G e o m o r p h o l o g i c a l l ys o u n dr e c o n - 一 s t r u c t i o no fd i g i t a lt e r r a i ns u r f a c e sf r o mc o n t o u r s [ E B /O L ] .[ 2 0 0 4 0 5 1 8 .] .h t t p //w w w .g e o . u n i z h ..e h /~b e n n i , . [ 9 ] T A U DH ,P A R R O TJF ,A I ,V A E R E ZR .D E M g e n e r a t i o nb yc o n t o u rl i n ed i l a t i o n [ J ] .C o m p u t e r s G , e o s c i e n c e s 。1 9 9 9 ,2 5 7 7 7 5 - 7 8 3 . [ 1 0 ] M I C H A E LBG ,R A N D O L P HFW .C o n s t r u c t i n g ad e a lf r o mg r i d - - b a s e dd a t ab yc o m p u t i n gi n t e r m e d i - 一 a t ec o n t o u r s [ C ] //G e o g r a p h i cI n f o r m a t i o nS y s t e m s [ 1 1 ] [ 1 2 ] P r o c e e d i n g so ft h e1lt hA C MI n t e r n a t i o n a lS y m p o - - s i u mo nA d v a n c e si nG e o g r a p h i cI n f o x m a t i o ns y s - - t e r n s , .N e w0 0 r l e a n s L o u i s i a n a ,2 0 0 3 7 1 - 7 7 . V A ND E RK ,W I MGM .T h ev e c t o J t or a s t j rc O n v e r s i o n M i s u s ei ng e o g r a p h i c a li n f o r m a t i o ns y s t e n ∽U ] .G e o g r a p h i c a lI n f o m a t i o nS y s t e m s 。1 9 9 2 , 6 2 1 5 9 - 1 7 0 . 艾海舟.数字图像处理 多媒体课件 第二版[ E B / O L ] .[ 2 0 0 3 0 9 1 0 ] .h t t p //m e d i a .C S .t s i n g h u a .. e d u .c n /~a h z /d i g i t a l i m a g e p r o e e s s .. 责任编辑邓群 万方数据
展开阅读全文