基于支持向量机的连续状态空间Q学习.pdf-_矿业文库_煤矿文库_有色文库_金属矿山文库_矿山安全_煤矿安全_采矿技术措施

资源描述：

第3 7 卷第1 期中国矿业大学学报 V 0 1 ．3 7N o ．1 2 0 0 8 年1 月J o u r n a lo fC h i n aU n i v e r s i t yo fM i n i n g ＆．T e c h n o l o g yJ a n ．2 0 0 8 基于支持向量机的连续状态空间Q 学习王雪松，田西兰，程玉虎中国矿业大学信息与电气工程学院，江苏徐州 2 2 1 1 1 6 摘要针对连续状态空间下的强化学习控制问题，提出一种基于支持向量机的Q 学习方法．支持向量机不易陷入局部极小，且有优良的泛化性能，对系统状态一动作对的Q 值进行估计计算，解决状态空间泛化中易出现的“维数灾”问题．引入滚动时间窗机制实现支持向量机的在线学习系统实时检测得到的新数据若不包含新信息，则保持学习的样本集不变；若包含新信息，则滚动时间窗，更新样本集，从而更新支持向量机的回归模型，并对时间窗内的数据分配不同的权值以充分利用数据的信息．倒立摆平衡控制的仿真结果表明该方法能够有效解决具有连续状态的非线性系统的强化学习控制．关键词连续状态空间；支持向量机；Q 学习；滚动时间窗；在线学习中图分类号T P1 8文献标识码A文章编号1 0 0 0 1 9 6 4 2 0 0 8 0 1 0 0 9 3 0 6 Q L e a r n i n gf o rC o n t i n u o u sS t a t eS p a c eB a s e d o naS u p p o r tV e c t o rM a c h i n e W A N GX u e s o n g ，T I A NX i l a n ，C H E N GY u h u S c h o o lo fI n f o r m a t i o na n dE l e c t r i c a lE n g i n e e r i n g ，C h i n aU n i v e r s i t yo fM i n i n g8 LT e c h n o l o g y ， X u z h o u ，J i a n g s u2 2 1 1 1 6 ，C h i n a A b s t r a c t A i m i n ga tt h er e i n f o r c e m e n tl e a r n i n gc o n t r o l l e rd e s i g nu n d e rc o n t i n u o u ss t a t es p a c e ， an e wQ _ l e a r n i n gm e t h o db a s e do nas u p p o r tv e c t o rm a c h i n e S V M w a sp r o p o s e d ．AS V Mi s u s e dt oe s t i m a t et h eQ v a l u eo fs t a t e a c t i o np a i ro n l i n eb e c a u s eaS V Mc a nn o tf a l li n t ol o c a l m i n i m u ma n di so fp e r f e c tg e n e r a l i z a t i o np r o p e r t y ，b yw h i c ht h e ‘c u r s eo fd i m e n s i o n 7 e a s i l y c a u s e db ys t a t es p a c eg e n e r a l i z a t i o nw a ss o l v e d ．As l i d i n gt i m e w i n d o ww a si n t r o d u c e dt or e a l i z et h eo n l i n el e a r n i n go fS V M ．I ft h ed e t e c t e dd a t ac o n t a i n sn on e wi n f o r m a t i o n ，t h es a m p l i n g s e to fS V Mk e e p su n c h a n g e d ．O nt h eo t h e rh a n d ，i ft h ed a t ac o n t a i n sn e wi n f o r m a t i o n ，t h e t i m e w i n d o ws h o u l db es l i dt ou p d a t et h es a m p l i n gs e ta n dS O a st ou p d a t et h er e g r e s s i o nm o d e l o fS V M ．D i f f e r e n tw e i g h t sw e r ea s s i g n e dt ot h ed a t ai nt h et i m e w i n d o wi no r d e rt o _ f u l l ye x p l o i tt h ed a t ai n f o r m a t i o n ．C o m p u t e rs i m u l a t i o nr e s u l t s o nc a r t p o l eb a l a n c i n gc o n t r o ls h o w t h a tt h ep r o p o s e dQ - l e a r n i n gm e t h o di ss u i t a b l ef o rr e i n f o r c e m e n tl e a r n i n gc o n t r o lf o rn o n l i n e a r s y s t e mw i t hc o n t i n u o u ss t a t e ． K e y w o r d s c o n t i n u o u ss t a t es p a c e ；s u p p o r tv e c t o rm a c h i n e ；Q l e a r n i n g ；s l i d i n gt i m e w i n d o w ； o n l i n el e a r n i n g 强化学习基于动物学习心理学的有关原理，采用人类和动物学习中的“试错法”机制，强调在与环境的交互中学习，可以不需要系统模型而实现无导师的在线学习，在人工智能问题求解、智能机器人、收稿日期2 0 0 7 一0 5 3 0 基金项目国家博士后科学基金项目 2 0 0 7 0 4 1 1 0 6 4 ；江苏省博士后科学基金项目 0 6 0 1 0 3 3 B ；江苏省高校“青蓝工程” 苏教师[ 2 0 0 7 1 2 号作者简介王雪松 1 9 7 4 ，女，安徽省泗县人，副教授，博士，从事智能控制、机器学习和智能机器人方面的研究． E - m a i l w a n g x u e s o n g c u m t 1 6 3 ．c o m T e l 0 5 1 6 - 8 3 8 8 5 8 7 5 万方数据中国矿业大学学报第3 7 卷自动控制系统、优化调度等领域都获得了若干成功的应用。1 j ． Q 学习方法是强化学习的一种重要算法，通常以马尔可夫决策过程为基础模型研究非线性系统的控制问题．其思想是不去估计环境模型，而是通过直接优化一个可迭代计算的Q 值函数来寻求最优控制策略心] ．在国内外大量的Q 学习研究中，大都把系统的状态看作有限的集合，采用查找表的形式存储和迭代计算Q 值函数．但是在实际问题中，大多数系统的状态都是大规模或连续的，表格无法表示这些状态，存在状态变量的空间复杂性问题，即所谓的“维数灾”问题[ 3 ] ．针对这一问题，常采用神经网络值函数逼近器来逼近Q 值_ _ 5 ] ．但是，由于神经网络具有本质上的非凸性，系统具有不止一个较稳定的平衡状态，因此容易陷入局部极小．同时，从概率统计的角度来说，神经网络仅仅试图使经验风险最小化，缺乏定量的分析和完备的机理结果．与传统的神经网络相比，由V a p n i k 依据结构风险最小化原则提出的支持向量机 s u p p o r tv e c t o rm a c h i n e ，S V M 不仅结构简单，而且各种技术性能尤其是泛化能力明显提高[ 6 ] ．基于S V M 的学习算法能够较好的解决小样本、非线性和高维数的问题；其训练是一个凸二次规划问题，能够保证找到的极值解就是全局最优解．一些学者认为，S V M 正成为继神经网络之后新的研究热点[ 7 。8 ] ．本文将支持向量机与Q 学习相结合，进行了一种新的尝试，利用S V M 的优良泛化性能构造大规模、连续状态空问下的Q 值函数逼近器，并将其应用于倒立摆的平衡控制仿真． 1 基于支持向量机的Q 学习 1 ．1 Q 学习 Q 学习是目前最有效的模型无关强化学习算法，它的主要思想是通过Q 值函数来组织和构建对最优策略的搜索．在线Q 学习方法的实现按如下的递归公式进行在每个时问步t ，观察当前状态5 ，，选择和执行动作a ，，再观察后续状态s 斗，并接受即时回报％然后根据式 1 来调整Q 值． Q 卜L l 5 ，，a ，一 1 一叩 Q ， S 。，a 。疽n ，m a x Q f s 件l ，a t 1 ] ， 1 口t l 式中 7 为学习率，它控制着学习的速度．折扣因子 0 ≤y ≤1 表示学习系统的远视程度，如果取值比较小，则表示系统更关注最近的动作的影响；如果比较大，则对比较长的时间内的动作都很关注． 1 ．2 基于支持向量机的Q 学习由于S V M 具有理论完备、适应性强、全局优化、训练时间短、泛化性能好、算法复杂度与特征空间维数无关等优点[ 9 ] ，为此，本文提出一种利用 S V M 的函数逼近与泛化性能对Q 值函数进行在线估计计算的方法．Q 学习的支持向量机实现形式如图1 所示．由于系统是时变的，随着系统的运行，系统的状态在不断地变化，同时不断得到新的输入一输出数据．S V M 以核矩阵的方式存储数据，随着学习的不断进行，学习数据不断增多，核矩阵规模不断增大，导致S V M 的计算速度大大降低．为了保证计算速度，并且使模型能准确地反映系统的当前状态以及实现S V M 的在线学习，本文引入滚动时间窗机制建立一个随时间窗滚动的建模数据区间，并保持该区间长度不变，新数据不断加入，旧数据在建模区问中所占的比重相应的降低，直至从建模区间滚动出去1 1 “1 1 ] ．将系统新得到的数据不断加入样本集，从而得到新的支持向量集合，由此更新权值，达到模型更新的目的．为了保证每次时间窗的滚动，模型总朝着更为准确的方向改进，在将系统新得到的数据加入样本集之前要进行K a r u s h K u h n T u c k e r K K T 条件判断．新增数据若满足K K T 条件，则说明原有的S V M 模型仍可以正确的拟合该数据，不必进行训练集的更新，时间窗保持不变；若违反，则原有的S V M 模型拟合该数据时会产生比较大的误差，因此，应滚动时问窗，重新训练得到新的S V M 模型．万方数据第1 期王雪松等基于支持向量机的连续状态空间Q 学习为了构造在线支持向量机，样本是窗式移动的．设当前t 时刻S V M 的学习训练样本集由过去 L 组数据构成D 一{ z ，Q i fi t L ，t L 1 ， ⋯，t 一1 } ，其中样本输入数据x H 一 s 。。，a T ∈ R 叶1 表示由 t 一1 时刻”维系统状态S 。，一 S 1 ￡一1 ，S 2 f 一1 ，⋯，s 。 f 一1 1 ∈R ”和1 维动作a H ∈R 构成的状态一动作对，样本输出数据 Q ，。∈R 为 f 一1 时刻Q 学习系统的Q 值．为了解决Q 学习过程中探索和利用的“两难问题”，S V M 的输出Q 值要被送入随机动作选择器，此处采用近似贪心且连续可微的B o h z m a n G i b b s 分布作为动作选择策略[ 12 | ，则动作a 。从动作集A 一{ a ∥“，a 。，⋯，n 。中被选择的概率为／Q S ，，a 、 p r o b nr 刮小卜i 二蒜“2 厶e x p I 1 - 一J 式中L 0 为温度参数，控制行为选择的随机程度．为了提高学习的速度，利用模拟退火技术在学习过程中按下式进行动态调整温度值，即在学习的初期选择较大的温度，以保证动作选择的随机性较大，增加搜索能力，然后在学习的过程中逐渐降低温度，保证以前的学习效果不被破坏．』T 。一T ⋯， 3 l T 州一T 。。。卢 T ，一T 。。，式中0 ≤卢≤1 为退火因子． 1 ．3 基于滚动时间窗机制的支持向量机为了充分利用数据的信息，对于L 区问内的样本，应当根据数据采样时刻的不同，给予不同程度的考虑．当采样时刻离当前时刻越远，则其在建模时所占比重将减少；离当前时刻越近的数据，则在建模时给予更多的考虑．因此，采用线性遗忘方式对时问窗内的数据分配不同的权值h 。以反映区问内样本的重要程度．五一警斋铬，妻五一，． 4 亿一百五了万一’刍，巩一卜，在回归估计中，为保持S V M 算法的稀疏性，去除原变量空间中大部分误差较小的样本点，引入 e - 不敏感损失函数 c z ，Q ，厂 z 一JQ 一厂 z } 。一 m a x { 0 ，IQ 一厂 z I 一￡． 5 如图1 所示，S V M 形式上类似于一个神经网络，输出是中间节点的线性组合，因此，待求回归函数的形式为 Q 一厂 z 一w 1 咖 z b ， 6 式中w 为权重向量，6 为偏置项，可以通过求解凸最优化问题得到系数W 和b ．引入松弛变量考’一￡_ L ，肇。⋯，毫一。，肇． T 和惩罚参数C ，得到e - 支持向量机的原始优化问题 m i n F D W ，拿一 “ ∈R ”1 ，≯ ’∈R “，6 ∈R t 一1 专1 1w l l2 c 亭∑ ￡等， 7 “ ～i 一卜_ L f W 1 庐矗，z 6 一h Q 。≤e 专， s ．t ．{ h ，Q ，一 w 79 5 ，z ， 4 - 6 ≤e 4 - 等， l ￡≥0 ，等≥0 ，式中 * 是表示向量有* 和无* 这2 种情况的简单记号，西 z 将变量从输入空间非线性地映射到高维特征r 空间，从而将非线性关系转化为线性关系．在低维输入空间中引入如式 8 描述的径向基 r a d i a lb a s i sf u n c t i o n ，R B F 核函数对应高维特征空间的内积运算． K z 。，3 2 ，一庐 z 声 z ，一唧一字， 8 歹一t L ，t L4 - 1 ，⋯，t 一1 ．式 7 中的惩罚参数C 和式 8 中的核宽度仃是非常重要的参数，这些参数的选择可以根据经验、自举法、交叉验证和从统计学习理论导出V C 维的界等方法进行确定‘6 | ，其中最常用的方法是交叉验证法．引入L a g r a n g e 乘子口㈠’一 d “，d 二L ，⋯， n ，l ，O ／t “_ 1 T ，利用L a g r a n g e 乘子法构造原始问题的对偶问题并求解下述最优化问题，即可得到最优解口“’．。。唿．蹦∥’ 一专。堇。∽～ a ，～泓 K h 。z ，h ，z ， 4 - e ∑ a 4 - 口。一∑h i Q a 一d i ， 9 f ∑ a * 一a 一0 ，豇L 1 。≤％导．已经证明原始问题式 7 关于W 的惟一解可用对偶问题式 9 的解来表示[ 6 ] ，即 W 一∑ a 一d 声矗而， 1 0 因此，最优回归估计函数可表示为卜_ 1 厂 z 一∑W 。K h 以，z 4 - b ， 1 1 i 一卜L 万方数据中国矿业大学学报第3 7 卷式中让0 一口一a 。． w D d ㈠’ 分别对a 。和口求一阶偏导，可得回归分析中的K K T 条件如下． f a ；一o ≥lQ ，一厂 z l ≤e ， ≮o a ；“ 『0 ．2 1r a d ，，，，、 2 1o ，忆l ≤2 ．4ma n dl 以i ≤u “ l0 ．2 1r a d ．分别采用文献[ 4 ] 中给出的基于B P 神经网络的Q 学习方法与本文所提Q 学习方法进行3 0 回合的独立仿真运行．仿真过程中，倒立摆系统的结构参数为g 一一9 ．8m ／s 2 ，m 。 0 ．1k g ，m 一1 ．1 k g ，Z 一0 ．5m ，F 一{ 一1 0 ，0 ， 1 0 ‘} N ；基于S V M 的Q 学习控制参数为y 一0 ．9 5 ，叩一0 ．1 5 ，p 一 0 ．9 5 ，T m 。。一0 ．1 ，T m i 。一0 ．0 0 1 ，C 一1 0 0 ，盯在E o ．3 ， 0 ．5 3 区问内随机取值，e 一0 ．0 0 5 ，L 5 0 ，采样周期T 。一0 ．0 2S ；基于B P 网络的Q 学习控制参数为7 0 ．9 5 ，叩一0 ．1 5 ，p 0 ．9 5 ，T m 。；一0 ．1 ，L i 。一0 ．0 0 1 ，T 。一0 ．0 2S ，网络拓扑结构为5 7 1 ，网络隐层和输出层的激活函数分别为S i g m o i d 型和线性函数，网络权值学习率} 一0 ．2 ．在每次实验中，倒立摆的状态初始化为平衡位置附近的随机值，系统从一个随机的初始状态开始，直到控制失败摆倒下或是小车超过导轨的长度，每一次运行失败后，Q 学习控制器重新进行学习．若在某次学万方数据第1 期王雪松等基于支持向量机的连续状态空间Q 学习习中，学习系统能够在20 0 0 时间步内保持系统状态在设定范围内，则认为学习系统达到本次仿真的要求．在3 0 回合的独立仿真运行中，基于B P 网络的Q 学习系统仅有4 个回合能够成功平衡倒立摆达20 0 0 时间步，而基于S V M 的Q 学习系统在每次仿真运行中均能以较少的尝试次数获得倒立摆平衡控制策略，表明基于S V M 的Q 学习系统具有较高的学习效率和泛化性能．图3 a 和图3 b 分别给出了基于S V M 和基于B P 网络的Q 学习系统的一次典型运行的学习曲线，横坐标为尝试次数，纵壤一 05l O 1 52 0 2 53 03 54 04 55 0 尝i t ／次数 a 基于S V M 的Q 学习 4 结论坐标为每次学习实验中倒立摆保持平衡的成功次数．从图中可以看出，基于S V M 的Q 学习系统在经过大约4 8 次学习后，能够达到预定目标，而基于 B P 网络的Q 学习系统则需经过10 4 1 次学习后才可以将摆杆平衡20 0 0 时间步．图3 c 和3 d 给出了 2 种Q 学习控制器在分别经过4 8 次和10 4 1 次学习后，系统的有关状态变化数据．仿真结果表明在有限的尝试次数内，本文所提控制算法可以达到预定的控制目标，验证了S V M 与Q 学习相结合的可行性．尝试／次数如 b 基于B P 网络的Q 学习 C 小车位移 ≈ 圭魁娅图3 倒立摆平衡控制仿真结果 F i g ．3 S i m u l a t i o nr e s u l t so fi n v e r t e dp e n d u l u mb a l a n c i n gc o n t r o l 1 支持向量机能够对Q 学习的状态一动作对的Q 值进行在线估计，解决连续状态空间泛化中易出现的“维数灾”问题，可以有效解决具有连续状态的非线性系统的强化学习控制． 2 基于滚动时间窗机制的支持向量机能够实现在线学习，并且比常规S V M 具有较快的估计速度． 3 对系统实时检测得到的新数据进行K K T 条件判断，可以保证随着每次时间窗的滚动，模型总能朝着更为准确的方向改进．需要进一步研究的问题包括控制参数的自适应调整和S V M 快速学习算法的设计以进一步提高Q 学习系统的学习速度．致谢本研究得到中国矿业大学青年科研基金 0 C 0 6 0 0 9 3 资助，特此致谢．参考文献 r 1 ] S U T T O NRS ，B A R T OAG ．R e i n f o r c e m e n tl e a r n i n g a ni n t r o d u c t i o n [ M ] ．C a m b r i d g e T h eM I T P r e s s ，1 9 9 8 ． [ 2 1W A T K I N SCJCH ，D A Y A NP ．T e c h n i c a lr e p o r t Q - l e a r n i n g [ J 1 ．M a c h i n eL e a r n i n g ，1 9 9 2 ，8 3 2 7 9 2 9 2 ． [ 3 3P R E UP ，D E I 。E P O U I 。I 。ES ，D A R C H E V I L L EJC ． t ／s d 摆杆摆角 Ag e n e r i ca r c h i t e c t u r ef o ra d a p t i v ea g e n t sb a s e do n r e i n f o r c e m e n tl e a r n i n g [ J ] ．I n f o r m a t i o nS c i e n c e s ， 2 0 0 4 ，1 6 1 1 ／2 3 7 5 5 ． [ 4 3 蒋国飞，吴沧浦．基于Q 学习算法和B P 神经网络的倒立摆控制[ J ] ．自动化学报，1 9 9 8 ，2 4 5 6 6 2 6 6 6 ． J I A N GG u o f e i ，W UC a n g p u ．L e a r n i n gt Oc o n t r o l a ni n v e r t e dp e n d u l u mu s i n gQ - l e a r n i n ga n dn e u r a l n e t w o r k s [ J ] ．A c t aA u t o m a t i cS i n i c a ，1 9 9 8 ，2 4 5 6 6 2 6 6 6 ． [ 5 ]王雪松，程玉虎，易建强．一种自适应模糊A c t o r C r i t i c 学习[ J ] ．控制与决策，2 0 0 6 ，2 1 9 1 0 6 8 1 0 7 2 ． W A N GX u e - s o n g ，C H E N GY u h u ，Y IJ i a n - q i a n g ．A n e wa d a p t i v ef u z z yA c t o r - C r i t i cl e a r n i n g [ J ] ．C o n t r o l a n dD e c i s i o n ，2 0 0 6 ，2 1 9 1 0 6 8 1 0 7 2 ． [ 6 ] V A P N I KV ．T h en a t u r eo fs t a t i s t i c a ll e a r n i n gt h e o r y [ M ] ．N e wY o r k S p r i n g e rV e r l a g ，1 9 9 5 ． [ 7 1 王定成，方廷健，高理富，等．支持向量机回归在线建模及应用[ J ] ．控制与决策，2 0 0 3 ，1 8 1 8 9 9 2 ． W A N GD i n g c h e n g ，F A N GT i n g j i a n ，G A OL i - f u ， e t a 1 ．S u p p o r tv e c t o rm a c h i n e sr e g r e s s i o n o n l i n e m o d e l i n ga n di t sa p p l i c a t i o n [ J ] ．C o n t r o la n dD e c i s i o n ，2 0 0 3 ，1 8 1 8 9 9 2 ． [ 8 ] 柳晓菁，易建强，赵冬斌，等．基于最小二乘支持向量机的自适应逆扰动消除控制系统E J ] ．控制与决策，2 0 0 5 ，2 0 8 9 4 7 9 5 0 ． L 1 UX i a o - j i n g ，Y IJ i a n - q i a n g ，Z H A 0D o n g b i n g ，e t 万方数据 9 8中国矿业大学学报第3 7 卷 [ 9 ] E I o ] a 1 ．A d a p t i v ei n v e r s e d i s t u r b a n c ec a n c e l i n gc o n t r o l s y s t e m sb a s e do nl e a s ts q u a r e ss u p p o r tv e c t o rm a c h i n e [ J ] ．C o n t r o la n dD e c i s i o n ，2 0 0 5 ，2 0 8 9 4 7 9 5 0 ．许建华，张学工，李衍达．支持向量机的新发展[ J ] ．控制与决策，2 0 0 4 ，1 9 5 4 8 14 8 6 ． X UJ i a nh u a ，Z H A N GX u } g o n g ，I ．IY a n - d a ．A d v a n c e si ns u p p o r tv e c t o rm a c h i n e s [ J ] ．C o n t r o la n d D e c i s i o n ，2 0 0 4 ，1 9 5 4 8 14 8 6 ． B O CM ，W A N GZQ ，I 。UAJ ．S t u d ya n da p p l i c a t i o no nd y n a m i cm o d e l i n gm e t h o db a s e do nS V M a n ds l i d i n gt i m ew i n d o wt e c h n i q u e s [ C ] ／／P r o c e e d i n g so ft h e6 t hW o r l dC o n g r e s so nI n t e l l i g e n tC o n t r o la n dA u t o m a t i o n ．P i s c a t a w a y I n s t i t u t eo fE l e c 一 [ 1 1 ] [ 1 2 ] t r i c a la n dE l e c t r o n i c sE n g i n e e r sI n c ．P r e s s ，2 0 0 6 4 7 1 4 4 7 1 8 ．阎威武，常俊林，邵惠鹤．基于滚动时间窗的最小二乘支持向量机回归估计方法及仿真[ J ] ．上海交通大学学报，2 0 0 4 ，3 8 4 5 2 4 5 2 7 ． Y A NW e i w u ，C H A N GJ u nl i n ，S H A H u ih e ． L e a s ts q u a r e sS V Mr e g r e s s i o nm e t h o db a s e do ns l i d i n gt i m ew i n d o wa n di t ss i m u l a t i o n [ J ] ．J o u r n a lo f S h a n g h a iJ i a o t o n gU n i v e r s i t y ，2 0 0 4 ，3 8 4 5 2 4 5 2 7 ． K A E I 。B I ．I N GI 。P ，I 。I T T M A NMI 。。M O O R EA W ．R e i n f o r c e m e n tl e a r n i n g as u r v e y E J ] ．J o u r n a l o fA r t i f i c i a l I n t e l l i g e n c eR e s e a r c h ，1 9 9 6 ，4 2 3 7 2 8 5 ．责任编辑姚志昌中国矿业大学学报中文版 2 0 0 7 年第5 期被E i 收录论文【一论文题目第一作者一个新的水平隧道火灾烟气逆流层长度模型研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯周延加载方向对层状构造冻结粉土抗压强度的影响⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯李海鹏筛板充填浮选柱浮选流体的速度场分布⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯刘炯天紫外光引发煤自由基反应的实验研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯位爱竹煤中小分子的微孑L 嵌入特征与溶出特性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯秦志宏粉煤灰微珠表面包覆机理研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯杨玉芬矿井监控图像中空列车的识别⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯孙继平竖井内火灾烟气运动过程模拟实验研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯朱杰考虑含水率影响的红砂岩损伤统计模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯胡昕非连续岩体锚杆导轨作用的物理模拟研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯贾颖绚节理岩体巷道顶板预应力锚杆加固作用研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯王同旭 P V A 一蚕丝复合水凝胶的制备与性能评价⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯张德坤无线传感器网络的研究与实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯张在琛摘自{ E n g i n e e r i n gV i l l a g e2 万方数据

展开阅读全文

基于支持向量机的连续状态空间Q学习.pdf

资源标签

最新标签