当前位置:大学毕业论文> 期末论文>材料浏览

关于神经网络论文范文写作 利用神经网络动力学实现基于模型强化学习相关论文写作资料

主题:神经网络论文写作 时间:2024-03-14

利用神经网络动力学实现基于模型强化学习,本论文可用于神经网络论文范文参考下载,神经网络相关论文写作参考研究。

神经网络论文参考文献:

神经网络论文参考文献 网络营销论文网络营销相关论文网络论文建筑模型论文

一般来说,让机器人在现实世界中自主行动是一件很困难的事情.即使具有昂贵的机器人和世界一流的研究人员,机器人仍然难以在复杂的非结构化环境中进行自主导航和交互.

很多人可能会有这样一个疑问:为什么自主机器人不能像我们一样在这个世界中生活呢?那是因为能够处理人类世界所有复杂问题的工程系统是很难的.从非线性动力学、部分可观测到的不可预知的地形和传感器故障,机器人特别容易受到墨菲定律的影响:一切可能出错的事物都会出错.我们并不是通过对机器人可能遇到的每个情景进行编码以对抗墨菲定律,相反,我们可以选择接受这种失败的可能性,并让我们的机器人能够从中学习.从经验中学习控制策略是有利的,因为和手动控制器不同的是,学习控制器可以通过更多的数据来进行适应和改进.因此,当出现这样一个场景——所有事情都出错了,尽管机器人虽然会失败,但是,当下一次遇到类似的情况时,已学习过的控制器便有可能修正它的错误.为了处理现实世界中任务的复杂性,当前基于学习的方法通常使用深度神经网络,这是一种强大但非数据有效的神经网络;这些基于反复摸索的学习器往往会经历再次失败、第三次失败,甚至是数千到数百万次的失败.当代深度强化学习方法的样本无效性往往是现实世界中利用学习型方法的主要瓶颈之一.

我们一直在研究用于机器人控制的神经网络的基于学习的样本高效方法.对于复杂的、接触点丰富的模拟机器人以及实际应用中的机器人(图1),我们的方法能够学习轨迹跟踪的运动技能,而这一过程仅使用收集自机器人在环境中的随机行为的数分钟数据.在本文中,我们将对该方法和结果进行简要概述.更多细节查阅论文(https://arxiv.org/pdf/1708.02596.pdf)和相关代码(https://github.com/nagaban2/nn_dynamics)

样本效率:

无模型的VS基于模型的

从经验中学习机器人技能通常属于强化学习的范畴.强化学习算法一般可以分为两类:无模型,即学习策略或值函数;以及基于模型的,即学习动力学模型.虽然无模型深度强化学习算法能够学习广泛的机器人技能,但它们往往会受到高昂的样本复杂性的限制,通常需要数百万个样本才能获得良好的性能表现,而且一次只能学习一项任务.尽管之前的一些研究已经将这些无模型算法应用于现实世界的操作任务中,但这些算法的高度复杂性和不靈活性已经阻碍了它们在现实世界中用于学习运动技能的应用.

基于模型的强化学习算法通常被认为是更有效的样本.然而,为了获得良好的采样效率,这些基于模型的算法通常使用相对简单的函数逼近器,其不能很好地推广到复杂的任务,或者使用高斯过程这样的概率动力学模型,其概括性好,但复杂和高三维的领域,如摩擦接触,会导致不连续的动力学系统.相反,我们使用中等大小的神经网络作为函数逼近器,可以实现出色的样本效率,同时仍然具有足够的表现力,可以用于各种复杂和高维运动任务的推广和应用.

基于模型深度强化学习的

神经网络动力学

在我们的研究中,我们的目标是将深度神经网络模型在其他领域中的成功应用扩展到基于模型的强化学习中.近年来,先前那些将神经网络和基于模型的强化学习相结合的努力,还没有实现能够和较简单的模型(例如高斯过程)相媲美的结果.例如,Gu等人观察到,即使是线性模型在合成经验生成方面也能够获得较好的性能表现,而Heess等人则在将涵盖神经网络在内的模型纳入到无模型学习系统的过程中看到了相对适度的益处.我们的方法依赖于一些关键的决策:首先,我们在一个模型预测控制框架内使用已学习的神经网络模型,其中,系统可以迭代地重新规划并修正错误;其次,我们使用相对较短的范围预测,以便我们不必依靠这个模型对未来做出非常准确的预测.这两个相对简单的设计决策使得我们的方法能够执行各种各样的运动任务,其中,这些运动任务之前没有使用通用的基于模型的强化学习方法进行演示,即可以直接在原始状态观察中操作.

我们的基于模型的强化学习方法如图2所示.我们保持一个迭代增加的轨迹数据集,并使用该数据集对动态模型进行训练.这个数据集是用随机轨迹进行初始化的.然后,我们通过在使用数据集对神经网络动态模型进行训练、使用模型预测控制器(MPC)和已学习的动态模型收集附加的轨迹以聚合到数据集之间交替,从而执行强化学习.我们在下面将对这两个组成部分进行讨论.

动力学模型

我们将已学习的动力学函数参数化为一个深度神经网络,可以通过一些需要学习的权重进行参数化.我们的动力学函数以当前状态和动作作为输入,然后输出预测的状态差.动力学模型本身可以在监督学习环境中进行训练,其中收集的训练数据以成对的输入和相应的输出标注.

需要注意的是,我们上面所提到的“状态”可以随着智能体的变化而变化,并且可以包括诸如质心位置、质心速度、关节位置以及其他任何我们想选择的可测量数值.

控制器

为了使用一个已学习的动力学模型来完成任务,我们需要定义一个对任务进行编码的奖励函数.例如,标准的“x_vel”奖励可以编码一个前进的任务.对于轨迹追踪的任务,我们制定了一个奖励函数,能够激励靠近轨迹,并沿着轨迹前进.

使用已学习的动力学模型和任务奖励函数,我们建立了一个基于模型的控制器.在每个时间步骤中,智能体通过随机生成K个候选动作序列,使用已学习的动力学模型预测那些动作序列的结果,并选择对应于最高累积奖励的序列(图3),做出到达未来所需H步的规划.然后,我们只执行动作序列中的第一个动作,继而在下一个时间步骤中重复规划过程.这种重新规划使得该方法在学习动力学模型中能够对抗不准确性.

结果

我们首先在各种MuJoCo智能体上评估了我们的方法,包括游泳者、half-cheetah和蚂蚁.使用我们的已学习动力学模型和MPC控制器,智能体能够遵循一组稀疏的路标所定义的路径.此外,我们的方法只用了几分钟的随机数据对已学习的动力学模型进行训练,显示了它的样本效率.

结论:关于神经网络方面的论文题目、论文提纲、深度神经网络算法论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

基于神经网络和群智能多人决策模型其应用
摘要:本文提出了一种基于神经网络与群智能技术的多代理人决策模型。该决策模型以神经网络作为决策控制器,神经网络的输入层是代理人的历史行为策略,输出。

一种利用神经网络改善判断矩阵一致性方法
摘要:针对层次分析法中判断矩阵致性改进问题,提出了一种利用神经网络改善判断矩阵一致性的方法。本文在建立了BP神经网络模型的基础上,把判断矩阵一致。

神经网络模型理论的简要
摘要:本文系统地介绍了神经网络模型中径向基函数网络模型的数学理论,包括他的原理,算法步骤和实证过程。关键词:神经网络模型 径向基函数网络人工。

论文大全