人工智能之QLearning算法|皇冠官方app官网首页









主页 > 新闻中心 > 侵权公告

人工智能之QLearning算法|皇冠官方app官网首页

发布者：皇冠官方app官网首页浏览次数：发布时间：2024-03-09

本文摘要：人工智能机器学习有关算法内容，请求参看公众号“科技优化生活”之前涉及文章。

人工智能机器学习有关算法内容，请求参看公众号“科技优化生活”之前涉及文章。人工智能之机器学习主要有三大类：1）分类；2）重返；3）聚类。今天我们重点探究一下QLearning算法。

＾＿＾通过前一篇TD－Learning时序差分（请求参看人工智能（48）算法讲解，我们告诉，TD－Learning时序差分是融合了动态规划DP和蒙特卡洛MC（请求参看人工智能（31））方法，并兼备两种算法的优点，是增强自学的中心。TD－learning时序差分大约分了6类。其中，策略行动价值qπ的off－policy时序差分自学方法：Q－Learning（单步），DoubleQ－Learning（单步）。

今天重点讲解Q－Learning算法。QLearning算法是由Watkins于1989年在其博士论文中明确提出，是增强自学发展的里程碑，也是目前应用于尤为普遍的增强自学算法。

QLearning算法概念：QLearning算法是一种off－policy的增强自学算法，一种典型的与模型牵涉到的算法，即其Q表的改版不同于挑选动作时所遵循的策略，换句化说，Q表在改版的时候计算出来了下一个状态的仅次于价值，但是所取那个最大值的时候所对应的行动不依赖当前策略。QLearning一直是自由选择拟合价值的行动，在实际项目中，QLearning充满著了冒险性，偏向于大胆尝试。QLearning算法下，目标是达到目标状态（GoalState）并提供最低收益，一旦抵达目标状态，最后收益维持恒定。

因此，目标状态又称作吸取态。QLearning算法下的agent，不告诉整体的环境，告诉当前状态下可以自由选择哪些动作。一般来说，必须建构一个即时奖励矩阵R，用作回应从状态s到下一个状态s’的动作奖励值。由即时奖励矩阵R计算出来得出结论指导agent行动的Q矩阵。

Q矩阵是agent的大脑。QLearning算法本质：QLearning归属于TD－Learning时序差分自学。某种程度，该算法融合了动态规划和蒙特卡罗MC算法，仿真（或者经历）一个情节，每行动一步（或多步）后，根据新的状态的价值，来估算继续执行前的状态价值。

下面提及的Q－Learning是单步改版算法。QLearning算法叙述：Q－learning是一个突破性的算法。利用下面公式展开off－policy自学，即用公式来回应Q－Learning中Q表的改版：Q（St，At）←Q（St，At）＋α［Rt＋1＋γmaxQ（St＋1，a）？Q（St，At）］其中：St：当前状态stateAt：从当前状态下，采行的行动actionSt＋1：本次行动所产生的新一轮stateAt＋1：次返actionRt：本次行动的奖励rewardγ为优惠因子，0＜＝γ＜1，γ＝0回应立刻报酬，γ渐趋1回应将来报酬，γ要求时间的远近对报酬的影响程度，回应壮烈牺牲当前收益，交换条件将来收益的程度。将总计报酬作为评价策略好坏的评估函数。

当前的报酬值以及以前的报酬值都可以获得，但是先前状态的报酬很难获得，因此总计报酬就无法计算出来。而Q－learning用Q函数来替换总计报酬作为评估函数，正好解决问题这个问题。

α为掌控发散的自学亲率，0＜α＜1。通过大大的尝试搜寻空间，Q值会逐步无穷大最佳值Q＊。1）Q－learning单步时序差分自学方法算法叙述InitializeQ（s，a），？s∈S，a∈A（s）arbitrarily，andQ（terminal，˙）＝0Repeat（foreachepisode）：？InitializeS？ChooseAfromSusingpolicyderivedfromQ（e．g．？？greedy）？Repeat（foreachstepofepisode）：？？TakeactionA，observeR，S′？？Q（S，A）←Q（S，A）＋α［R＋γmaxaQ（S‘，a）？Q（S，A）］？？S←S′；？UntilSisterminal每个episode是一个trainingsession，且每一轮训练意义就是强化大脑，表现形式是agent的Q矩阵元素改版。当Q习得后，可以用Q矩阵来提示agent的行动。

Q－learning用于了max，不会引发一个最大化偏差（MaximizationBias）问题。可以用于DoubleQ－learning可以避免这个问题。2）DoubleQ－learning单步时序差分自学方法算法叙述InitializeQ1（s，a）andQ2（s，a），？s∈S，a∈A（s）arbitrarilyInitializeQ1（terminal，˙）＝Q2（terminal，˙）＝0Repeat（foreachepisode）：？InitializeS？Repeat（foreachstepofepisode）：？？ChooseAfromSusingpolicyderivedfromQ1andQ2（e．g．？？greedy）？？TakeactionA，observeR，S′？？With0．5probability：？？？Q1（S，A）←Q1（S，A）＋α［R＋γQ2（S′，argmaxQ1（S′，a））？Q1（S，A）］？？Else：？？？Q2（S，A）←Q2（S，A）＋α［R＋γQ1（S′，argmaxQ2（S′，a））？Q2（S，A）］？？S←S′；？UntilSisterminalDoubleQLearning算法本质上是将计算出来Q函数展开延后，并不是获得一条样本就可以改版价值函数，而是一定的概率才可以改版。

由原本的1条样本做影响决策变成多条（最少两条）样本影响决策。QLearning理论基础：QLearning理论基础如下：1）蒙特卡罗方法2）动态规划3）信号系统4）随机迫近5）优化掌控QLearning算法优点：1）所需的参数较少；2）不必须环境的模型；3）不局限于episodetask；4）可以使用离线的构建方式；5）可以确保发散到qπ。QLearning算法缺点：1）Q－learning用于了max，不会引发一个最大化偏差问题；2）可能会经常出现改版速度慢；3）可能会经常出现意识到能力不强劲。录：用于DoubleQ－learning可以避免问题1）；用于多步Q－learning可以避免问题2）和3）。

QLearning算法应用于：从应用于看作，QLearning应用领域与应用于前景都是非常广阔的，目前主要应用于动态系统、机器人掌控、工厂中自学拟合操作者工序以及自学棋类对局等领域。结语：QLearning是一种典型的与模型牵涉到的算法，它是由Watkins于1989年在其博士论文中明确提出，是增强自学发展的里程碑，也是目前应用于尤为普遍的增强自学算法。

QLearning一直是自由选择拟合价值的行动，在实际项目中，QLearning充满著了冒险性，偏向于大胆尝试，归属于TD－Learning时序差分自学。QLearning算法早已被普遍应用于动态系统、机器人掌控、工厂中自学拟合操作者工序以及自学棋类对局等领域。

本文关键词：皇冠官方app官网首页

本文来源：皇冠官方app官网首页-www.payalkhurana.com

揭底机器人四大发展趋势！专家企业齐聚粤港澳大湾区智能制造峰会

解析数据中心节能改造的七种解决方案“皇冠官方app官网首页”

餐饮案例 / Restaurant