强化学习基础篇 OpenAI Gym 环境搭建demo

电脑 2023-02-20 21:34:41 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

Gym是一个研究和开发强化学习相关算法的仿真平台，无需智能体先验知识，由以下两部分组成

Gym开源库：测试问题的集合。当你测试强化学习的时候，测试问题就是环境，比如机器人玩游戏，环境的集合就是游戏的画面。这些环境有一个公共的接口，允许用户设计通用的算法。
OpenAI Gym服务：提供一个站点和API（比如经典控制问题：CartPole-v0），允许用户对他们的测试结果进行比较。

我们需要在Python 3.5+的环境中简单得使用pip安装gym

如果需要从源码安装gym，那么可以：

可以运行pip install -e .[all]执行包含所有环境的完整安装。这需要安装一些依赖包，包括cmake和最新的pip版本。

简单来说OpenAI Gym提供了许多问题和环境（或游戏）的接口，而用户无需过多了解游戏的内部实现，通过简单地调用就可以用来测试和仿真。接下来以经典控制问题CartPole-v0为例，简单了解一下Gym的特点

运行效果如下

以上代码中可以看出，gym的核心接口是Env。作为统一的环境接口，Env包含下面几个核心方法：

reset(self)：重置环境的状态，返回观察。
step(self, action)：推进一个时间步长，返回observation, reward, done, info。
render(self, mode=‘human’, close=False)：重绘环境的一帧。默认模式一般比较友好，如弹出一个窗口。
close(self)：关闭环境，并清除内存

以上代码首先导入gym库，然后创建CartPole-v0环境，并重置环境状态。在for循环中进行1000个时间步长控制，env.render()刷新每个时间步长环境画面，对当前环境状态采取一个随机动作（0或1），在环境返回done为True时，重置环境，最后循环结束后关闭仿真环境。

在上面代码中使用了env.step()函数来对每一步进行仿真，在Gym中，env.step()会返回 4 个参数：

观测 Observation (Object)：当前step执行后，环境的观测(类型为对象)。例如，从相机获取的像素点，机器人各个关节的角度或棋盘游戏当前的状态等；
奖励 Reward (Float): 执行上一步动作(action)后，智能体( agent)获得的奖励(浮点类型)，不同的环境中奖励值变化范围也不相同，但是强化学习的目标就是使得总奖励值最大；
完成 Done (Boolen): 表示是否需要将环境重置 env.reset。大多数情况下，当 Done 为True 时，就表明当前回合(episode)或者试验(tial)结束。例如当机器人摔倒或者掉出台面，就应当终止当前回合进行重置(reset);
信息 Info (Dict): 针对调试过程的诊断信息。在标准的智体仿真评估当中不会使用到这个info，具体用到的时候再说。

在 Gym 仿真中，每一次回合开始，需要先执行 reset() 函数，返回初始观测信息，然后根据标志位 done 的状态，来决定是否进行下一次回合。所以更恰当的方法是遵守done的标志。

代码运行结果的片段如下所示：

上面的结果可以看到这个迭代中，输出的观测为一个列表。这是CartPole环境特有的状态，其规则是。

其中：

表示小车在轨道上的位置（position of the cart on the track）
表示杆子与竖直方向的夹角（angle of the pole with the vertical）
表示小车速度（cart velocity）
表示角度变化率（rate of change of the angle）

每次执行的动作(action)都是从环境动作空间中随机进行选取的，但是这些动作 (action) 是什么?在 Gym 的仿真环境中，有运动空间 action_space 和观测空间observation_space 两个指标，程序中被定义为 Space类型，用于描述有效的运动和观测的格式和范围。下面是一个代码示例：

从程序运行结果可以看出：

action_space 是一个离散Discrete类型，从discrete.py源码可知，范围是一个{0,1,…,n-1} 长度为 n 的非负整数集合，在CartPole-v0例子中，动作空间表示为{0,1}。
observation_space 是一个Box类型，从box.py源码可知，表示一个 n 维的盒子，所以在上一节打印出来的observation是一个长度为 4 的数组。数组中的每个元素都具有上下界。

在gym的Cart Pole环境（env）里面，左移或者右移小车的action之后，env会返回一个+1的reward。其中CartPole-v0中到达200个reward之后，游戏也会结束，而CartPole-v1中则为500。最大奖励（reward）阈值可通过前面介绍的注册表进行修改。