强化学习实战（一）（tensorlayer乒乓球教程）

电脑 2023-02-20 10:31:52 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

强化学习实战（?）（

tensorlayer

乒乓球教程）

运?乒乓球例?

在本教程的第?部分，我们将运个深度强化学习的例?，它在Karpathy的两篇博客 Deep Reinforcement Learning:Pong from

Pixels 有介绍。

python tutorial_atari_pong.py

在运?教程代码之前您需要安装 OpenAI gym environment ，它提供了?量强化学习常?的游戏环境。如果?切运?正常，您将得到以

下的输出：

[2016-07-12 09:31:59,760] Making new env: Pong-v0

[TL] InputLayer input_layer (?, 6400)

[TL] DenseLayer relu1: 200, relu

[TL] DenseLayer output_layer: 3, identity

param 0: (6400, 200) (mean: -0.000009 median: -0.000018 std: 0.017393)

param 1: (200,) (mean: 0.000000 median: 0.000000 std: 0.000000)

param 2: (200, 3) (mean: 0.002239 median: 0.003122 std: 0.096611)

param 3: (3,) (mean: 0.000000 median: 0.000000 std: 0.000000)

num of params: 1280803

layer 0: Tensor(“Relu:0”, shape=(?, 200), dtype=float32)

layer 1: Tensor(“add_1:0”, shape=(?, 3), dtype=float32)

episode 0: game 0 took 0.17381s, reward: -1.000000

episode 0: game 1 took 0.12629s, reward: 1.000000

episode 0: game 2 took 0.17082s, reward: -1.000000

episode 0: game 3 took 0.08944s, reward: -1.000000

episode 0: game 4 took 0.09446s, reward: -1.000000

episode 0: game 5 took 0.09440s, reward: -1.000000

episode 0: game 6 took 0.32798s, reward: -1.000000

episode 0: game 7 took 0.74437s, reward: -1.000000

episode 0: game 8 took 0.43013s, reward: -1.000000

episode 0: game 9 took 0.42496s, reward: -1.000000

episode 0: game 10 took 0.37128s, reward: -1.000000

episode 0: game 11 took 0.08979s, reward: -1.000000

episode 0: game 12 took 0.09138s, reward: -1.000000

episode 0: game 13 took 0.09142s, reward: -1.000000

episode 0: game 14 took 0.09639s, reward: -1.000000

episode 0: game 15 took 0.09852s, reward: -1.000000

episode 0: game 16 took 0.09984s, reward: -1.000000

episode 0: game 17 took 0.09575s, reward: -1.000000

episode 0: game 18 took 0.09416s, reward: -1.000000

episo

本文地址： https://www.tjm99.com//show-14119.html