淘姐妹

淘姐妹

强化学习实战(一)(tensorlayer乒乓球教程)

电脑 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


强化学习实战(?)(

tensorlayer

乒乓球教程)

运?乒乓球例? 

在本教程的第?部分,我们将运个深度强化学习的例?,它在Karpathy的两篇博客 Deep Reinforcement Learning:Pong from

Pixels 有介绍。

python tutorial_atari_pong.py 

在运?教程代码之前 您需要安装 OpenAI gym environment ,它提供了?量强化学习常?的游戏环境。 如果?切运?正常,您将得到以

下的输出:

[2016-07-12 09:31:59,760] Making new env: Pong-v0 

[TL] InputLayer input_layer (?, 6400) 

[TL] DenseLayer relu1: 200, relu 

[TL] DenseLayer output_layer: 3, identity 

param 0: (6400, 200) (mean: -0.000009 median: -0.000018 std: 0.017393) 

param 1: (200,) (mean: 0.000000 median: 0.000000 std: 0.000000) 

param 2: (200, 3) (mean: 0.002239 median: 0.003122 std: 0.096611) 

param 3: (3,) (mean: 0.000000 median: 0.000000 std: 0.000000) 

num of params: 1280803 

layer 0: Tensor(“Relu:0”, shape=(?, 200), dtype=float32) 

layer 1: Tensor(“add_1:0”, shape=(?, 3), dtype=float32) 

episode 0: game 0 took 0.17381s, reward: -1.000000 

episode 0: game 1 took 0.12629s, reward: 1.000000  

episode 0: game 2 took 0.17082s, reward: -1.000000 

episode 0: game 3 took 0.08944s, reward: -1.000000 

episode 0: game 4 took 0.09446s, reward: -1.000000 

episode 0: game 5 took 0.09440s, reward: -1.000000 

episode 0: game 6 took 0.32798s, reward: -1.000000 

episode 0: game 7 took 0.74437s, reward: -1.000000 

episode 0: game 8 took 0.43013s, reward: -1.000000 

episode 0: game 9 took 0.42496s, reward: -1.000000 

episode 0: game 10 took 0.37128s, reward: -1.000000 

episode 0: game 11 took 0.08979s, reward: -1.000000 

episode 0: game 12 took 0.09138s, reward: -1.000000 

episode 0: game 13 took 0.09142s, reward: -1.000000 

episode 0: game 14 took 0.09639s, reward: -1.000000 

episode 0: game 15 took 0.09852s, reward: -1.000000 

episode 0: game 16 took 0.09984s, reward: -1.000000 

episode 0: game 17 took 0.09575s, reward: -1.000000 

episode 0: game 18 took 0.09416s, reward: -1.000000 

episo