最新 | 用深度强化学习打造不亏钱的交易机器人（附代码）( 五 ) 原标题：最新

本文原始标题为：最新 | 用深度强化学习打造不亏钱的交易机器人（附代码）---来源是：

本文原始标题为：最新 | 用深度强化学习打造不亏钱的交易机器人（附代码）---来源是：

在随机切片中遍历dataframe的一个不好的地方是，当经过长时间的训练，我们的agent将有更多独特的数据可用。例如，如果我们只以串行方式遍历dataframe（即从0到len(df)的顺序），那么我们只会拥有与dataframe中相同数量的惟一数据点。我们的观测空间甚至只能在每一个时间步长上呈现出离散的状态。

然而，通过随机遍历dataframe的各个部分，我们通过为初始数据集中的每个时间步创建更有趣的帐户余额、所进行的交易和以前看到的价格行为组合，本质上生成了更独特的数据点。

在重置串行环境后的时间步骤10中，我们的agent将始终在dataframe中的同一时间内，并且在每个时间步骤中有3个选择：买进、卖出或持有。对于这三个选项中的每一个，都需要另外一种选择：10%、20%、……或者100% 。这意味着我们的代理可以经历任何(1?3)1?总状态，总共1?3?可能的独特体验。

现在考虑随机切片的环境。在第10步时，我们的agent可以位于dataframe中的任何len(df)时间步长。给定在每个时间步骤做出的相同选择，这意味着该代理可以在相同的10个时间步骤中经历任何len(df)3?可能的唯一状态。

虽然这可能会给大型数据集增加相当多的噪音，但我们认为它应该允许agent从我们有限的数据量中学到更多。我们仍将以串行方式遍历测试数据集，以便更准确地理解算法对新颖申万、看似“实时”数据的有用性。

AgentEyes