最新 | 用深度强化学习打造不亏钱的交易机器人(附代码)( 五 )

本文原始标题为:最新 | 用深度强化学习打造不亏钱的交易机器人(附代码)---来源是:

本文原始标题为:最新 | 用深度强化学习打造不亏钱的交易机器人(附代码)---来源是:

在随机切片中遍历dataframe的一个不好的地方是 , 当经过长时间的训练 , 我们的agent将有更多独特的数据可用 。 例如 , 如果我们只以串行方式遍历dataframe(即从0到len(df)的顺序) , 那么我们只会拥有与dataframe中相同数量的惟一数据点 。 我们的观测空间甚至只能在每一个时间步长上呈现出离散的状态 。

然而 , 通过随机遍历dataframe的各个部分 , 我们通过为初始数据集中的每个时间步创建更有趣的帐户余额、所进行的交易和以前看到的价格行为组合 , 本质上生成了更独特的数据点 。

在重置串行环境后的时间步骤10中 , 我们的agent将始终在dataframe中的同一时间内 , 并且在每个时间步骤中有3个选择:买进、卖出或持有 。 对于这三个选项中的每一个 , 都需要另外一种选择:10%、20%、……或者100% 。 这意味着我们的代理可以经历任何(1?3)1?总状态 , 总共1?3?可能的独特体验 。

现在考虑随机切片的环境 。 在第10步时 , 我们的agent可以位于dataframe中的任何len(df)时间步长 。 给定在每个时间步骤做出的相同选择 , 这意味着该代理可以在相同的10个时间步骤中经历任何len(df)3?可能的唯一状态 。

虽然这可能会给大型数据集增加相当多的噪音 , 但我们认为它应该允许agent从我们有限的数据量中学到更多 。 我们仍将以串行方式遍历测试数据集 , 以便更准确地理解算法对新颖申万、看似“实时”数据的有用性 。

AgentEyes


推荐阅读