如何编写国际象棋神经网络编程？

发布于 2024-07-17 07:43:08 字数 590 浏览 13 评论 0原文

我想编写一个国际象棋引擎，它可以学习如何走好棋并战胜其他玩家。我已经编写了棋盘的表示形式和输出所有可能走法的函数。所以我只需要一个评估函数来说明董事会的给定情况有多好。因此，我想使用人工神经网络来评估给定的位置。输出应该是一个数值。值越高，白人球员的位置越好。

我的方法是构建一个由 385 个神经元组成的网络：棋盘上有 6 个独特的棋子和 64 个区域。因此，对于每个字段，我们采用 6 个神经元（每块 1 个）。如果有白色棋子，则输入值为1。如果有黑色棋子，则输入值为-1。如果该字段上没有此类块，则值为 0。除此之外，还应该有 1 个神经元供玩家移动。如果轮到白方，则输入值为 1；如果轮到黑方，则输入值为 -1。

我认为神经网络的配置相当不错。但缺少主要部分：如何将这个神经网络实现为编码语言（例如Delphi）？我认为每个神经元的权重一开始应该是相同的。根据比赛结果，应调整权重。但如何呢？我想我应该让 2 个电脑玩家（都使用我的引擎）互相对战。如果白方获胜，黑方会收到其权重不佳的反馈。

因此，如果您能帮助我将神经网络实现为一种编码语言（最好是 Delphi，否则是伪代码），那就太好了。提前致谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

淡写薰衣草的香 2024-07-24 07:43:08

万一有人偶然发现此页面。鉴于我们现在所知道的情况，OP 的提议几乎肯定是可能的。事实上，我们成功地为一个具有更大状态空间的游戏做到了这一点 - Go ( https://deepmind.com/research/case-studies/alphago-the-story-so-far）。

回复收藏 0 原文

-残月青衣踏尘吟 2024-07-24 07:43:08

如果您还使用 alpha-beta 剪枝进行一些经典的最小最大前瞻，我不明白为什么您不能为静态求值器建立神经网络。许多国际象棋引擎都使用极小极大值和一个脑残的静态评估器，该评估器只是将棋子或其他东西相加；如果你有足够的极小极大级别，那么这并不重要。我不知道网络会带来多大的改进，但不会有什么损失。但训练它会很棘手。我建议使用一个能够预测许多动作（并占用 CPU 负载等）的引擎来训练评估器，使其能够预测更少的动作。这样你最终会得到一个不占用太多 CPU 的引擎（希望如此）。

编辑：我在 2010 年写了上面的内容，现在在 2020 年 Stockfish NNUE 已经做到了< /a>. “该网络针对中等搜索深度的数百万个位置的[经典 Stockfish] 评估进行了优化和训练”，然后用作静态评估器，在最初的测试中，当使用此静态评估器而不是他们的前一个（或者，同等地，相同的 elo，但 CPU 时间少一点）。所以是的，它确实有效，您甚至不必像我最初建议的那样以高搜索深度训练网络：适度的搜索深度就足够了，但关键是使用数百万个位置。

回复收藏 0 原文

无语# 2024-07-24 07:43:08

去过也做过。由于您的问题不存在连续性（一个位置的值与另一个位置的值并不密切相关，一个输入的值仅发生 1 次变化），因此神经网络发挥作用的可能性很小。在我的实验中从未出现过这种情况。

我宁愿看到一个带有临时启发式（其中有很多）的模拟退火系统来评估位置的价值...

但是，如果您打算使用神经网络，则相对容易表示。一般的神经网络只是一个图，每个节点都是一个神经元。每个神经元都有一个当前激活值和一个转换公式，用于根据输入值（即与其有链接的所有节点的激活值）计算下一个激活值。

一个更经典的神经网络，即具有输入层、输出层、每层相同的神经元并且没有时间依赖性，因此可以由输入节点数组、输出节点数组和链接图来表示连接这些的节点。每个节点都拥有一个当前激活值以及它转发到的节点列表。计算输出值只是将输入神经元的激活设置为输入值，然后依次迭代每个后续层，使用转移公式计算前一层的激活值。当到达最后（输出）层时，您就得到了结果。

回复收藏 0 原文

又爬满兰若 2024-07-24 07:43:08

这是可能的，但无论如何都不是微不足道的。

https://erikbern.com/2014/11/29/deep- Learning-for-chess/

为了训练他的评估函数，他使用了大量的计算能力。

一般来说，您可以按如下方式进行处理。您的评估函数是前馈神经网络。让矩阵计算产生标量输出，评估移动的好坏。网络的输入向量是棋盘上所有棋子所代表的棋盘状态，例如，白棋子为 1，白棋为 2...，空白为 0。棋盘状态输入向量示例就是 0 的序列-12的。对于许多游戏，可以使用大师游戏（例如可在小说数据库中获得）来训练这种评估，从而最大限度地减少当前参数所说的最高估值与大师采取的行动（应该具有最高估值）之间的损失。当然，这是假设大师的走法是正确且最优的。

回复收藏 0 原文