使用马尔可夫链（或类似的东西）来生成 IRC 机器人

发布于 2024-10-27 22:16:21 字数 425 浏览 5 评论 0原文

我尝试用谷歌搜索，发现几乎没有什么我能理解的。

我对马尔可夫链的理解非常基本：这是一个数学模型，仅依赖于先前的输入改变状态..所以某种有限状态机具有加权随机机会而不是不同的标准？

我听说你可以使用它们来生成半智能的废话，给定现有单词的句子用作各种字典。

我想不出搜索词来找到这个，所以任何人都可以链接我或解释我如何产生一些给出半智能答案的东西吗？（如果你问它关于馅饼的事，它不会开始谈论它听说过的越南战争）

我计划：

让这个机器人在 IRC 频道中闲置一段时间从
字符串中删除任何用户名并存储为句子或其他内容
随着时间的推移，以此作为上述的基础。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦境 2024-11-03 22:16:21

是的，马尔可夫链是具有概率状态转换的有限状态机。要使用简单的一阶马尔可夫链生成随机文本：

从语料库（文本集合）收集二元组（相邻单词对）统计数据。
制作一个每个单词一个状态的马尔可夫链。为文本结尾保留特殊状态。
从状态/单词x跳转到y的概率是紧随x之后的单词y的概率，根据训练语料库中的相对二元词频率估计。
从随机单词 x 开始（可能由该单词作为语料库中句子的第一个单词出现的频率决定）。然后选择一个状态/单词y随机跳转，同时考虑y跟随x的概率（状态转换概率）。重复直到到达文本结尾。

如果你想从中得到一些半智能的东西，那么你最好的办法就是用大量精心收集的文本来训练它。 “lots”部分使其以高概率生成正确的句子（或看似合理的 IRC 语言）； “精心收集”部分意味着您可以控制它所谈论的内容。引入高阶马尔可夫链在这两个方面也有帮助，但需要更多的存储空间来存储必要的统计数据。您还可以研究诸如统计平滑之类的内容。

然而，让你的 IRC 机器人真正响应所说的内容比马尔可夫链需要更多的时间。可以通过对所说内容进行文本分类（又名主题识别）来完成，然后选择特定于域的马尔可夫链来生成文本。朴素贝叶斯是一种流行的主题发现模型。

Kernighan 和 Pike 在编程实践中探索马尔可夫链算法的各种实现策略。 Jurafsky 和 Martin 深入探讨了这些内容以及一般的自然语言生成，< em>语音和语言处理。