构建一个更真实的随机词生成器？

发布于 2024-11-07 02:34:56 字数 629 浏览 6 评论 0原文

我见过很多使用马尔可夫链根据源数据生成随机单词的示例，但它们对我来说常常显得有点过于机械和抽象。我正在努力开发一种更好的。

我认为部分问题在于它们完全依赖于成对的整体统计出现，而忽略了单词以某种方式开始和结束的趋势。例如，如果您使用前 1000 个婴儿名字作为源数据，则字母 J 总体上相对较少，但它是名字开头的第二个最常见的字母。或者，如果您使用拉丁语源数据，像 -um 和 -us 这样的词尾是常见的词尾，但如果您认为所有词对都相同，则就不那么常见了。

因此，我基本上试图组合一个基于马尔可夫链的单词生成器，该生成器考虑了源数据中单词开始和结束的方式。

从概念上讲，这对我来说是有意义的，但我无法弄清楚如何从软件角度实现这一点。我正在尝试组合一个小型 PHP 工具，允许您放入源数据（例如，1000 个单词的列表），然后从中生成各种具有真实开头、中间和结尾的随机单词。（与大多数基于马尔可夫的单词生成器相反，它们仅基于整体对的统计出现情况。）

如果可能的话，我还想使用由源数据确定的单词长度来执行此操作；即，随机生成的字的长度细分应该与源数据的长度细分大致相同。

任何想法将不胜感激！谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

长安忆 2024-11-14 02:34:56

如果您将“单词之间的空格”视为一个符号，那么关于不尊重常见开头和结尾的部分实际上并不正确 - 常见开头在“单词之间的空格”之后将具有高频率，而常见结尾将在“空格”之前具有高频率言语之间”。正确的单词长度或多或少也会自然地解决——在转换为“单词之间的空格”符号之前输出的平均字母数应该等于训练数据中每个单词的平均字母数，尽管有些东西我的内心深处告诉我，分布可能已关闭。

回复收藏 0 原文

~没有更多了~