MySQL 中的 n 元语法计数

发布于 2024-12-05 21:21:01 字数 364 浏览 1 评论 0原文

我正在构建一个包含大约 10,000 条记录的 MySQL 数据库。每条记录将包含一个文本文档（大多数情况下是几页文本）。我想在整个数据库中进行各种 n 元语法计数。我已经用 Python 编写了算法，可以处理包含大量文本文件的目录，但要做到这一点，我需要从数据库中提取 10,000 个文本文件 - 这会产生性能问题。

我是 MySQL 的新手，所以我不确定它是否有任何内置功能可以进行 n-gram 分析，或者是否有好的插件可以做到这一点。请注意，在我的分析中，我需要至少达到 4 克（最好是 5 克），因此我见过的简单的 2 克插件在这里不起作用。我还需要能够在进行 n 元语法计数之前从文本文档中删除停用词。

社区有什么想法吗？

谢谢，

罗恩

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

墨落成白 2024-12-12 21:21:01

我的建议是使用专门的全文搜索索引程序，如 lucene/solr，它对此类事情有更丰富和可扩展的支持。它需要你学习一些知识来进行设置，但这听起来好像你想要在 MySQL 中难以自定义的级别上进行混乱。

回复收藏 0 原文

野の 2024-12-12 21:21:01

如果你真的想过早优化;)你可以将你的Python翻译成C，然后用thin包裹它mysql UDF 包装器代码。

但我强烈建议一次加载一个文档，然后在它们上运行 python 脚本来填充 mysql 的 n-gram 表。目前我对每个钉子的锤子是 Django。它的 ORM 使得与 mysql 表交互并优化这些交互变得轻而易举。我使用它在 python 中对必须返回大量数据的生产站点的数百万条记录数据库进行统计不到一秒钟。如果你发现比 mysql 更好的东西，比如 postgre，任何 python ORM 都会让你更容易地切换数据库。最好的部分是，有很多 python 和 django 工具可以监控应用程序性能的各个方面（python 执行、mysql 加载/保存、内存/交换）。这样你就可以解决正确的问题。可能是顺序批量 mysql 读取并不是减慢你速度的原因......