当前位置：文江博客话题详情

标签云数据后端

发布于 2024-08-28 22:26:21 字数 361 浏览 3 评论 0原文

我希望能够从来自任意数量不同来源的自由文本生成标签云。为了清楚起见，我不是在谈论一旦发现关键标签/短语如何显示标签云，我希望能够发现有意义的短语本身......最好在 PHP/MySQL 堆栈上。

如果我必须自己这样做，我会首先为单词/短语建立某种索引，为任何单词/短语提供“正常”频率。例如，“君士坦丁堡”平均每 1,000,000 个单词出现一次（正常频率“0.000001”）。然后，当我分析文本正文时，我会找到各个单词/短语（另一个挑战！），找到输入中每个单词/短语的频率，并根据预期频率进行测量。与预期频率比率最高的单词在云端会获得更高的优先级。

我愿意相信其他人已经做到了这一点，比我希望的要好得多，但如果我能找到它，我就该死了。

有什么建议吗？？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

眼泪淡了忧伤 2024-09-04 22:26:21

您需要一个由全文搜索引擎使用的倒排索引。像 Lucene 或 Xapian 这样的文本搜索库应该会有所帮助，许多这样的库都有 PHP 绑定。

回复收藏 0 原文

~没有更多了~

关于作者

本王不退位尔等都是臣

暂无简介

0 文章

0 评论

615 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

linfzu01

文章 0 评论 0

§对你不离不弃

文章 0 评论 0

可遇━不可求

文章 0 评论 0

枕梦

文章 0 评论 0

qq_3LFa8Q

文章 0 评论 0

JP

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文