测试字符串是否包含数千个子字符串之一

发布于 2024-12-06 01:12:07 字数 249 浏览 1 评论 0原文

我将运行实时 Twitter 数据并尝试提取提及电影标题等内容的推文。假设我有一个大约 7000 个硬编码电影标题的列表，我想查看，那么选择相关推文的最佳方法是什么？这个项目还处于起步阶段，所以我愿意接受任何解决方案的研究（即与语言无关）。任何帮助将不胜感激。

更新：我很好奇是否有人对 Yahoo! 有何见解？ Placemaker API，解决了这个问题。它可以接受文本字符串并返回其中提到的所有位置的地理编码 JSON 结果。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

仅冇旳回忆 2024-12-13 01:12:07

您可以尝试 Wu 和 Manber 的多模式搜索的快速算法。

多模式匹配问题是病毒扫描的核心，因此您可能会从扫描器实现中寻求灵感。例如，ClamAV 是开源的，并且已经发表了一些描述其的论文算法：

Lin、Lin 和 Lai：混合算法用于病毒扫描的反向散列和自动跟踪算法（Wu-Manber 的变体；该论文位于 IEEE 付费墙后面）。

Cha、Moraru 等人：SplitScreen：实现高效的分布式恶意软件检测

回复收藏 0 原文

音栖息无 2024-12-13 01:12:07

如果您使用编译正则表达式，它应该相当快。也许尤其是当您在一个表达式中放置很多标题时。

回复收藏 0 原文

欲拥i 2024-12-13 01:12:07

在长字符序列中有效搜索多个术语需要专门的算法，以避免在每个位置测试每个术语。

但由于听起来您有具有已知模式的短字符串，因此您应该能够使用相当简单的东西。将您关心的标题集存储在哈希表或树中。使用正则表达式从每条推文中解析出“string1”和“string2”，并测试它们是否包含在集合中。

回复收藏 0 原文

喵星人汪星人 2024-12-13 01:12:07

根据埃里克森的建议，最可行的搜索是（在您的示例中为“优于”），然后检查 7,000 个术语之一。您可以通过创建 7,000 个“[电影] 优于”搜索来缩小搜索范围，然后手动过滤第二部电影，但您可能会点击搜索速率限制很快。

您可以使用 Solr 等专用搜索服务而不是使用文本解析来加快搜索速度。您也许可以使用一些自然语言处理服务（OpenCalais？）快速提取标题，但这将是更适合批处理。

回复收藏 0 原文

听闻余生 2024-12-13 01:12:07

为了同时搜索大量可能的目标，Rabin-Karp 算法通常很有用。

回复收藏 0 原文

~没有更多了~

关于作者

心如狂蝶

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

测试字符串是否包含数千个子字符串之一

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

测试字符串是否包含数千个子字符串之一

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。