使用 Python 在许多文档中搜索许多表达式

发布于 2024-10-07 07:12:03 字数 300 浏览 4 评论 0原文

我经常需要在许多文档（百万+）中搜索许多单词（1000+）。我需要匹配单词的位置（如果匹配）。

那么慢的伪代码版本是

for text in documents:
     for word in words:
             position = search(word, text)
             if position:
                  print word, position

有没有快速的Python模块可以做到这一点？或者我应该自己实施一些东西？

原文

I often have to search many words (1000+) in many documents (million+). I need position of matched word (if matched).

So slow pseudo version of code is

for text in documents:
     for word in words:
             position = search(word, text)
             if position:
                  print word, position

Is there any fast Python module for doing this? Or should I implement something myself?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

苦行僧 2024-10-14 07:12:03

要快速精确文本、多关键字搜索，请尝试 acora - http://pypi.python.org /pypi/acora/1.4

如果你想要一些额外的东西 - 结果相关性、近似匹配、词根等，Whoosh 可能会更好 - http://pypi.python.org/pypi/Whoosh/1.4.1

我不知道扩展到数百万个文档的效果如何，但它很快就会发现！

回复收藏 0 原文

无妨# 2024-10-14 07:12:03

grep 有什么问题吗？

那么你必须使用Python吗？怎么样：

import subprocess

subprocess.Popen('grep <pattern> <file>')

这太疯狂了。但是嘿！您正在使用 python ;-)

What's wrong with grep?

So you have to use python? How about:

import subprocess

subprocess.Popen('grep <pattern> <file>')

which is insane. But hey! You are using python ;-)

回复收藏 0 原文

颜 2024-10-14 07:12:03

假设 documents 是一个字符串列表，您可以使用 text.index(word) 查找第一个匹配项，并使用 text.count(word)找出出现的总数。您的伪代码似乎假设单词只会出现一次，因此 text.count(word) 可能是不必要的。

回复收藏 0 原文

~没有更多了~

关于作者

真心难拥有

暂无简介

0 文章

0 评论

25 人气

关注发私信

巷子口的你

文章 0 评论 0

关注

微信用户

文章 0 评论 0

关注

神妖

文章 0 评论 0

关注

鞋纸虽美，但不合脚ㄋ〞

文章 0 评论 0

关注

7460852697

文章 0 评论 0

关注

ligengkai

文章 0 评论 0

友情链接

文江博客

使用 Python 在许多文档中搜索许多表达式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

巷子口的你

微信用户

神妖

鞋纸虽美，但不合脚ㄋ〞

7460852697

ligengkai

友情链接

使用 Python 在许多文档中搜索许多表达式

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

巷子口的你

微信用户

神妖

鞋纸虽美，但不合脚ㄋ〞

7460852697

ligengkai

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。