当前位置：文江博客话题详情

正则表达式搜索引擎

发布于 2024-10-10 02:37:31 字数 1536 浏览 0 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夜空下最亮的亮点 2024-10-17 02:37:31

Google 代码搜索允许您使用正则表达式进行搜索。

据我所知，不存在这样的用于一般搜索的搜索引擎。

回复收藏 0 原文

江城子 2024-10-17 02:37:31

正则表达式存在一些问题，目前禁止在现实场景中使用它们。最紧迫的是整个缓存的互联网必须与您的正则表达式相匹配，这将占用大量的计算资源；索引在正则表达式上下文中似乎几乎没有用处，因为正则表达式可能未绑定（/fo*bar/）。

回复收藏 0 原文

难忘№最初的完美 2024-10-17 02:37:31

我没有具体的引擎可以推荐。

但是，如果您可以使用正则表达式语法的子集，搜索引擎可以存储附加标记以有效匹配相当复杂的表达式。 Solr/Lucene 允许自定义标记化，其中相同的单词可以生成多个标记并具有不同的规则集。

我将以我的名字为例：“马克标记该位置。”

不区分大小写，带词干：(mark, mark, spot)

区分大小写，不带词干：(Mark,marks,spot)

区分大小写，带 NLP 同义词库扩展：( [Mark, Marc], [mark, indicates, to-point], [点，位置，位置，信标，坐标]）

现在正在朝着您的问题发展，不区分大小写，词干提取，重复数据删除，自动完成前缀匹配：（[m，ma，mar，mark]，[s，sp，spo，spot]）

如果您想要“子字符串”样式匹配，则为： ( [m, ma, mar, mark, a, ar, ark, r, rk, k], [s, sp, spo, spot, p, po, pot , o, ot, t] )

单个搜索索引包含所有这些不同形式的标记，并选择用于每种类型搜索的标记。

让我们尝试使用带有文字标记的正则表达式样式的单词“Missippi”：[ m, m?, m+, i, i?, i+, s, ss, s+, ss+ ... ] 等。

实际规则取决于正则表达式子集，但希望模式变得更加清晰。您可以进一步扩展以匹配其他正则表达式片段，然后使用短语搜索的形式来查找匹配项。

当然，索引会很大，但可能是值得的，具体取决于项目的要求。您还需要一个查询解析器和应用程序逻辑。

我意识到如果你正在寻找一个封闭式发动机，这并不能做到这一点，但从理论上讲，这就是我的处理方法（假设这确实是一个要求！）。如果有人想要的只是子字符串匹配和灵活的通配符匹配，那么索引中的标记就可以少得多。

就罐装应用程序而言，您可以查看用于源代码索引的 OpenGrok，它不是完整的正则表达式，但可以很好地理解源代码。

回复收藏 0 原文

冰雪之触 2024-10-17 02:37:31

如果正则表达式占用太多资源，为什么不按 cputime 对其使用进行收费，而不是使其完全不可用？我确信有些人会付费并使用它（当然会提供收费解释，从碳足迹和 CPU 资源方面进行解释）。 Google 在其搜索中确实支持扩展 * *go 或 go* 或 intitle:"*go" 这里是：http://www.hackcollege.com/blog/ 2011/11/23/infographic-get-more-out-of-google.html

回复收藏 0 原文

何以心动 2024-10-17 02:37:31

Russ Cox 撰写的一篇关于三元组索引正则表达式搜索的非常好的文章

http://swtch.com /~rsc/regexp/regexp4.html

回复收藏 0 原文

一城柳絮吹成雪 2024-10-17 02:37:31

http://www.google.com/codesearch 已关闭...

正则表达式搜索需要花费大量时间资源，因此流行的搜索引擎无法承受。

回复收藏 0 原文

病女 2024-10-17 02:37:31

Globalogiq 有一个 HTML 源代码搜索，您可以在其中使用正则表达式进行搜索。但它不是免费的。

回复收藏 0 原文

~没有更多了~

关于作者

执手闯天涯

暂无简介

0 文章

0 评论

481 人气

关注发私信

友情链接

文江博客

正则表达式搜索引擎

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（7）

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

正则表达式搜索引擎

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（7）

关于作者

相关话题

热门标签

推荐作者

lioqio

Single

禾厶谷欠

alipaysp_2zg8elfGgC

qq_N6d4X7

放低过去

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。