当前位置：文江博客话题详情

regex extract lookbehind

使用正则表达式提取部分文本

发布于 2024-07-27 01:04:46 字数 415 浏览 11 评论 0原文

我想使用正则表达式提取文本的一部分。例如，我有一个地址，只想返回号码和街道并排除其余部分：

2222 Main at King Edward Vancouver BC CA

但地址的格式大多数时候都不同。我尝试使用 Lookbehind Regex 并得到了这个表达式：

.*?(?=\w* \w* \w{2}$)

上面的表达式很好地处理了上面的示例，但是一旦逗号进入文本，邮政编码可以是 6 个字符的字符串或两个 3 个字符的字符串，它就会变得太混乱中间有一个空格等等...

除了lookbehind 正则表达式之外，还有其他更优雅的方式来提取文本的一部分吗？

任何建议或另一个方向的观点都将不胜感激。

谢谢！

I would like to extract portion of a text using a regular expression. So for example, I have an address and want to return just the number and streets and exclude the rest:

2222 Main at King Edward Vancouver BC CA

But the addresses varies in format most of the time. I tried using Lookbehind Regex and came out with this expression:

.*?(?=\w* \w* \w{2}$)

The above expressions handles the above example nicely but then it gets way too messy as soon as commas come into the text, postal codes which can be a 6 character string or two 3 character strings with a space in the middle, etc...

Is there any more elegant way of extracting a portion of text other than a lookbehind regex?

Any suggestion or a point in another direction is greatly appreciated.

Thanks!

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

明月夜 2024-08-03 01:04:46

正则表达式适用于遵循某种模式的规则数据。因此，如果您的数据完全随机，则不，没有优雅的方法可以使用正则表达式来执行此操作。

另一方面，如果您知道想要什么值，您可能可以编写一些简单的正则表达式，然后在每个字符串上测试它们。

前任。
regex1= 地址# 抓取器，regex2 = 街道类型抓取器，regex3 = 名称抓取器。

尝试将 string1 与 regex1、regex2、最后是 regex3 进行匹配。转到下一个字符串。

回复收藏 0 原文

烂人 2024-08-03 01:04:46

好吧，我想我会把我的帽子扔进戒指：

.*(?=,? ([a-zA-Z]+,?\s){3}([\d-]*\s) ?)

并且您可能需要将 ^ 或 \d+ 放在前面以达到良好的效果
我没有费心指定邮政编码的长度......只是其中任意数量的字符连字符。

到目前为止，它适用于这些输入以及城市/州/国家区域内昏迷的变化：

2222 Main at King Edward 温哥华, BC, CA, 333-333
555 道路和街道地点 CA US 95000
2222 Main at King Edward Vancouver BC CA 333
美国加利福尼亚州 555 号道路和街道

计数末尾有三个单词城市、州和国家，但除此之外，就像 ryansstack 所说的那样，如果它是随机的，那就行不通。如果这个城市是像纽约这样的两个词，那就不行了。是的...正则表达式不是这个工具。

顺便说一句：在 regexhero.net 上测试

回复收藏 0 原文

柠檬 2024-08-03 01:04:46

我可以想到两种方法可以做到这一点

1）如果您知道地址之后的数据的“其余”恰好是2个字段，即BC和CA，您可以使用空格作为分隔符对字符串进行拆分，删除最后 2 项。

2）对分隔符/[AZ][AZ]/进行分割并将结果存储在数组中。然后打印出数组（前提是地址不包含2个或更多大写字母）

回复收藏 0 原文

~没有更多了~

关于作者

酒浓于脸红

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

Promise

文章 0 评论 0

qq_lbRlsh

文章 0 评论 0

待＂谢繁草

文章 0 评论 0

yy2010hell

文章 0 评论 0

漫无边际

文章 0 评论 0

傲娇萝莉攻

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文