检测网站地址的方法/哪个正则表达式?

发布于 2024-11-16 21:19:46 字数 149 浏览 7 评论 0原文

谁有一个好的概念,可以用解析器自动检测网站上的地址?

我想一些简单的事情,比如: “包含字母、数字,并且有 3 到 15 个单词”。

不幸的是,英国、美国、德国、西班牙的地址也不同 谁可以帮助我提供代码片段、正则表达式、想法?

谢谢你!

Who has a good concept to automatically detect adresses on websites with a parser?

I though about something simple like:
"contains letters, numbers and has between 3 and 15 words".

Unfortunately adresses are different in UK, US, Germany, Spain a.s.o.
Who could help me with code snippets, regexps, ideas?

thank you!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

绿萝 2024-11-23 21:19:46

我知道这是一个老问题,但我们可能已经解决了它,至少对于美国地址而言。我们编写了一个地址提取器来做到这一点。这不是一个简单的问题,并且仅使用正则表达式是行不通的。我们利用 REGEX 来查找特定类型的字符串,但也尽可能限制它以获得最佳候选字符串。一旦我们从输入中取出这些内容,就会根据我们的地址验证引擎对它们进行检查。 REGEX+validation 给出了非常好的结果。如果没有验证,这只是一个很好的猜测,但你无法知道什么时候是对的,什么时候是错的。

I know this is an old question but we may have solved it, at least for US addresses. We wrote an address extractor to do just that. It's not a simple problem and it doesn't work with just REGEX. We are utilizing REGEX to look for particular types of strings but also limiting it as much as possible to get the best candidate strings. Once we pull those out of the input, they are checked against our address validation engine. REGEX+validation gives a very good result. Without the validation, it's just a good guess but you can't know when you are right and when you are wrong.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文