识别网页上物理地址的算法

发布于 2024-07-09 14:35:30 字数 76 浏览 8 评论 0原文

识别 HTML 页面上的结构化数据的最佳算法是什么？

例如，谷歌将识别电子邮件中的家庭/公司地址，并提供该地址的地图。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

書生途 2024-07-16 14:35:30

诸如 GATE 之类的命名实体提取框架至少解决了位置信息提取问题，在已知地点地名词典的协助下帮助解决常见问题。除非页面是从公共源机器生成的，否则您会发现正则表达式对于这项工作来说有点弱。

回复收藏 0 原文

老旧海报 2024-07-16 14:35:30

如果您有正确的标记（而不仅仅是页面中的文本），我同意上面的“美丽汤”建议。特别是，地址标签应该提供最容易实现的目标。另请查看 adr 微格式。如果前两个没有获取足够的信息或者我没有必要的数据来查找前两个，我只会使用正则表达式。

回复收藏 0 原文

慢慢从新开始 2024-07-16 14:35:30

如果您还必须处理国际地址，那么您将陷入头痛的境地。国际地址格式千差万别。

回复收藏 0 原文

路弥 2024-07-16 14:35:30

我猜谷歌会采取两步方法来解决这个问题（至少我会这么做）。首先，他们使用一些相当通用的搜索模式来挑选出可能是地址的所有内容，然后使用地图数据库查找该字符串并查看是否找到任何匹配项。如果他们这样做，则可能是一个地址，如果他们不这样做，则可能不是。如果您可以在代码中使用地图数据库，这可能会让您的生活更轻松。

除非您可以限制地址的地理位置，否则我猜想仅通过解析字符串就几乎不可能将其识别为地址，这仅仅是因为世界各地使用的地址格式存在巨大差异。

回复收藏 0 原文