识别文本中的地理位置

发布于 2024-07-30 01:16:52 字数 284 浏览 8 评论 0原文

已经做了哪些工作来确定特定字符串是否属于某个地理位置？例如：

'troy, ny'
'austin, texas'
'hotels in las vegas, nv'

我想我所期待的是一种统计方法，它可以在一定程度上确信前两个是位置。最后一个可能需要一种启发式方法来获取“%s，%s”，然后使用相同的技术。我特别寻找不太依赖“in”命题的方法，因为它不是一个完全明确或始终可用的位置指示器。

谁能给我指出一些方法、论文或现有的实用程序？谢谢！

原文

What kind of work has been done to determine whether a specific string pertains to a geographical location? For example:

'troy, ny'
'austin, texas'
'hotels in las vegas, nv'

I guess what I'm sort of expecting is a statistical approach that gives a degree of confidence that the first two are locations. The last one would probably require a heuristic which grabs "%s, %s" and then uses the same technique. I'm specifically looking for approaches that don't rely too heavily on the proposition 'in', seeing as it's not an entirely unambiguous or consistently available indicator of location.

Can anyone point me to approaches, papers, or existing utilities? Thanks!

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

怎樣才叫好 2024-08-06 01:16:52

您描述的问题通常称为地理查询解析或更一般的地理信息检索。

最近在 CLEF 2007 上有一项关于执行此操作的任务 (http://www .uni-hildesheim.de/geoclef/2007/Query-Parsing.htm）。获胜团队使用了基于规则的语法，这与您可能不想要的类似。 www2009 上的另一篇论文讨论了 GeoParser：http://www2009.eprints.org/239/。

CIKM 2007 上也有一些关于地理信息检索的论文： http://www .geo.unizh.ch/~rsp/gir07/accepted.html

我不知道有任何开源软件可以做到这一点，但它可能会捆绑到像 Lemur 这样的搜索引擎中。

回复收藏 0 原文

八巷 2024-08-06 01:16:52

Everyblock.com 采用了一种非常有趣的方法，重点关注如何用英语表达位置——它们基本上使用一些复杂且广泛的正则表达式，这些正则表达式现在已经开源。他们的应用程序旨在扫描新闻文章、评论和各种公共数据源，并将它们与特定位置相关联，而且效果很好。像“旧金山 20 街和瓦伦西亚街东北角的建筑物发生火灾”这样的表达方式的地理编码非常准确。您可以在此处研究源代码。您可能想要的特定部分是 ebpub/ebpub/geocoder/base.py，位于 ebpub 下载中，以及它周围的所有内容，例如从 SmartGeocoder 类开始，向后工作。

回复收藏 0 原文