从文本字符串中提取国家/地区名称

发布于 2024-10-01 17:08:49 字数 873 浏览 10 评论 0原文

我正在考虑编写一个混搭应用程序，该应用程序将从 Reddit 子版块中获取提交标题，并尝试根据它们可能相关的位置将它们绘制在地图上。稍后我还想添加 Twitter 等内容。

我计划中遇到的困难是如何从标题中检测出最有可能是相关的国家/地区。我的第一个猜测是拥有一个国家/地区列表及其匹配排列（例如“英语”匹配“英格兰”等），并检查文本中这些项目的出现情况。然而，这可能会非常慢，并且需要我列出每个国家/地区的所有格*名称。

我计划在Python中执行此操作（以便学习使用它），所以我想知道是否有a）一个库可以执行此操作（并且我可以从中学习）或b）一种更明显的方法这？

为了让大家了解我正在处理的输入类型，这里有一些样本以及我试图从中得到的内容：

“好吧，他们不能逮捕我们所有人 - 对英国法律体系竖起中指（图）”
- 关键字：英国（英国）
“民意调查：维基解密阿桑奇领先时代‘年度人物’——阿桑奇，一位澳大利亚人，他的发布已成为五角大楼的眼中钉。截至周五，有关伊拉克和阿富汗战争的美国秘密军事文件已收到 21,736 票。”
- 关键字：阿富汗、伊拉克、[澳大利亚]（阿富汗、伊拉克、[澳大利亚]）- 澳大利亚很难找出来，因为基本上不相关，但这对于我的目的来说是可以接受的
“网络攻击”诺贝尔和平奖网站上线，保持优雅。”
- 关键字：中国（中国）
“一位犹太外科医生在发现病人手臂上有纳粹纹身后，拒绝为病人做手术，并走出手术室。”
- 关键字：无 - 适合我的目的

* 这可能是错误的词

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

像你 2024-10-08 17:08:49

您可以查看 Yahoo!地点制作工具 API

Placemaker 提供地理丰富
的极其显着的比例
具有地理分布的网页内容
相关但不具有地理意义
可发现的。提供自由形式
文本，服务识别地点
文本中提到的，消除歧义
地点，并返回唯一标识符
（WOEID）每个，以及
有关多少次的信息
文中找到的地方，以及在哪里
在文本中找到了。 WOEID
服务返回可以通过
访问 Yahoo! 的 GeoPlanet™ API 以获取更多信息
地理丰富和发现。