使用 Java 从推文文本中查找城市、国家、公司名称
我正在尝试构建一个示例应用程序,我想在其中解析一条推文并找到城市名称, 该推文中的国家名称和公司名称。
执行此操作的愚蠢方法是维护列表 国家、城市和公司名称的名称,并在推文文本中查找这些名称,但是 每次我想添加新内容时,方法都需要改变。
是否有一个库可以解析字符串并为我提供此信息?或者你能建议我一种我应该采取的方法吗?
I am trying to build a sample app where in I want to parse a tweet and find the city name,
country name and company name in that tweet.
The dumb way to do this can be maintaining list
of names of country, city and company names and finding those in a tweet text but that
approach will require change every time I want to add something new.
Is there a library which can parser a string and give me this information? Or can you suggest me a way that I should take?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
Apache Stanbol
的 Enhancer 组件提供 NER 服务及其 RESTful API。您只需将推文内容提供给 Stanbol,它就会为您提供增强功能,即人物、地点、组织作为增强功能。您可以尝试演示服务器:
http://dev.iks-project.eu:8081/engines
http://fise.demo.nuxeo.com/engines
Enhancer component of
Apache Stanbol
provides NER service with its RESTful API. You can simply give the tweet content to Stanbol and it gives you the enhancement i.e persons, places, organizations as enhancements.You can try the demo servers:
http://dev.iks-project.eu:8081/engines
http://fise.demo.nuxeo.com/engines
您正在寻找命名实体识别。
You are looking for Named Entity Recognition.
假设所有推文都具有相同的结构,并且您想要的信息不在块文本中,您可以编写一个简单的解析器来获取信息。
Assuming the tweets all have the same structure and the information you want is not in a block text you could write a simple parser to get the information.