- Day 1: Bower - 管理你的客户端依赖关系
- Day 2: AngularJS - 对 AngularJS 的初步认识
- Day 3: Flask - 使用 Python 和 OpenShift 进行即时 Web 开发
- Day 4:PredictionIO - 如何创建一个博客推荐器
- Day 5: GruntJS - 重复乏味的工作总会有人做(反正我不做)
- Day 6:在 Java 虚拟机上使用 Grails 进行快速 Web 开发
- Day 7: GruntJS 在线重载 提升生产率至新境界
- Day 8: Harp.JS - 现代静态 web 服务器
- Day 9: TextBlob - 对文本进行情感分析
- Day 10: PhoneGap - 开发手机应用如此简单
- Day 11: AeroGear 推送服务器:使应用的通知推送变得简单
- Day 12: OpenCV - Java 开发者的人脸检测
- Day 13: Dropwizard - 非常棒的 Java REST 服务器栈
- Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)
- Day 15:Meteor - 从零开始创建一个 Web 应用
- Day 16: Goose Extractor - 好用的文章提取工具
- Day 17: 使用 JBoss Forge 和 OpenShift 构建部署 JAVA EE 6 应用
- Day 18: BoilerPipe - Java 开发者的文章提取工具
- Day 19: EmberJS 入门指南
- Day 20: 斯坦福 CoreNLP - 用 Java 给 Twitter 进行情感分析
- Day 21:Docker 入门教程
- Day 22: 使用 Spring、MongoDB 和 AngularJS 开发单页面应用
- Day 23:使用 TimelineJS 构建精美的时间轴
- Day 24: 使用 Yeoman 自动构建 Ember 项目
- Day 25: 联合 Tornado、MongoDB 和 AngularJS 进行应用开发
- Day 26: TogetherJS - 让我们一起来编程!
- Day 27: Restify - 在 Node.js 中构建正确的 REST Web 服务
- Day 28: OpenShift 的 Eclipse 集成
- Day 29:编写你的第一个 Google Chrome 扩展程序
- Day 30: Play Framework - Java 开发者的梦想框架
Day 20: 斯坦福 CoreNLP - 用 Java 给 Twitter 进行情感分析
今天学习如何使用斯坦福 CoreNLP Java API 来进行 情感分析(sentiment analysis) 。前几天,我还写了一篇关于如何使用 TextBlob API 在 Python 里做情感分析 ,我已经开发了一个应用程序,会筛选出给定关键词的推文(tweets) 的情感,现在看看它能做什么。
应用
该演示应用程序在 OpenShift http://sentiments-t20.rhcloud.com/ 运行,它有两个功能:
- 第一个功能是,如果你给定 Twitter 搜索条件的列表会,它会显示最近 20 推关于给定的搜索词的情绪。必须要勾选下图所示的复选框来启用此功能,(情感)积极的推文将显示绿色,而消极的推文是红色的。
- 第二个功能是做一些文字上的情感分析,如下图
什么是斯坦福 CoreNLP?
斯坦福 CoreNLP 是一个 Java 自然语言分析库,它集成了所有的自然语言处理工具,包括词性的终端(POS)标注器,命名实体识别(NER),分析器,对指代消解系统,以及情感分析工具,并提供英语分析的模型文件。
准备
- 基本的 Java 知识是必需的,安装最新的 Java 开发工具包(JDK ),可以是 OpenJDK 7 或 Oracle JDK 7 。
- 从官方网站下载 斯坦福 CoreNLP 包 。
- 注册一个 OpenShift 帐户 ,它是完全免费的,可以分配给每个用户 1.5 GB 的内存和 3 GB 的磁盘空间。
- 安装 RHC 客户端工具,需要有 ruby 1.8.7 或更新的版本,如果已经有 ruby gem,输入
sudo gem install rhc
,确保它是最新版本。要更新 RHC 的话,执行命令sudo gem update rhc
,如需其他协助安装 RHC 命令行工具,请参阅该页面: https://www.openshift.com/developers/rhc-client-tools-install - 通过
rhc setup
命令设置您的 OpenShift 帐户,此命令将帮助你创建一个命名空间,并上传你的 SSH keys 到 OpenShift 服务器。
Github 仓库
今天的演示应用程序的代码可以在 GitHub 找到: day20-stanford-sentiment-analysis-demo
在两分钟内启动并运行 SentimentsApp
开始创建应用程序,名称为 sentimentsapp
。
$ rhc create-app sentimentsapp jbosseap --from-code=https://github.com/shekhargulati/day20-stanford-sentiment-analysis-demo.git
还可以使用如下指令:
$ rhc create-app sentimentsapp jbosseap -g medium --from-code=https://github.com/shekhargulati/day20-stanford-sentiment-analysis-demo.git
这将为应用程序创建一个容器,设置所有需要的 SELinux 政策和 cgroup 的配置,OpenShift 也将创建一个私人 git 仓库并克隆到本地。然后,它会复制版本库到本地系统。最后,OpenShift 会给外界提供一个 DNS,该应用程序将在 http://newsapp- {domain-name}.rhcloud.com/ 下可以访问(将 domain-name 更换为自己的域名)。
该应用程序还需要对应 Twitter 应用程序的 4 个环境变量,通过去 https://dev.twitter.com/apps/new 创建一个新的 Twitter 应用程序,然后创建如下所示的 4 个环境变量。
$ rhc env set TWITTER_OAUTH_ACCESS_TOKEN=<please enter value> -a sentimentsapp
$ rhc env set TWITTER_OAUTH_ACCESS_TOKEN_SECRET=<please enter value> -a sentimentsapp
$rhc env set TWITTER_OAUTH_CONSUMER_KEY=<please enter value> -a sentimentsapp
$rhc env set TWITTER_OAUTH_CONSUMER_SECRET=<please enter value> -a sentimentsapp
重新启动应用程序,以确保服务器可以读取环境变量。
$ rhc restart-app --app sentimentsapp
开始在 pom.xml
中为 stanford-corenlp
和 twitter4j
增加 Maven 的依赖关系,使用 3.3.0 版本斯坦福 corenlp 作为情感分析的 API。
<dependency>
<groupId>edu.stanford.nlp</groupId>
<artifactId>stanford-corenlp</artifactId>
<version>3.3.0</version>
</dependency>
<dependency>
<groupId>org.twitter4j</groupId>
<artifactId>twitter4j-core</artifactId>
<version>[3.0,)</version>
</dependency>
该 twitter4j 依赖关系需要 Twitter 搜索。
通过更新 pom.xml
文件里的几个特性将 Maven 项目更新到 Java 7:
<maven.compiler.source>1.7</maven.compiler.source>
<maven.compiler.target>1.7</maven.compiler.target>
现在就可以更新 Maven 项目了(右键单击>Maven>更新项目)。
启用 CDI
使用 CDI 来进行依赖注入。CDI、上下文和依赖注入是一个 Java EE 6 规范,能够使依赖注入在 Java EE 6 的项目中。
在 src/main/webapp/WEB-INF
文件夹下建一个名为 beans.xml
中一个新的 XML 文件,启动 CDI
<beans xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://java.sun.com/xml/ns/javaee http://java.sun.com/xml/ns/javaee/beans_1_0.xsd">
</beans>
搜索 Twitter 的关键字
创建了一个新的类 TwitterSearch
,它使用 Twitter4J API 来搜索 Twitter 关键字。该 API 需要的 Twitter 应用程序配置参数,使用的环境变量得到这个值,而不是硬编码。
import java.util.Collections;
import java.util.List;
import twitter4j.Query;
import twitter4j.QueryResult;
import twitter4j.Status;
import twitter4j.Twitter;
import twitter4j.TwitterException;
import twitter4j.TwitterFactory;
import twitter4j.conf.ConfigurationBuilder;
public class TwitterSearch {
public List<Status> search(String keyword) {
ConfigurationBuilder cb = new ConfigurationBuilder();
cb.setDebugEnabled(true).setOAuthConsumerKey(System.getenv("TWITTER_OAUTH_CONSUMER_KEY"))
.setOAuthConsumerSecret(System.getenv("TWITTER_OAUTH_CONSUMER_SECRET"))
.setOAuthAccessToken(System.getenv("TWITTER_OAUTH_ACCESS_TOKEN"))
.setOAuthAccessTokenSecret(System.getenv("TWITTER_OAUTH_ACCESS_TOKEN_SECRET"));
TwitterFactory tf = new TwitterFactory(cb.build());
Twitter twitter = tf.getInstance();
Query query = new Query(keyword + " -filter:retweets -filter:links -filter:replies -filter:images");
query.setCount(20);
query.setLocale("en");
query.setLang("en");;
try {
QueryResult queryResult = twitter.search(query);
return queryResult.getTweets();
} catch (TwitterException e) {
// ignore
e.printStackTrace();
}
return Collections.emptyList();
}
}
在上面的代码中,筛选了 Twitter 的搜索结果,以确保没有转推(retweet)、或带链接的推文、或有图片的推文,这样做的原因是为了确保我们得到的是有文字的推。
情感分析器(SentimentAnalyzer)
创建了一个叫 SentimentAnalyzer
的类,这个类就是对某一条推文进行情感分析的。
public class SentimentAnalyzer {
public TweetWithSentiment findSentiment(String line) {
Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, parse, sentiment");
StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
int mainSentiment = 0;
if (line != null && line.length() > 0) {
int longest = 0;
Annotation annotation = pipeline.process(line);
for (CoreMap sentence : annotation.get(CoreAnnotations.SentencesAnnotation.class)) {
Tree tree = sentence.get(SentimentCoreAnnotations.AnnotatedTree.class);
int sentiment = RNNCoreAnnotations.getPredictedClass(tree);
String partText = sentence.toString();
if (partText.length() > longest) {
mainSentiment = sentiment;
longest = partText.length();
}
}
}
if (mainSentiment == 2 || mainSentiment > 4 || mainSentiment < 0) {
return null;
}
TweetWithSentiment tweetWithSentiment = new TweetWithSentiment(line, toCss(mainSentiment));
return tweetWithSentiment;
}
}
复制 englishPCFG.ser.gz
和 sentiment.ser.gz
模型到 src/main/resources/edu/stanford/nlp/models/lexparser
和 src/main/resources/edu/stanford/nlp/models/sentiment
文件夹下。
创建 SentimentsResource
最后,创建了 JAX-RS 资源类。
public class SentimentsResource {
@Inject
private SentimentAnalyzer sentimentAnalyzer;
@Inject
private TwitterSearch twitterSearch;
@GET
@Produces(value = MediaType.APPLICATION_JSON)
public List<Result> sentiments(@QueryParam("searchKeywords") String searchKeywords) {
List<Result> results = new ArrayList<>();
if (searchKeywords == null || searchKeywords.length() == 0) {
return results;
}
Set<String> keywords = new HashSet<>();
for (String keyword : searchKeywords.split(",")) {
keywords.add(keyword.trim().toLowerCase());
}
if (keywords.size() > 3) {
keywords = new HashSet<>(new ArrayList<>(keywords).subList(0, 3));
}
for (String keyword : keywords) {
List<Status> statuses = twitterSearch.search(keyword);
System.out.println("Found statuses ... " + statuses.size());
List<TweetWithSentiment> sentiments = new ArrayList<>();
for (Status status : statuses) {
TweetWithSentiment tweetWithSentiment = sentimentAnalyzer.findSentiment(status.getText());
if (tweetWithSentiment != null) {
sentiments.add(tweetWithSentiment);
}
}
Result result = new Result(keyword, sentiments);
results.add(result);
}
return results;
}
}
上述代码执行以下操作:
- 检查搜索关键字(searchkeywords) 是否“不是无效且不为空”,然后将其拆分到一个数组里,只考虑三个搜索条件。
- 然后对每一个搜索条件找到对应的推文,并做情感分析。
- 最后将返回结果列表给用户。
今天就是这些,欢迎反馈。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论