- Day 1: Bower - 管理你的客户端依赖关系
- Day 2: AngularJS - 对 AngularJS 的初步认识
- Day 3: Flask - 使用 Python 和 OpenShift 进行即时 Web 开发
- Day 4:PredictionIO - 如何创建一个博客推荐器
- Day 5: GruntJS - 重复乏味的工作总会有人做(反正我不做)
- Day 6:在 Java 虚拟机上使用 Grails 进行快速 Web 开发
- Day 7: GruntJS 在线重载 提升生产率至新境界
- Day 8: Harp.JS - 现代静态 web 服务器
- Day 9: TextBlob - 对文本进行情感分析
- Day 10: PhoneGap - 开发手机应用如此简单
- Day 11: AeroGear 推送服务器:使应用的通知推送变得简单
- Day 12: OpenCV - Java 开发者的人脸检测
- Day 13: Dropwizard - 非常棒的 Java REST 服务器栈
- Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)
- Day 15:Meteor - 从零开始创建一个 Web 应用
- Day 16: Goose Extractor - 好用的文章提取工具
- Day 17: 使用 JBoss Forge 和 OpenShift 构建部署 JAVA EE 6 应用
- Day 18: BoilerPipe - Java 开发者的文章提取工具
- Day 19: EmberJS 入门指南
- Day 20: 斯坦福 CoreNLP - 用 Java 给 Twitter 进行情感分析
- Day 21:Docker 入门教程
- Day 22: 使用 Spring、MongoDB 和 AngularJS 开发单页面应用
- Day 23:使用 TimelineJS 构建精美的时间轴
- Day 24: 使用 Yeoman 自动构建 Ember 项目
- Day 25: 联合 Tornado、MongoDB 和 AngularJS 进行应用开发
- Day 26: TogetherJS - 让我们一起来编程!
- Day 27: Restify - 在 Node.js 中构建正确的 REST Web 服务
- Day 28: OpenShift 的 Eclipse 集成
- Day 29:编写你的第一个 Google Chrome 扩展程序
- Day 30: Play Framework - Java 开发者的梦想框架
Day 18: BoilerPipe - Java 开发者的文章提取工具
今天我决定学习如何使用 Java 做网页链接的文本和图像提取。在大多数内容发现网站上(如 Prismatic )这是一个非常常见的需求,今天就是学习如何使用一个名为 boilerpipe 的 Java 库来完成这个任务。
准备
- 基本的 Java 知识是必需的,安装最新的 Java 开发工具包(JDK ),可以是 OpenJDK 7 或 Oracle JDK 7 。
- 注册一个 OpenShift 帐户 ,它是完全免费的,可以分配给每个用户 1.5 GB 的内存和 3 GB 的磁盘空间。
- 安装 RHC 客户端工具 ,需要有 ruby 1.8.7 或更新的版本,如果已经有 ruby gem,输入
sudo gem install rhc
,确保它是最新版本。要更新 RHC 的话,执行命令sudo gem update rhc
,如需其他协助安装 RHC 命令行工具,请参阅该页面: https://www.openshift.com/developers/rhc-client-tools-install - 通过
rhc setup
命令设置您的 OpenShift 帐户,此命令将帮助你创建一个命名空间,并上传你的 SSH keys 到 OpenShift 服务器。
第 1 步:创建一个 JBoss EAP 的应用
首先从创建示例应用程序开始,把该应用称作 newsapp
。
$ rhc create-app newsapp jbosseap
然后可以使用如下命令:
$ rhc create-app newsapp jbosseap -g medium
这样会创建一个应用程序容器,设置好所有需要的 SELinux 政策和 cgroup 配置,OpenShift 也将创建一个私人 git 仓库并克隆到本地。最后,OpenShift 会给外界提供一个 DNS,该应用程序将在 http://newsapp-{domain-name}.rhcloud.com/
下可以访问(将 domain-name
更换为自己的域名)。
第 2 步:添加 Maven 依赖
在 pom.xml
文件里添加如下依赖:
<dependency>
<groupId>de.l3s.boilerpipe</groupId>
<artifactId>boilerpipe</artifactId>
<version>1.2.0</version>
</dependency>
<dependency>
<groupId>xerces</groupId>
<artifactId>xercesImpl</artifactId>
<version>2.9.1</version>
</dependency>
<dependency>
<groupId>net.sourceforge.nekohtml</groupId>
<artifactId>nekohtml</artifactId>
<version>1.9.13</version>
</dependency>
同时也需要加一个新的库:
<repository>
<id>boilerpipe-m2-repo</id>
<url>http://boilerpipe.googlecode.com/svn/repo/</url>
<releases>
<enabled>true</enabled>
</releases>
<snapshots>
<enabled>false</enabled>
</snapshots>
</repository>
通过更新 pom.xml
文件里的几个特性将 Maven 项目更新到 Java 7:
<maven.compiler.source>1.7</maven.compiler.source>
<maven.compiler.target>1.7</maven.compiler.target>
现在就可以更新 Maven 项目了(右键单击>Maven>更新项目)。
第 3 步:启用 CDI
使用 CDI 来进行依赖注入。CDI、上下文和依赖注入是一个 Java EE 6 规范,能够使依赖注入在 Java EE 6 的项目中。
在 src/main/webapp/WEB-INF
文件夹下建一个名为 beans.xml
中一个新的 XML 文件。更换 beans.xml 中的以下内容:
<beans xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://java.sun.com/xml/ns/javaee http://java.sun.com/xml/ns/javaee/beans_1_0.xsd">
</beans>
第 4 步:创建 Boilerpipe 内容提取服务
现在创建一个 Boilerpipe 内容提取服务的服务类,这个类会用一个 url,从这个 url 中提取标题和文章内容。
import java.net.URL;
import java.util.Collections;
import java.util.List;
import com.newsapp.boilerpipe.image.Image;
import com.newsapp.boilerpipe.image.ImageExtractor;
import de.l3s.boilerpipe.BoilerpipeExtractor;
import de.l3s.boilerpipe.document.TextDocument;
import de.l3s.boilerpipe.extractors.ArticleExtractor;
import de.l3s.boilerpipe.extractors.CommonExtractors;
import de.l3s.boilerpipe.sax.BoilerpipeSAXInput;
import de.l3s.boilerpipe.sax.HTMLDocument;
import de.l3s.boilerpipe.sax.HTMLFetcher;
public class BoilerpipeContentExtractionService {
public Content content(String url) {
try {
final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
String title = doc.getTitle();
String content = ArticleExtractor.INSTANCE.getText(doc);
final BoilerpipeExtractor extractor = CommonExtractors.KEEP_EVERYTHING_EXTRACTOR;
final ImageExtractor ie = ImageExtractor.INSTANCE;
List<Image> images = ie.process(new URL(url), extractor);
Collections.sort(images);
String image = null;
if (!images.isEmpty()) {
image = images.get(0).getSrc();
}
return new Content(title, content.substring(0, 200), image);
} catch (Exception e) {
return null;
}
}
}
上述代码执行以下操作:
- 首先在给定的 url 中读取文件
- 然后解析 HTML 文档并返回 TextDocument
- 接下来从文本文件中提取标题
- 最后从文本中提取内容,返回一个应用的值对象的新实例(value object)
第 5 步:启用 JAX-RS
为启用 JAX-RS,建立一个扩展 javax.ws.rs.core.Application
的类,并通过如下所示的 javax.ws.rs.ApplicationPath
注释指定应用程序路径。
import javax.ws.rs.ApplicationPath;
import javax.ws.rs.core.Application;
@ApplicationPath("/api/v1")
public class JaxrsInitializer extends Application{
}
第 6 步:创建 ContentExtractionResource
创建 ContentExtractionResource
类,它会返回一个 JSON 内容对象。创建一个名为 ContentExtractionResource
的新类,并用如下所示的内容替换:
import javax.inject.Inject;
import javax.ws.rs.GET;
import javax.ws.rs.Path;
import javax.ws.rs.Produces;
import javax.ws.rs.QueryParam;
import javax.ws.rs.core.MediaType;
import com.newsapp.service.BoilerpipeContentExtractionService;
import com.newsapp.service.Content;
@Path("/content")
public class ContentExtractionResource {
@Inject
private BoilerpipeContentExtractionService boilerpipeContentExtractionService;
@GET
@Produces(value = MediaType.APPLICATION_JSON)
public Content extractContent(@QueryParam("url") String url) {
return boilerpipeContentExtractionService.content(url);
}
}
部署到 OpenShift
最后,更改部署到 OpenShift
$ git add .
$ git commit -am "NewApp"
$ git push
在代码 push 和部署完成后,我们可以在 http://newsapp-{{domain-name}.rhcloud.com
查看正在运行的应用程序。我的示例应用程序展示如下。
今天就这些,欢迎反馈。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论