- Day 1: Bower - 管理你的客户端依赖关系
- Day 2: AngularJS - 对 AngularJS 的初步认识
- Day 3: Flask - 使用 Python 和 OpenShift 进行即时 Web 开发
- Day 4:PredictionIO - 如何创建一个博客推荐器
- Day 5: GruntJS - 重复乏味的工作总会有人做(反正我不做)
- Day 6:在 Java 虚拟机上使用 Grails 进行快速 Web 开发
- Day 7: GruntJS 在线重载 提升生产率至新境界
- Day 8: Harp.JS - 现代静态 web 服务器
- Day 9: TextBlob - 对文本进行情感分析
- Day 10: PhoneGap - 开发手机应用如此简单
- Day 11: AeroGear 推送服务器:使应用的通知推送变得简单
- Day 12: OpenCV - Java 开发者的人脸检测
- Day 13: Dropwizard - 非常棒的 Java REST 服务器栈
- Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)
- Day 15:Meteor - 从零开始创建一个 Web 应用
- Day 16: Goose Extractor - 好用的文章提取工具
- Day 17: 使用 JBoss Forge 和 OpenShift 构建部署 JAVA EE 6 应用
- Day 18: BoilerPipe - Java 开发者的文章提取工具
- Day 19: EmberJS 入门指南
- Day 20: 斯坦福 CoreNLP - 用 Java 给 Twitter 进行情感分析
- Day 21:Docker 入门教程
- Day 22: 使用 Spring、MongoDB 和 AngularJS 开发单页面应用
- Day 23:使用 TimelineJS 构建精美的时间轴
- Day 24: 使用 Yeoman 自动构建 Ember 项目
- Day 25: 联合 Tornado、MongoDB 和 AngularJS 进行应用开发
- Day 26: TogetherJS - 让我们一起来编程!
- Day 27: Restify - 在 Node.js 中构建正确的 REST Web 服务
- Day 28: OpenShift 的 Eclipse 集成
- Day 29:编写你的第一个 Google Chrome 扩展程序
- Day 30: Play Framework - Java 开发者的梦想框架
Day 16: Goose Extractor - 好用的文章提取工具
今天的 “30 天学习 30 种新技术” 的主题是如何使用 Python 进行 文章提取 。这几个月来,我对文章提取很感兴趣,因为我想写一个 Prismatic 克隆。Prismatic 创建基于用户兴趣的新闻源。提取文章的主要内容、图片和其他元信息对大多数类似 Prismatic 的内容发现站点很有用。本文中,我们将学习如何使用 Python 的 goose-extractor 包来完成这个任务。我们首先介绍一些基础知识,然后使用 Goose Extractor 的 API 来开发一个简单的 Flask 应用。
Goose Extractor 是什么?
Goose Extractor 是一个 Python 的开源文章提取库。可以用它提取文章的文本内容、图片、视频、元信息和标签。 Goose 本来是由 Gravity.com 编写的 Java 库,最近转向了 scala。
Goose Extractor 网站是这么介绍的:
Goose Extractor 完全用 Python 重写了。目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息。
为什么关心 Goose Extractor
我决定学习 Goose Extractor 是因为:
- 我打算开发需要文章提取功能的应用。Goose Extractor 基于 NLTK 和 Beautiful Soup ,分别是文本处理和 HTML 解析的领导者。
- 我想了解如何用 Python 进行文章提取。
安装 Goose Extractor
我们首先需要安装 Python 和 virtualenv,本文使用的 Python 版本是 2.7
。
然后使用如下命令安装:
mkdir myapp
cd myapp
virtualenv venv --python=python2.7
. venv/bin/activate
pip install goose-extractor
GitHub 仓库
今天的示例程序的代码可从 GitHub 取得。
应用
示例应用运行在 OpenShift 上 http://gooseextractor-t20.rhcloud.com/ 用户可以提交链接,应用会显示标题,主要图片和正文的前 200 个字符。
我们将开发一个简单的 REST API Flask 应用。如果你不了解 Flask,你可以看 这篇我以前写的文章 。
安装 Flask:
. venv/bin/activate
pip install flask
在 myapp
目录下创建 app.py
,内容如下:
from flask import Flask, request, render_template,jsonify
from goose import Goose
app = Flask(__name__)
@app.route('/')
@app.route('/index')
def index():
return render_template('index.html')
@app.route('/api/v1/extract')
def extract():
url = request.args.get('url')
g = Goose()
article = g.extract(url=url)
response = {'title' : article.title , 'text' : article.cleaned_text[:250],'image': article.top_image.src}
return jsonify(response)
if __name__ == "__main__":
app.run(debug=True)
解释下上面的代码:
- 从
flask
包导入了Flask
类、request
对象、jsonify
函数和render_template
函数。 - 从
goose
包导入Goose
类。 - 定义了
/
和index
的路由。若用户向/
或/index
发送 GET 请求,会渲染index.html
页面。 - 定义了
/api/v1/extract
路由。我们从请求对象中获取url
,然后创建了一个 Goose 类的实例。接着提取文章。最后创建一个 json 对象并返回该对象。json 对象中包括标题、文本和主要图片。 - 最后我们使用
python app.py
命令来启动开发服务器,以运行应用。我们把上面的代码复制到 app.py 文件中。我们同时通过Debug=True
开启了调试,这样当意料之外的情况出现时,浏览器就可以提供一个交互式的调试器。开启调试的另一个好处是,改动文件 之后,服务会自动重新加载。我们可以让调试器在后台运行,然后继续在我们的应用上工作。这提供了高效的开发环境。
我们将在 index.html
中使用 Twitter Bootstrap 来添加样式。我们同时使用了 jQuery,以便实现 keyup
事件触发 REST 调用。退格、制表符、回车、上、下、左、右不会触发 REST 调用。
<!DOCTYPE html>
<html>
<head>
<title>Extract Title, Text, and Image from URL</title>
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<link rel="stylesheet" type="text/css" href="static/css/bootstrap.css">
<style type="text/css">
body {
padding-top:60px;
padding-bottom: 60px;
}
</style>
</head>
<body>
<div class="navbar navbar-inverse navbar-fixed-top">
<div class="container">
<div class="navbar-header">
<button type="button" class="navbar-toggle" data-toggle="collapse" data-target=".navbar-collapse">
<span class="icon-bar"></span>
<span class="icon-bar"></span>
<span class="icon-bar"></span>
</button>
<a class="navbar-brand" href="#">TextExtraction</a>
</div>
</div>
</div>
<div id="main" class="container">
<form class="form-horizontal" role="form" id="myform">
<div class="form-group">
<div class="col-lg-4">
<input type="url" id="url" name="url" class="form-control" placeholder="Url you want to parse" required>
</div>
</div>
<div class="form-group">
<input type="submit" value="Extract" id="submitUrl" class="btn btn-success">
</div>
</form>
</div>
<div id="loading" style="display:none;" class="container">
<img src="/static/images/loader.gif" alt="Please wait.." />
</div>
<div id="result" class="container">
</div>
<script type="text/javascript" src="static/js/jquery.js"></script>
<script type="text/javascript">
$("#myform").on("submit", function(event){
$("#result").empty();
event.preventDefault();
$('#loading').show();
var url = $("#url").val()
$.get('/api/v1/extract?url='+url,function(result){
$('#loading').hide();
$("#result").append("<h4>"+result.title+"</h4>");
$("#result").append("<img src='"+result.image+"' height='300' width='300'</img>");
$("#result").append("<p class='lead'>"+result.text+"</p>");
})
});
</script>
</body>
</html>
你可以从 github 仓库 中复制 js 和 css 文件。
上面的 HTML 文件中,表单提交触发 REST 调用。当我们接受到回应后,将它附加到 result
div 中。
部署到云端
在我们部署应用到 OpenShift 之前,我们需要先设置一下:
- 注册一个 OpenShift 账号 。注册是完全免费的,Red Hat 给每个用户三枚免费的 Gear,可以用 Gear 运行你的应用。在写作此文的时候,每个用户能免费使用总共 1.5 GB 内存和 3 GB 硬盘空间。
- 安装 rhc 客户端工具 。
rhc
是 ruby gem,因此你的机子上需要装有 ruby 1.8.7 以上版本。 只需输入sudo gem install rhc
即可安装 rhc 。如果你已经安装过了,确保是最新版。运行sudo gem update rhc
即可升级。关于配置 rhc 命令行工具的详细信息,请参考: https://openshift.redhat.com/community/developers/rhc-client-tools-install - 使用 rhc 的 setup 命令配置你的 OpenShift 账号。这个命令会帮助你创建一个命名空间,同时将你的 ssh 公钥上传至 OpenShift 服务器。
设置之后,我们可以通过如下命令创建一个新的 OpenShift 应用。
rhc create-app day16demo python-2.7 --from-code https://github.com/shekhargulati/day16-goose-extractor-demo.git --timeout 180
这会为我们创建一个名为 gear 的应用容器,并自动配置相应的 SELinux 政策和 cgroup 设置。OpenShift 同时会为我们创建一个私有的 git 仓库,并将其克隆到本地。最后,OpenShift 会自动配置 DNS。应用可以在如下地址访问 http://gooseextractor-t20.rhcloud.com/
好了,这就是今天的内容。请不断反馈。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论