对于多线程 http 下载应用程序,您选择什么编程语言?
我渴望学习一门新的编程语言。 您会建议以下程序使用哪一个: 以多线程方式下载数百万个 URL 与 某种数据库交互以存储下载的数据 想想网络爬虫/搜索引…
需要有关如何为 Android 市场编写爬虫的帮助
有人可以提供一些关于如何用 Java 编写爬虫程序来收集有关 Android 市场应用程序信息的指导吗?因为 Android 市场只能通过 Android 设备访问(即不能…
如何使用 PHP 查找 iTunes 应用程序商店中应用程序的价格?
我将创建一个网站,要求某些 iPhone 应用程序提供最新价格,我知道这是可能的,因为 AppShopper 网站就是这样做的,只不过他们对每个网站都这样做。尽…
网络爬行,ruby,python,cassandra
我需要编写一个脚本,通过爬行网络将 100 万条用户名或电子邮件记录插入数据库中。 该脚本可以是任何类型,如 python、ruby、php 等。 请告诉我是否可…
wget 是 DL“downloading.aspx”;而不是“helloworld.doc”?
我为 wget 创建了两个文件: log.txt 和 docs.txt。 LOG.txt: --2010-12-27 23:17:12-- http://www.xyz.dk/docs/Getpaper.aspx?id=133337 Resolving …
没有OAuth认证如何爬取twitter推文信息?
我需要抓取 Twitter 并分析推文以获取信息。我认为最好的方法是使用搜索 API,但现在 api 似乎需要 OAuth 身份验证。注册成为开发者是唯一的方法吗?…
蟒蛇 +机械化不与 Delicious 合作
我正在使用 Mechanize 和 Beautiful soup 来从 Delicious 上刮掉一些数据, from mechanize import Browser from BeautifulSoup import BeautifulSoup…