正在爬行 itunes.apple.com
我正在尝试抓取苹果 itunes 网站。我得到二进制格式的输出。 例如
curl -A“mozilla/5.0”http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
返回二进制文件。
有人可以告诉我我错过了什么吗?
谢谢
I am trying to crawl the apple itunes website. I am getting output in binary format.
For example
curl -A "mozilla/5.0" http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
returns binary.
Can anybody please tell me what i am missing?
Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您将返回二进制文件,因为您引用的页面没有返回 HTML/XML,而是返回 Apple WebObject。来自
wget
:有关更多信息,请参阅好旧的维基百科,但是如果你想抓取它,你可能需要使用模拟浏览器的东西,从而可以解释它 - 也许 watir会起作用的。
You're getting binary back because the page you cited isn't returning HTML/XML, it's returning an Apple WebObject. From
wget
:See the good old Wikipedia for more info, but if you want to crawl it, you may need to use something that simulates a browser and thus can interpret it - maybe watir would work.