正在爬行 itunes.apple.com

发布于 2024-09-12 07:55:16 字数 322 浏览 6 评论 0原文

我正在尝试抓取苹果 itunes 网站。我得到二进制格式的输出。 例如

curl -A“mozilla/5.0”http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8

返回二进制文件。

有人可以告诉我我错过了什么吗?

谢谢

I am trying to crawl the apple itunes website. I am getting output in binary format.
For example

curl -A "mozilla/5.0" http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8

returns binary.

Can anybody please tell me what i am missing?

Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

誰ツ都不明白 2024-09-19 07:55:16

您将返回二进制文件,因为您引用的页面没有返回 HTML/XML,而是返回 Apple WebObject。来自 wget

wget http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
--2010-08-03 12:38:14--  http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
Resolving itunes.apple.com... 17.250.237.16
Connecting to itunes.apple.com|17.250.237.16|:80... connected.
HTTP request sent, awaiting response... 200 Apple WebObjects
Length: 22900 (22K) [text/html]
Saving to: `id327765949?mt=8'

100%[======================================>] 22,900      --.-K/s   in 0.05s   

2010-08-03 12:38:14 (440 KB/s) - `id327765949?mt=8' saved [22900/22900]

有关更多信息,请参阅好旧的维基百科,但是如果你想抓取它,你可能需要使用模拟浏览器的东西,从而可以解释它 - 也许 watir会起作用的。

You're getting binary back because the page you cited isn't returning HTML/XML, it's returning an Apple WebObject. From wget:

wget http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
--2010-08-03 12:38:14--  http://itunes.apple.com/us/app/the-far-islands-by-john-buchan/id327765949?mt=8
Resolving itunes.apple.com... 17.250.237.16
Connecting to itunes.apple.com|17.250.237.16|:80... connected.
HTTP request sent, awaiting response... 200 Apple WebObjects
Length: 22900 (22K) [text/html]
Saving to: `id327765949?mt=8'

100%[======================================>] 22,900      --.-K/s   in 0.05s   

2010-08-03 12:38:14 (440 KB/s) - `id327765949?mt=8' saved [22900/22900]

See the good old Wikipedia for more info, but if you want to crawl it, you may need to use something that simulates a browser and thus can interpret it - maybe watir would work.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文