从 google 搜索中获取前 1000 个结果
我正在尝试使用 C# 获取 google 中的前 1000 个搜索结果链接。到目前为止,我已经修改了 Shiv Kumar 的在网页上查找链接 在以下位置查找链接: 字符串网页Url =“http://www.google.com/search?hl=en&num=100&q=”+“概念”; 然而,由于 google 页面没有显示所有 1000 个结果,我需要找到获取其余结果的方法。 没有google api 可以实现吗?
吉利比
I'm trying to get the first 1000 search result links in google with C#. So far, I've modified Shiv Kumar's Finding links on a Web page
to look for links in:
string webpageUrl = "http://www.google.com/search?hl=en&num=100&q=" + "concept";
however since the google page doesn't show all the 1000 results i need to find the way to get the rest of them.
could that be accomplished without google api?
gilibi
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我建议您使用 API。
使用 HTML 中的“屏幕抓取”是有问题的,需要频繁的维护工作 - 特别是在像 Google 这样的页面上,它几乎肯定每年都会更改几次,并且经常使用重定向来跟踪链接使用情况。
或者,如果您确实想使用 HTML 路由,请查看查询参数 - 例如“&start=10” - 这应该允许您迭代页面。
但不能保证查询参数将永远保持不变。
I'd recommend you use the API.
Using "screen scraping" from HTML is problematic and requires frequent maintenance work - especially on a page like Google which will almost certainly change several times a year and which often uses redirects to track link usage.
Alternatively, if you really want to use the HTML route then take a look at the query parameters - e.g. "&start=10" - this should allow you to iterate over the pages.
But there's no guarantee that the query parameters will remain constant forever.