抓取时正确处理 ASP.NET 页面
我正在从 Python 脚本中抓取某个支持 ASP.NET 的搜索页面,但在从回发获取所需数据时遇到了麻烦。
所以我想在排除之前验证我是否正确地获得了 ASP.NET 相关位。
到目前为止,我只是获取所有隐藏的表单变量(例如__VIEWSTATE
)并将它们与其他POST 请求参数一起发送。 这是正确的还是应该以某种方式更改? POST 响应包含更新的隐藏变量,我认为这些变量应该成为下一次回发的参数,但是当我在 Firefox 中浏览同一页面时,并非所有隐藏形式发回的字段是相同的(例如__EVENTTARGET
和__EVENTARGUMENT
)。
这里我需要任何其他特殊处理吗?还是仅此而已?
I am scraping a certain ASP.NET-enabled search page from a Python script and running into trouble getting the data I want from postbacks.
So I want to verify if I've got ASP.NET related bits correctly before ruling it out.
So far I just take all hidden form variables (e.g. __VIEWSTATE
) and send them with other POST request parameters. Is this correct or they should change in some way? POST response contains updated hidden variables, which I assume should become parameters of the next postback, however when I browse the same page in Firefox, not all hidden form fields posted back are the same (e.g. __EVENTTARGET
and __EVENTARGUMENT
).
Do I need any other special handling here or this is all there is to it?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这几乎就是全部内容了。最重要的是从一个帖子到另一个帖子维护 __VIEWSTATE;听起来你已经涵盖了。
That's pretty much all there is to it. The main thing is maintaining __VIEWSTATE from one post to another; which it sounds like you've covered.