如何解析 vb.net 中用一堆 document.write 编写的网页?
我正在使用 vb.net 中的 HTML 敏捷包解析网页,它在大多数情况下都工作得很好,但我遇到了一个需要帮助的网站。
当我用 http 对象抓取网页时(我使用的是 chilkat http,它没有 javascript 引擎),我得到的页面基本上是整个页面的 document.writes 写得很差。
我不想使用浏览器控件首先呈现页面。
你知道有什么可以让我用 xpath 轻松解析这个页面吗? xpath 可以与 javascript 一起工作吗?有没有办法让我使用敏捷包删除 javascript?
如果以上所有情况都不是,您将如何将其放入 xpath 兼容文档中。
I am parsing a web page with the HTML agility pack in vb.net and it works great most of the time, but I have come across a site I need help with.
When I go to grab the web page with my http object (I am using chilkat http and it does not have a javascript engine) I get back the page which is poorly written with document.writes for basically the entire page.
I do not want to use the browser control to first render the page.
Do you know of anything that will allow me to parse this page easily with xpath... does xpath work with javascript? Is there a way for me to remove the javascript with the agility pack?
If no to all of the above, what would you do to get this into a xpath compliant document.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
如果大部分页面都是用 javascript 渲染的,那么您需要能够执行 javascript 才能获得最终结果文档。
为此,您需要一个无头浏览器,例如< a href="https://github.com/axefrog/XBrowser" rel="nofollow">XBrowser 可以执行javascript。您可以将生成的文档提供给 HTML Agility Pack。
If most of the page gets rendered with javascript, you need to be able to execute the javascript in order to get the end result document.
For this, you need a headless browser such as XBrowser which can execute the javascript. You can feed the resulting document to the HTML Agility Pack.