提取网页的 HTML 源代码

发布于 2024-11-07 11:29:07 字数 743 浏览 0 评论 0原文

我使用此代码提取网页htm源代码：

    private static string GetWebText(string url)
    {
        HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
        request.UserAgent = "A .NET Web Crawler";

        WebResponse response = request.GetResponse();

        Stream stream = response.GetResponseStream();

        StreamReader reader = new StreamReader(stream);
        string htmlText = reader.ReadToEnd();
        return htmlText;
    }

在我使用此代码提取此页面的源代码后（==>提取hrefs）：

http://www.bayt.com/en/qatar/jobs/

当我得到我的 html 源代码时，我没有找到很多内容如下： “成本优化顾问”

是因为它是服务器端生成的内容吗？

如何更改我的代码，以便它带来包含服务器端生成内容的 html 源代码？

原文

I use this code to extract a web page htm source code:

    private static string GetWebText(string url)
    {
        HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);
        request.UserAgent = "A .NET Web Crawler";

        WebResponse response = request.GetResponse();

        Stream stream = response.GetResponseStream();

        StreamReader reader = new StreamReader(stream);
        string htmlText = reader.ReadToEnd();
        return htmlText;
    }

after i use this code to extract the source code of this page(==>extract hrefs):

http://www.bayt.com/en/qatar/jobs/

when i've got my html source code,i didn't find a lot of content like :
"Cost Optimization Adviser"

is it because it's a server side generated content?

How can I change my code so that it brings the html source code with server side generated content included?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

守护在此方 2024-11-14 11:29:07

当您查看源代码时，服务器端已经完成并呈现，这不太可能是服务器端原因。也就是说，他们可能有脚本在加载完成后动态更改页面的内容，如果加载完成后发生更改并且所有内容最初都已渲染，那么只要源不存在，您就会陷入最初渲染的内容之后的任何事情。有些浏览器有能力跟上正在发生的渲染和操作，但应用程序中发生了很多事情，使浏览器能够做到这一点，这与 JavaScript 没有任何关系。

另一个看似合理的概念或2是。他们在网站的某个地方内置了一些东西，用于某种类型的 XSS 检测。如果引用脚本不在域本身上，那么它将看到他们想要的任何内容。或者..您的脚本受到“同源政策”的影响，这可能会以某种方式把它搞砸。或者就像其他人说的那样，你没有正确解析 DOM。

您可以尝试将页面加载到网站上的 iframe 中，然后获取 iframe 的innerHTML，然后将其转储到文件或其他内容中。

回复收藏 0 原文

橙味迷妹 2024-11-14 11:29:07

他们可能只是根据浏览器 ID（用户代理）字符串添加某些内容。

尝试将您的用户代理设置为此

Mozilla/5.0 (Windows NT 6.1; WOW64; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

They may just be adding in certain content based on browser id (user-agent) strings.

Try setting your user agent to this

Mozilla/5.0 (Windows NT 6.1; WOW64; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

回复收藏 0 原文

~没有更多了~

关于作者

讽刺将军

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

提取网页的 HTML 源代码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

提取网页的 HTML 源代码

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。