当前位置：文江博客话题详情

Html 解析器获取博客文章

发布于 2024-11-02 01:02:43 字数 482 浏览 6 评论 0原文

我需要创建一个 html 解析器，给定一个博客 url，它返回一个列表，其中包含页面中的所有帖子。

即如果一个页面有 10 个帖子，则应该返回一个包含 10 个 div 的列表，其中每个 div 包含 h1 和 a p

我无法使用它的 rss feed，因为我需要确切地知道它对用户来说是什么样子，是否有任何广告、图像等以及相反有些博客只有内容摘要，而提要则包含全部内容，反之亦然。

无论如何，我已经制作了一个下载其提要并在 html 中搜索类似内容的博客，它对于某些博客非常有效，但对于其他博客则不然。

我不认为我可以制作一个适用于 100% 解析的博客的解析器，但我想做到最好。

最好的方法应该是什么？寻找 id 属性等于“post”、“content”的标签？寻找 p 标签？等等等等...

提前感谢您的帮助！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

何处潇湘 2024-11-09 01:02:43

我认为你不会在这方面取得成功。您也许能够解析一个博客，但如果博客引擎发生了变化，它就不再起作用了。我也不认为您能够编写通用解析器。你甚至可能会取得部分成功，但这将是一次虚幻的成功，因为在这种情况下一切都很容易出错。如果您需要内容，您应该使用 RSS。如果您需要存储（简单存储）它的外观，您也可以这样做。但是按照它看起来的方式解析呢？我认为这方面没有取得具体的成功。

回复收藏 0 原文

成熟的代价 2024-11-09 01:02:43

“最好的可能”结果是“最好的合理”，你可以定义什么是合理的。通过查看常见的博客工具（WordPress、LiveJournal 等）如何生成页面以及专门为每个博客编写的代码，您可以获得大量博客。

一般情况是一个非常困难的问题，因为每个博客工具都有自己的格式。您也许可以使用“标准”标识符（例如“帖子”、“内容”等）来推断事物，但这值得怀疑。

您还会遇到广告方面的困难。很多广告都是用 JavaScript 生成的。因此，下载该页面只会为您提供 JavaScript 代码，而不是生成的 HTML。如果您确实想要识别广告，则必须识别生成它们的 JavaScript 代码。或者，您的程序必须执行 JavaScript 来创建最终的 DOM。然后您会遇到与上面类似的问题：确定 HTML 的某些特定部分是否是广告。

有一些启发式方法取得了一定的成功。请查看识别页面的主要内容以获取类似问题的答案。

回复收藏 0 原文

眼眸印温柔 2024-11-09 01:02:43

使用 HTML Agility 包。它是为此而设计的 HTML 解析器。

回复收藏 0 原文

请持续率性 2024-11-09 01:02:43

我刚刚为我们公司使用 WordPress 的博客做了类似的事情。这对我们有好处，因为我们的 wordress 博客多年来没有改变，但其他人是对的，如果你的 html 变化很大，解析就会成为一个麻烦的解决方案。

这是我的建议：

使用 Nuget 安装 RestSharp 和 HtmlAgilityPack。然后下载 fizzler 并将这些引用包含在您的项目中 (http://code.google.com/p/fizzler/downloads/list)。

这是我用来在我的网站上实现博客搜索的一些示例代码。

using System;
using System.Collections.Generic;
using Fizzler.Systems.HtmlAgilityPack;
using RestSharp;
using RestSharp.Contrib;

namespace BlogSearch
{
    public class BlogSearcher
    {
        const string Site = "http://yourblog.com";

        public static List<SearchResult> Get(string searchTerms, int count=10)
        {            
            var searchResults = new List<SearchResult>();

            var client = new RestSharp.RestClient(Site);
            //note 10 is the page size for the search results
            var pages = (int)Math.Ceiling((double)count/10);

            for (int page = 1; page <= pages; page++)
            {
                var request = new RestSharp.RestRequest
                                  {
                                      Method = Method.GET,
                                      //the part after .com/
                                      Resource = "page/" + page
                                  };

                //Your search params here
                request.AddParameter("s", HttpUtility.UrlEncode(searchTerms));

                var res = client.Execute(request);

                searchResults.AddRange(ParseHtml(res.Content));
            }

            return searchResults;
        }

        public static List<SearchResult> ParseHtml(string html)
        {            
            var doc = new HtmlAgilityPack.HtmlDocument();
            doc.LoadHtml(html);
            var results = doc.DocumentNode.QuerySelectorAll("#content-main > div");

            var searchResults = new List<SearchResult>();
            foreach(var node in results)
            {
                bool add = false;
                var sr = new SearchResult();

                var a = node.QuerySelector(".posttitle > h2 > a");
                if (a != null)
                {
                    add = true;
                    sr.Title = a.InnerText;
                    sr.Link = a.Attributes["href"].Value;
                }

                var p = node.QuerySelector(".entry > p");
                if (p != null)
                {
                    add = true;
                    sr.Exceprt = p.InnerText;
                }

                if(add)
                    searchResults.Add(sr);
            }

            return searchResults;
        }


    }

    public class SearchResult
    {
        public string Title { get; set; }
        public string Link { get; set; }
        public string Exceprt { get; set; }
    }
}

祝你好运，
埃里克

I just did something like this for our company's blog which uses wordpress. This is good for us because our wordress blog hasn't changed in years, but the others are right in that if your html changes a lot, parsing becomes a cumbersome solution.

Here is what I recommend:

Using Nuget install RestSharp and HtmlAgilityPack. Then download fizzler and include those references in your project (http://code.google.com/p/fizzler/downloads/list).

Here is some sample code I used to implement the blog's search on my site.

using System;
using System.Collections.Generic;
using Fizzler.Systems.HtmlAgilityPack;
using RestSharp;
using RestSharp.Contrib;

namespace BlogSearch
{
    public class BlogSearcher
    {
        const string Site = "http://yourblog.com";

        public static List<SearchResult> Get(string searchTerms, int count=10)
        {            
            var searchResults = new List<SearchResult>();

            var client = new RestSharp.RestClient(Site);
            //note 10 is the page size for the search results
            var pages = (int)Math.Ceiling((double)count/10);

            for (int page = 1; page <= pages; page++)
            {
                var request = new RestSharp.RestRequest
                                  {
                                      Method = Method.GET,
                                      //the part after .com/
                                      Resource = "page/" + page
                                  };

                //Your search params here
                request.AddParameter("s", HttpUtility.UrlEncode(searchTerms));

                var res = client.Execute(request);

                searchResults.AddRange(ParseHtml(res.Content));
            }

            return searchResults;
        }

        public static List<SearchResult> ParseHtml(string html)
        {            
            var doc = new HtmlAgilityPack.HtmlDocument();
            doc.LoadHtml(html);
            var results = doc.DocumentNode.QuerySelectorAll("#content-main > div");

            var searchResults = new List<SearchResult>();
            foreach(var node in results)
            {
                bool add = false;
                var sr = new SearchResult();

                var a = node.QuerySelector(".posttitle > h2 > a");
                if (a != null)
                {
                    add = true;
                    sr.Title = a.InnerText;
                    sr.Link = a.Attributes["href"].Value;
                }

                var p = node.QuerySelector(".entry > p");
                if (p != null)
                {
                    add = true;
                    sr.Exceprt = p.InnerText;
                }

                if(add)
                    searchResults.Add(sr);
            }

            return searchResults;
        }


    }

    public class SearchResult
    {
        public string Title { get; set; }
        public string Link { get; set; }
        public string Exceprt { get; set; }
    }
}

Good luck,
Eric

回复收藏 0 原文

~没有更多了~