通过排除导航和 Chrome 内容从 HTML 页面中提取纯内容/文本

发布于 2024-08-10 16:28:01 字数 460 浏览 11 评论 0原文

我正在抓取新闻网站,想要提取新闻标题、新闻摘要(第一段)等,

我插入了 webkit 解析器代码,以轻松地以树形式导航网页。为了消除导航和其他非新闻内容,我采用文章的文本版本(减去 html 标签,webkit 提供了相同的 api)。然后我运行 diff 算法来比较来自同一网站的各种文章的文本,这会导致相似的文本被删除。这给了我减去常见导航内容等的内容。

尽管采用上述方法,我仍然在最终文本中收到相当多的垃圾。这会导致提取不正确的新闻摘要。错误率为十分之五,即 50%。错误如

  1. 建议提取纯内容的替代策略,

  2. 学习自然语言处理是否有助于从这些文章中提取正确的摘要? 学习自然语言处理是否

  3. 您将如何解决上述问题?。

  4. 这些是否有相同的研究论文?。

问候

安库尔·古普塔

I am crawling news websites and want to extract News Title, News Abstract (First Paragraph), etc

I plugged into the webkit parser code to easily navigate webpage as a tree. To eliminate navigation and other non news content I take the text version of the article (minus the html tags, webkit provides api for the same). Then I run the diff algorithm comparing various article's text from same website this results in similar text being eliminated. This gives me content minus the common navigation content etc.

Despite the above approach I am still getting quite some junk in my final text. This results in incorrect News Abstract being extracted. The error rate is 5 in 10 article i.e. 50%. Error as in

Can you

  1. Suggest an alternative strategy for extraction of pure content,

  2. Would/Can learning Natural Language rocessing help in extracting correct abstract from these articles ?

  3. How would you approach the above problem ?.

  4. Are these any research papers on the same ?.

Regards

Ankur Gupta

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

小镇女孩 2024-08-17 16:28:01

您可以在 Google 代码上查看我的 boilerpipe 项目,并在您选择的页面上测试它使用 Google AppEngine 上的实时网络应用程序(从那里链接)。

我正在研究这个领域,并撰写了一些关于从 HTML 页面中提取内容/样板文件的论文。例如,请参阅“使用浅文本功能的样板检测”并观看 VideoLectures.net 上的相应视频。本文应该让您对这一领域的最新技术有一个很好的概述。

干杯,

克里斯蒂安

You might have a look at my boilerpipe project on Google Code and test it on pages of your choice using the live web app on Google AppEngine (linked from there).

I am researching this area and have written some papers about content extraction/boilerplate removal from HTML pages. See for example "Boilerplate Detection using Shallow Text Features" and watch the corresponding video on VideoLectures.net. The paper should give you a good overview of the state of the art in this area.

Cheers,

Christian

夏末染殇 2024-08-17 16:28:01

对于问题(1),我不确定。我以前没有这样做过。也许其他答案之一会有所帮助。

对于问题(2),自动创建摘要并不是一个成熟的领域。它通常被称为“句子选择”,因为现在典型的方法是只选择整个句子。

对于问题(3),从机器学习创建摘要的基本方法是:

  1. 创建现有摘要的语料库
  2. 以有用的方式注释摘要。例如,您可能想要指出是否选择了原文中的每个句子以及为什么(或为什么不选择)。
  3. 在语料库上训练某种分类器,然后用它对新文章中的句子进行分类。

我最喜欢的机器学习参考文献是 Tom Mitchell 的机器学习。它列出了实现步骤(3)的多种方法。

对于问题(4),我确信有几篇论文,因为我的导师去年提到过,但我不知道从哪里开始,因为我不是该领域的专家。

For question (1), I am not sure. I haven't done this before. Maybe one of the other answers will help.

For question (2), automatic creation of abstracts is not a developed field. It is usually referred to as 'sentence selection', because the typical approach right now is to just select entire sentences.

For question (3), the basic way to create abstracts from machine learning would be to:

  1. Create a corpus of existing abstracts
  2. Annotate the abstracts in a useful way. For example, you'd probably want to indicate whether each sentence in the original was chosen and why (or why not).
  3. Train a classifier of some sort on the corpus, then use it to classify the sentences in new articles.

My favourite reference on machine learning is Tom Mitchell's Machine Learning. It lists a number of ways to implement step (3).

For question (4), I am sure there are a few papers because my advisor mentioned it last year, but I do not know where to start since I'm not an expert in the field.

叹梦 2024-08-17 16:28:01

我不知道它是如何工作的,但检查一下可读性。它完全符合您的要求。

I don't know how it works, but check out Readability. It does exactly what you wanted.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文