爬虫会跳过html小标签中包含的内容吗?
我想知道 small
标签是否向爬虫表明其内容不相关,因此它将被跳过并且不会被索引。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
我想知道 small
标签是否向爬虫表明其内容不相关,因此它将被跳过并且不会被索引。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(1)
这取决于爬虫的实现。
我不知道有任何正式或非正式的标准表明
小
标签会阻止内容被编入索引,并且似乎不是 是 rel="nofollow">讨论对索引内容的控制。最初的 Google 搜索引擎为较大的字体提供了额外的权重 - 因此您可能会期望使用较大的字体字体被认为更相关,但这并不意味着较小的字体不会被索引。
没有标准可以防止页面的某些部分被索引。对于可能适用于某些引擎的方法,有
class="robots-nocontent"
是由雅虎引入的(我认为只有雅虎支持) - 所以不幸的是我不希望它能够在其他引擎上工作。This is dependent on the crawler implementation.
I'm not aware of any formal or informal standard that
small
tags prevent content from being indexed, and it doesn't appear to be mentioned by major search engines when discussing control over what's indexed.The original Google search engine gave extra weight to larger fonts - so you might expect a large font to be considered more relevant, but this doesn't mean that smaller fonts don't get indexed.
There is no standard for preventing parts of a page from being indexed. For an approach that might work on some engines, there is the
class="robots-nocontent"
which was introduced by (and I think only supported by) Yahoo - so unfortunately I wouldn't expect it to work across other engines.