可能的反爬行者

发布于 2024-10-31 03:26:22 字数 304 浏览 2 评论 0原文

对于教育 NLP 项目,我需要所有意大利语单词的列表。我想我应该编写一个爬虫来从 www.wordreference.com 获取单词。我使用 Python 和 mechanize 爬虫框架。但是当我使用代码时:

 br = mechanize.Browser()
 br.open("http://www.wordreference.com/iten/abaco")
 html = br.response().get_data()
 print html

我从“yahoo.com”获得一些页面。难道这个网站有反爬虫机制?

For an educational NLP project I need a list of all Italian words. I thought I would write a crawler that will get the words from www.wordreference.com. I use Python with the mechanize crawler framework. but when i use the code:

 br = mechanize.Browser()
 br.open("http://www.wordreference.com/iten/abaco")
 html = br.response().get_data()
 print html

I get some page from "yahoo.com". is it possible this website has an anticrawler mechanism?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

我一向站在原地 2024-11-07 03:26:22

我建议使用现有数据集,以下是此 acl wiki 页面:

语料库:

WordNet

  • EuroWordNet
  • MultiWordNet - 一个多语言词汇数据库,其中意大利语
    WordNet 严格符合
    普林斯顿 WordNet 1.6 ...

请检查 acl wiki 页面上的完整列表,我认为您应该找到一个意大利语语料库,它可以让您定义意大利语单词。

I would suggest to use existing datasets, here are few examples from this acl wiki page:

Corpuses:

WordNets

  • EuroWordNet
  • MultiWordNet - a multilingual lexical database in which the Italian
    WordNet is strictly aligned with
    Princeton WordNet 1.6 ...

Please check the full list on the acl wiki page, I think you should find an italian corpus, which let you to define italian words.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文