可能的反爬行者

发布于 2024-10-31 03:26:22 字数 304 浏览 2 评论 0原文

对于教育 NLP 项目，我需要所有意大利语单词的列表。我想我应该编写一个爬虫来从 www.wordreference.com 获取单词。我使用 Python 和 mechanize 爬虫框架。但是当我使用代码时：

 br = mechanize.Browser()
 br.open("http://www.wordreference.com/iten/abaco")
 html = br.response().get_data()
 print html

我从“yahoo.com”获得一些页面。难道这个网站有反爬虫机制？

原文

For an educational NLP project I need a list of all Italian words. I thought I would write a crawler that will get the words from www.wordreference.com. I use Python with the mechanize crawler framework. but when i use the code:

 br = mechanize.Browser()
 br.open("http://www.wordreference.com/iten/abaco")
 html = br.response().get_data()
 print html

I get some page from "yahoo.com". is it possible this website has an anticrawler mechanism?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我一向站在原地 2024-11-07 03:26:22

我建议使用现有数据集，以下是此 acl wiki 页面：

语料库：
...
意大利报纸牛津文本档案库 ...
...
WordNet
EuroWordNet
MultiWordNet - 一个多语言词汇数据库，其中意大利语
WordNet 严格符合
普林斯顿 WordNet 1.6 ...

请检查 acl wiki 页面上的完整列表，我认为您应该找到一个意大利语语料库，它可以让您定义意大利语单词。

回复收藏 0 原文

~没有更多了~

关于作者

情魔剑神

暂无简介

0 文章

0 评论

24 人气

关注发私信

马化腾

文章 0 评论 0

关注

thousandcents

文章 0 评论 0

关注

辰『辰』

文章 0 评论 0

关注

ailin001

文章 0 评论 0

关注

再摆5分钟就干活

文章 0 评论 0

关注

冷情妓

文章 0 评论 0

友情链接

文江博客

可能的反爬行者

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者