可能的反爬行者
对于教育 NLP 项目,我需要所有意大利语单词的列表。我想我应该编写一个爬虫来从 www.wordreference.com 获取单词。我使用 Python 和 mechanize 爬虫框架。但是当我使用代码时:
br = mechanize.Browser()
br.open("http://www.wordreference.com/iten/abaco")
html = br.response().get_data()
print html
我从“yahoo.com”获得一些页面。难道这个网站有反爬虫机制?
For an educational NLP project I need a list of all Italian words. I thought I would write a crawler that will get the words from www.wordreference.com. I use Python with the mechanize crawler framework. but when i use the code:
br = mechanize.Browser()
br.open("http://www.wordreference.com/iten/abaco")
html = br.response().get_data()
print html
I get some page from "yahoo.com". is it possible this website has an anticrawler mechanism?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我建议使用现有数据集,以下是此 acl wiki 页面:
请检查 acl wiki 页面上的完整列表,我认为您应该找到一个意大利语语料库,它可以让您定义意大利语单词。
I would suggest to use existing datasets, here are few examples from this acl wiki page:
Please check the full list on the acl wiki page, I think you should find an italian corpus, which let you to define italian words.