@黄亿华 您好,想跟您请教些问题:webmagic是否支持pdf等格式的非html抽取?它能否支持大数据的爬取?我不知道您在实际应用中抓取过多少数据,它效率怎么样,运行起来对内存有什么样的要求么?
应该不行,word抽取还有希望,pdf很难,要把pdf转成txt,然后才行
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(1)
应该不行,word抽取还有希望,pdf很难,要把pdf转成txt,然后才行