Lucene.net HTML 文档示例使用 html 字符串而不是文件?
我正在做一个网络爬虫,我想在流处理或完成时使用 lucene 来索引。
我看到lucene.net html库的例子很好。但是,我不想继续下载到磁盘中。我想要的只是在下载网页时建立索引,或者可能是一串 html 内容的索引。
是否有任何示例可以使 lucence.net html 索引器使用内存流或字符串?
I'm doing a web crawler and I want to use lucene to index while the streaming is progressing or completed.
I've seen that the example of lucene.net html library is good. however, I don't want to keep download into disk. what i want and is just indexing while downloading the web or maybe index of a string of html content.
Is there any example that makes lucence.net html indexer working with memory stream or a string?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
类似的东西?
something like that?