如何检测具有一定模糊性的重复文本
不久前,我写了小脚本 使用 Text::DeDupe 删除博客文章的重复项,然后我必须我的目光落在他们身上。
阅读网络句法聚类论文后实现是基于的,我希望能够找到重叠的文档(例如博客片段而不是全文,也许还有引用)。
您是否知道我可以在编写自己的 C、C++ 或 Perl 实现之前尝试其他任何实现?
Some thing ago, I write small script using Text::DeDupe to remove duplicates of blog posts before I have to lay my eyes on them.
After reading Syntactic Clustering of the Web paper on which implementation is based, I would love to have ability to find overlapping documents (e.g. snippets of blogs as opposed to full text, maybe also quotes).
Do you know of any other implementation in C, C++ or perl which I can try out before writing my own?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
SpotSigs 似乎正好适合我的要求,这里有一些参考:
该模块的源代码托管在 GitHub 上:
http://github.com/jzawodn/perl-text-spotsig
SpotSigs seems to fit my bill just right, here are some references:
The soruce code for this module is hosted on GitHub:
http://github.com/jzawodn/perl-text-spotsig