斯坦福 NLP 工具和大量文本
我目前正在使用斯坦福 CoreNLP 工具从文本中提取三元组。我一直在处理相对较小的文本,但我需要使其能够处理较大的文本。另外,我需要在具有平均内存量的普通机器上进行这项工作。关于如何减少内存负载有什么建议吗?也许将文本分成更小的部分(但这会搞砸共指......)?
谢谢
I'm currently using the Stanford CoreNLP tools to extract triplets from text. I've been dealing with relatively small pieces of text, but I need to make it work with larger ones. Also, I need this work on the average machine with an average amount of memory. Any suggestions on how I can reduce the memory load? Perhaps split the text into smaller pieces (this would screw up coreference however...)?
Thank you
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
暴力方法:使用堆外内存(使用磁盘空间作为Java程序的内存),参见此话题 或 转到此处了解有关 BigMemory 库的更多信息。速度很慢,但它可能就是您正在寻找的。
A brute force method: use a off heap memory (using disk space as a memory for Java program), see this thread or go here to learn more about BigMemory library. Slow but it might be what you are looking for.