斯坦福 NLP 工具和大量文本

发布于 2024-11-17 19:52:42 字数 151 浏览 2 评论 0原文

我目前正在使用斯坦福 CoreNLP 工具从文本中提取三元组。我一直在处理相对较小的文本,但我需要使其能够处理较大的文本。另外,我需要在具有平均内存量的普通机器上进行这项工作。关于如何减少内存负载有什么建议吗?也许将文本分成更小的部分(但这会搞砸共指......)?

谢谢

I'm currently using the Stanford CoreNLP tools to extract triplets from text. I've been dealing with relatively small pieces of text, but I need to make it work with larger ones. Also, I need this work on the average machine with an average amount of memory. Any suggestions on how I can reduce the memory load? Perhaps split the text into smaller pieces (this would screw up coreference however...)?

Thank you

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

心房敞 2024-11-24 19:52:42

暴力方法:使用堆外内存(使用磁盘空间作为Java程序的内存),参见此话题转到此处了解有关 BigMemory 库的更多信息。速度很慢,但它可能就是您正在寻找的。

A brute force method: use a off heap memory (using disk space as a memory for Java program), see this thread or go here to learn more about BigMemory library. Slow but it might be what you are looking for.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文