斯坦福解析器在Web服务中的使用

发布于 2024-10-05 14:18:19 字数 375 浏览 8 评论 0原文

我需要在网络服务中使用斯坦福解析器。当 SentenceParser 加载一个大对象时，我将确保它是一个单例，但在这种情况下，它是否是线程安全的（根据 http://nlp.stanford.edu/software/parser-faq.shtml）。不然怎样才能高效地完成呢？一种选择是在使用时锁定对象。

知道斯坦福大学的人们是如何为 http://nlp.stanford.edu:8080/parser 做这件事的吗/？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

油焖大侠 2024-10-12 14:18:19

如果争用不是一个因素，那么锁定（同步）将是您提到的一种选择，并且它可能已经足够好了。

但是，如果存在争议，我会看到三个一般选项。

(1)每次都实例化

只需每次执行解析时将其实例化为局部变量即可。局部变量是非常安全的。当然，实例化不是免费的，但根据具体情况，可以接受。

(2) 使用线程局部变量

如果实例化成本高昂，请考虑使用线程局部变量。每个线程将保留自己的解析器副本，并且解析器实例将在给定线程上重用。然而，Threadlocals 也并非没有问题。如果未将线程局部变量设置为 null 或直到保持线程消失，则线程局部变量可能不会被垃圾回收。因此，如果它们太多，就会出现内存问题。其次，谨防重复使用。如果这些解析器是有状态的，则需要确保清理并恢复初始状态，以便后续使用 threadlocal 实例不会受到先前使用的副作用。

(3) 池化

通常不再建议使用池化，但如果对象大小确实很大，以至于您需要对允许的实例数量进行硬性限制，那么使用对象池可能是最好的选择。

回复收藏 0 原文

内心激荡 2024-10-12 14:18:19

我不知道斯坦福大学的人是如何实现他们的服务的，但我会基于消息框架构建这样的服务，例如 http://www.rabbitmq.com/。因此，您的前端服务将接收文档并使用消息队列与执行 NLP 解析的多个工作人员进行通信（存储文档和检索结果）。完成处理后，工作人员会将结果存储到前端服务使用的队列中。这种架构将允许您在高负载的情况下动态添加新的工作人员。特别是 NLP 标记需要一些时间 - 每个文档长达几秒钟。

回复收藏 0 原文

~没有更多了~