当前位置：文江博客话题详情

使用 Windows Azure 和 F# 进行 Twitter Streaming API 记录和处理

发布于 2024-09-19 03:12:02 字数 532 浏览 4 评论 0原文

一个月前，我尝试使用 F# 代理来处理和记录 Twitter StreamingAPI 数据此处< /a>.作为一个小练习，我尝试将代码传输到 Windows Azure。

到目前为止，我有两个角色：

一个工作角色（发布者）将消息（一条消息是推文的 json）放入队列。
数据转储到云表中。

这引发了很多问题：

可以将工人角色视为代理人吗？
实际上，消息可能大于 8 KB，因此我需要使用 blob 存储并将对 blob 的引用作为消息传递（或者还有其他方法吗？），这会影响性能吗？
如果需要的话，我可以增加处理器辅助角色的实例数量，并且队列将神奇地处理得更快，这样说是否正确？

抱歉问了这么多问题，希望大家不要介意，

非常感谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

执手闯天涯 2024-09-26 03:12:02

有一个名为 Lokad.Cloud 的开源库，可以透明地处理大消息，您可以在 http 上查看它://code.google.com/p/lokad-cloud/

回复收藏 0 原文

薯片软お妹 2024-09-26 03:12:02

可以将工人角色视为代理人吗？

是的，绝对是。

实际上，消息可能大于 8 KB，因此我需要使用 blob 存储并将对 blob 的引用作为消息传递（或者还有其他方法吗？），这会影响性能吗？

是的，使用您正在讨论的技术（将 JSON 保存到名称为“JSONMessage-1”的 blob 存储，然后将消息发送到内容为“JSONMessage-1”的队列）似乎是标准方法在 Azure 中传递大于 8KB 的消息。由于您对 Azure 存储进行 4 次调用而不是 2 次（1 次用于获取队列消息，1 次用于获取 Blob 内容，1 次用于从队列中删除，1 次用于删除 Blob），因此速度会较慢。会明显变慢吗？可能不会。
如果大量消息在 Base64 编码时小于 8KB（这是 StorageClient 库中的一个问题），那么您可以添加一些逻辑来确定如何发送它。

如果需要的话，我可以增加处理器辅助角色的实例数量，并且队列将神奇地处理得更快，这样说是否正确？

只要您编写的辅助角色是自包含的并且实例不会相互干扰，那么增加实例计数就会增加吞吐量。
如果您的角色主要只是读取和写入存储，那么您可能会先对辅助角色进行多线程处理，然后再增加实例数量，这样可以节省资金。

回复收藏 0 原文

皓月长歌 2024-09-26 03:12:02

可以考虑一下工人角色吗
作为代理人？

这是最完美的思考方式。想象一下麦当劳的员工。每个工作人员都有特定的任务，他们通过消息（口头）相互沟通。

实际上，消息可以更大
超过 8 KB，所以我需要使用
blob 存储并作为消息传递
对 blob 的引用（或者是否有
另一种方式？），这会影响
性能？

只要消息是不可变的，这就是最好的方法。字符串可能非常大，因此会分配到堆中。由于它们是不可变的，传递引用不是问题。

如果需要我这样说是否正确
可以增加实例数量
处理器工作者角色，以及
队列将被神奇地处理
更快？

您需要查看进程正在执行的操作并确定它是 IO 密集型还是 CPU 密集型。通常，IO 密集型进程将通过添加更多代理来提高性能。如果您为代理使用ThreadPool，即使对于 CPU 密集型进程，工作也会得到很好的平衡，但您会遇到限制。话虽这么说，不要害怕弄乱你的架构并测量每次运行的结果。这是平衡代理数量的最佳方法。