如何在 Python 中使用 Twitter API 更快速地收集推文？

发布于 2024-10-04 13:02:48 字数 434 浏览 0 评论 0原文

在一个研究项目中，我正在使用 Python-Twitter 收集推文。然而，当我们的程序在一台计算机上不间断运行一周时，我们每周只能收集大约 20 MB 的数据。我只在一台机器上运行这个程序，这样我们就不会两次收集相同的推文。

我们的程序运行一个循环，每 60 秒调用一次 getPublicTimeline()。我尝试通过对公共时间线中出现的一些用户调用 getUserTimeline() 来改进这一点。然而，这一直让我每次被禁止收集推文大约半个小时。即使没有禁令，添加这段代码似乎也没有什么加速作用。

我知道 Twitter 的“白名单”允许用户每小时提交更多请求。我大约三周前申请了此请求，此后就没有收到回复，因此我正在寻找替代方案，使我们的程序能够更有效地收集推文，而不会超过标准速率限制。有谁知道从 Twitter 收集公共推文的更快方法吗？我们希望每周获得大约 100 MB 的数据。

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

日久见人心 2024-10-11 13:02:48

使用流媒体 API 怎么样？这正是它创建的目的。使用流 API，您在收集兆字节推文时不会遇到任何问题。不过，如果没有 Twitter 授予访问权限，您仍然无法访问所有推文，甚至无法访问具有统计意义的样本。

回复收藏 0 原文

爱殇璃 2024-10-11 13:02:48

我做了一个类似的项目，分析推文中的数据。如果您只是从纯粹的数据收集/分析角度来处理此问题，则可以抓取出于各种原因收集这些推文的任何更好的网站。许多网站允许您通过主题标签进行搜索，因此只要输入足够流行的主题标签，您就会得到数千个结果。我只是抓取了其中一些网站的流行主题标签，将它们收集到一个大列表中，针对该网站查询该列表，并从结果中抓取了所有可用的信息。有些网站还允许您直接导出数据，使此任务变得更加容易。您会得到很多可能需要过滤的垃圾结果（垃圾邮件、外语等），但这是对我们的项目有效的最快方法。 Twitter 可能不会授予你白名单状态，所以我绝对不会指望这一点。

回复收藏 0 原文