当前位置：文江博客话题详情

抓取推文 - 使用网站还是 API 更好？

发布于 2024-11-02 16:19:51 字数 360 浏览 3 评论 0原文

我正在使用 twitter gem 在 Ruby 中构建 Twitter 机器人。我试图使其能够自我维持，所以我希望它通过抓取其社交圈之外的用户的推文来生成自己的推文内容（然后可能用马尔可夫链生成器对它们进行混淆）。

哪一个是更好的策略？

通过 api 搜索推文
加载 Twitter 页面并使用 Hpricot 或 Nokogiri 抓取推文

另外，我如何尝试确保基本推文来自我的机器人关注者的朋友之外，所以它是更难辨别它是机器人吗？

目前，我使用 .yml 文件来手动生成推文，这远非理想。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

忆梦 2024-11-09 16:19:51

这里有两个问题。

如果有可用的 API，最好使用 API。如果更改了简单的 html 元素，这将使您免受机器人随机破坏的影响，并且还允许网站（即 Twitter）对您的搜索进行速率限制，以防您对服务施加过高的负载。虽然这对于 Twitter 来说不太可能，但这是一个很好的做法。

有时，您想要的信息无法通过 API 获得。在这种情况下，你应该考虑是否真的需要刮，如果需要的话，如何限制自己有礼貌。

基本上，如果 API 允许您做您想做的事情，请使用它来实现可维护性。

至于你的第二个问题，我对twitter API没有任何经验。有没有办法获取所有关注者的 Twitter ID 以及他们关注的人？如果没有，您将被迫像前面提到的那样进行抓取 - 如果您确实需要此信息。

一旦您获得了关注者关注者的列表，您就可以检查您要转发的内容的发帖者 ID 是否属于该集合。

您会考虑转发机器人的这方面内容吗？

回复收藏 0 原文

怪异←思 2024-11-09 16:19:51

还需要注意的一件事是性能。如果您要抓取网站，则必须下载整个页面，然后抓取该页面（这实际上是处理器密集型的）。与访问 API 不同，API 只会返回 JSON/XML 数据。

因此，从严格的性能角度来看，我会选择 API。

回复收藏 0 原文

~没有更多了~

关于作者

恏ㄋ傷疤忘ㄋ疼

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

抓取推文 - 使用网站还是 API 更好？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

小瓶盖

wxsp_Ukbq8xGR

1638627670

仅一夜美梦

夜访吸血鬼

近卫軍团

友情链接

抓取推文 - 使用网站还是 API 更好？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

小瓶盖

wxsp_Ukbq8xGR

1638627670

仅一夜美梦

夜访吸血鬼

近卫軍团

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。