寻找何时屏幕抓取可能值得的示例

发布于 2024-08-01 16:09:08 字数 339 浏览 4 评论 0原文

屏幕抓取似乎是一个有用的工具 - 您可以进入其他人的网站并窃取他们的数据 - 太棒了！

但我很难想象这有多大用处。

即使在网络上，大多数应用程序数据也非常特定于该应用程序。例如，假设我从 StackOverflow 上抓取了所有问题和答案，或者从 Google 上抓取了所有结果（假设这是可能的）——我留下的数据不是很有用，除非我有一个竞争问题并且答案网站（在这种情况下，被盗的数据将立即显而易见）或竞争的搜索引擎（在这种情况下，除非我有自己的算法，否则我的数据很快就会过时）。

所以我的问题是，在什么情况下来自一个应用程序的数据对某些外部应用程序有用？我正在寻找一个实际的例子来说明这一点。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

屌丝范 2024-08-08 16:09:08

当站点公开提供（仍然）无法作为 XML 服务提供的数据时，它非常有用。我有一位客户使用抓取将航班跟踪数据提取到他公司的一个内联网应用程序中。

该技术也用于研究。我有一个客户想要通过词性比较几个在线词典的内容，所有这些网站都必须被删除。

它不是“窃取”数据的技术。所有普通使用限制均适用。许多网站都实施验证码机制来防止抓取，但解决这些问题是不合适的。

回复收藏 0 原文

画▽骨i 2024-08-08 16:09:08

StackOverflow 就是一个很好的例子 - 无需抓取数据，因为他们已经发布了数据根据 CC 许可证。社区已经在处理统计数据并创建有趣的图表。

ProgrammableWeb 上有一大堆流行的混搭示例。您甚至可以在 BarCamps 和黑客日（带上睡袋）。查看 Yahoo API（特别是 Pipes）并查看开发人员正在用它做什么。

不要窃取和重新发布，而是利用数据构建更好的东西 - 理解、搜索或探索数据的新方法。始终引用您的数据来源并感谢那些帮助过您的人。用它来学习新语言或理解数据或帮助推广语义网。请记住，这是为了好玩而不是为了盈利！

希望有帮助:)

回复收藏 0 原文

情何以堪。 2024-08-08 16:09:08

如果网站拥有可以通过 API 访问的数据（而且这样做是免费且合法的），但他们只是还没有实现，那么屏幕抓取本质上是为您自己创建该功能的一种方式。
实际示例——屏幕抓取将允许您创建某种混搭，将来自整个 SO 系列网站的信息结合起来，因为目前还没有 API。

回复收藏 0 原文

愁以何悠 2024-08-08 16:09:08

好吧，从大型机收集数据。这就是有些人使用屏幕抓取的原因之一。大型机仍在金融界使用，并且通常运行上个世纪编写的软件。编写它的人可能已经退休了，并且由于该软件对于这些组织非常重要，因此当需要添加一些新代码时，他们真的很讨厌它。因此，屏幕抓取提供了一个与大型机通信的简单界面，以从大型机收集信息，然后将其发送到需要此信息的任何进程。
你说重写大型机应用程序？嗯，大型机上的软件可能非常旧。我见过大型机上已有 30 多年历史的软件，是用 COBOL 编写的。通常，这些应用程序运行得很好，公司不想冒险重写某些部分，因为这可能会破坏一些已经运行了 30 多年的代码！如果东西没有损坏，请不要修理它们。当然，可以编写额外的代码，但大型机代码在生产环境中使用需要很长时间。经验丰富的大型机开发人员很难找到。

我自己也必须在软件项目中使用屏幕抓取。这是一个调度应用程序，必须将其启动的每个子进程的输出捕获到控制台。实际上，这是最简单的屏幕抓取形式，许多人甚至没有意识到，如果您将一个应用程序的输出重定向到另一个应用程序的输入，那么它仍然是一种屏幕抓取。 :)

基本上，屏幕抓取允许您将一个（网络）应用程序与另一个应用程序连接。它通常是一种快速解决方案，当其他解决方案花费太多时间时使用。每个人都讨厌它，但它节省的时间仍然使其非常高效。

回复收藏 0 原文