网页抓取：如何从文本链接获取抓取工具实现？

发布于 2024-08-26 12:09:17 字数 527 浏览 7 评论 0原文

我正在构建一个 java 网络媒体抓取应用程序，用于从各种流行网站中提取内容：youtube、facebook、rapidshare 等。

该应用程序将包含查找内容 url 的搜索功能，但如果用户已经位于媒体所在的位置，还应允许用户将 url 粘贴到应用程序中。 Youtube Downloader 已经为各种视频网站实现了此功能。

当程序提供了 URL 时，它会决定使用哪种抓取工具来获取内容；例如，youtube 观看链接返回 YoutubeScraper，Facebook 粉丝专页链接返回 FacebookScraper 等等。

我应该使用工厂模式来做到这一点吗？

我的想法是工厂有一个公共方法。它采用表示链接的 String 参数，并返回 Scraper 接口的合适实现。我猜工厂会保存一份 Scraper 实现列表，并将链接与每个 Scraper 进行匹配，直到找到合适的。如果没有合适的，则会抛出异常。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心凉 2024-09-02 12:09:18

听起来是个好主意。您很可能需要一个带有 create(URL url) 方法的单例。我建议您使用 TDD 来执行此操作，以便更清楚地了解您的需求。

回复收藏 0 原文

鹿港巷口少年归 2024-09-02 12:09:18

工厂退货就好了。为了概括这一尝试，我建议使用映射来保存实现，即：

Map<String, Class<Scraper>> scrapers = new HashMap<String, Scraper>();
scraper.put("facebook.com", FacebookScraper.class);
...

稍后您可以使用映射的键检查 url 并为该内容实例化正确的类。

A factory returning the stuff will be fine. To generalize the attempt, I recommend to use a map for holding implementations, i.e.:

Map<String, Class<Scraper>> scrapers = new HashMap<String, Scraper>();
scraper.put("facebook.com", FacebookScraper.class);
...

Later you can check the url with the keys of the map and instantiate the right class for that content.

回复收藏 0 原文

~没有更多了~

关于作者

执着的年纪

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

网页抓取：如何从文本链接获取抓取工具实现？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

亚希

cyp

北漠

11223456

坠似风落

游魂

友情链接

网页抓取：如何从文本链接获取抓取工具实现？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

亚希

cyp

北漠

11223456

坠似风落

游魂

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。