web-crawler

web-crawler

文章 0 浏览 4

网络爬虫/蜘蛛获取基于ajax的链接

我想创建一个网络爬虫/蜘蛛来迭代获取网页中的所有链接,包括基于 javascript 的链接(ajax),对页面上的所有对象进行编目,构建和维护站点层次结构…

暮年 2024-11-18 10:08:43 2 0

像搜索引擎一样只获取网站详细信息

我必须像搜索引擎一样获取网站详细信息。我需要网站的描述、链接和一些有关它们的信息,并将其存储在我的数据库中。有没有可用的库来执行此操作?请记…

时光暖心i 2024-11-18 10:06:48 1 0

当目录列表被停用时,有没有办法从网络服务器获取文件?

我尝试为每个基于网络服务器/网页的文件构建一个“爬虫”或“自动下载器”。 所以我认为有两种方法: 1)启用目录列表。很简单,读出列表中的数据并下…

还不是爱你 2024-11-18 09:59:47 5 0

Mechanze 表单提交导致“断言错误”尝试 .read() 时响应

我正在用 python 编写一个网络爬虫程序,但无法使用 mechanize 登录。网站上的表单如下所示: Last Name: University ID or Library Barcode: Institu…

浮华 2024-11-18 07:24:30 3 0

SideReel 等视频聚合器背后的 Spider 技术?

有人可以向我解释一下 SideReel 等网站背后的聚合技术吗? 例如 http://www.sidereel.com/the_nine_lives_of_chloe_king/season -1/episode-3/links/9…

尐偏执 2024-11-18 06:47:39 2 0

在Java中,线程挂在SocketRead0中,我该怎么办?

我正在开发一个网络爬虫,但通常在执行很短的时间(几分钟)后,一些线程会停止工作。运行调试器,我发现它停在 SocketRead0 处。 当线程使用 HttpURL…

油饼 2024-11-18 02:05:07 3 0

如何定义scrapy shell使用哪个spider?

我正在尝试使用 Scrapy shell 测试一些 XPath,但它似乎正在调用我不完整的蜘蛛模块来进行抓取,这不是我想要的。有没有办法定义 scrapy 使用哪个蜘蛛…

叹沉浮 2024-11-17 23:53:46 3 0

广度优先探索的网络爬虫

我需要写一篇关于网络爬虫的论文,这个网络爬虫以广度优先的方式探索链接。 我制作了一张图片,展示了爬虫探索的方式。 这是正确的广度优先探索吗?:…

焚却相思 2024-11-17 21:33:03 3 0

为什么简单的电子邮件混淆效果这么好?

例如,将 @ 替换为 at。至少一项研究证明了其有效性: 令我们惊讶的是,访问我们部门研究以及课程和研究网页的抓取工具都没有在包含 at 的电子邮件地…

温折酒 2024-11-17 18:24:13 6 0

在Java中,有一个集合,我只能在一段时间后才能获取元素?

我正在做一个网络爬虫,我不想让服务器因请求而超载,所以我会按时间限制对服务器的访问。 我将有一个对象/集合,它是我将访问的链接列表。 我得到第…

岛歌少女 2024-11-17 15:57:11 3 0

网站的层次结构

我不确定这个问题是否会有一个答案,或者是否有一个简洁的答案,但我想我还是会问。这个问题也不是特定于语言的,但可能有某种伪算法作为答案。 基本…

没企图 2024-11-17 15:08:30 4 0

将 URL 参数添加到 Nutch/Solr 索引和搜索结果

我找不到任何关于如何设置 nutch 来不过滤/删除我的 URL 参数的提示。我想对一些页面进行爬网和索引,其中大量内容隐藏在相同的基本 URL 后面(例如 /…

独木成林 2024-11-17 12:20:29 5 0

我的网站爬虫在运行时死掉了

我编写了一个网站爬虫来获取链接和图像来创建网站地图,但它在运行时被杀死了!所以这不是我的整个班级 class pageCrawler { ....... private $links …

空心空情空意 2024-11-17 11:43:43 0 0

使用 C# 的可编程 WebCrawler

我想从已知的 Url 中提取特定数据:从 html 标签(如 span、a、div ...)中提取特定数据! 所以我正在寻找一个用 C# 编写的 WebCrawler 的现有库! ..…

我很坚强 2024-11-17 04:11:25 3 0

Web 服务器返回奇怪的 html 文件

在开发网络爬虫时,我遇到了这个奇怪的现象;以下是 http://nexgen.ae 的 Web 服务器返回的页面内容片段: N e x G e n T e c h n o l o g i e s L L …

往事随风而去 2024-11-17 03:18:51 4 0
更多

推荐作者

離殇

文章 0 评论 0

小姐丶请自重

文章 0 评论 0

Aik

文章 0 评论 0

国产ˉ祖宗

文章 0 评论 0

猥琐帝

文章 0 评论 0

半仙

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文