当前位置：文江博客话题详情

Perl regex html-parsing

从字符串中的链接获取网站标题

发布于 2024-10-30 00:30:25 字数 208 浏览 1 评论 0原文

string: "这是徽章，https://stackoverflow.com/badges bla bla bla"

如果字符串包含链接（见上文）我想解析该链接的网站标题。

它应该返回：徽章 - 堆栈内存溢出。

我怎样才能做到这一点？

谢谢。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

踏雪无痕 2024-11-06 00:30:25

#!/usr/bin/perl -w

require LWP::UserAgent;

my $ua = LWP::UserAgent->new;
$ua->timeout(10);
$ua->env_proxy;

my $response = $ua->get('http://search.cpan.org/');

if ($response->is_success) {
    print $response->title();
}
else {
    die $response->status_line;
}

请参阅LWP::UserAgent。干杯:-)

#!/usr/bin/perl -w

require LWP::UserAgent;

my $ua = LWP::UserAgent->new;
$ua->timeout(10);
$ua->env_proxy;

my $response = $ua->get('http://search.cpan.org/');

if ($response->is_success) {
    print $response->title();
}
else {
    die $response->status_line;
}

See LWP::UserAgent. Cheers :-)

回复收藏 0 原文

痞味浪人 2024-11-06 00:30:25

我使用 URI::Find::Simple 的 list_uris 方法和 URI::Title 为此。

回复收藏 0 原文

累赘 2024-11-06 00:30:25

根据给出链接的方式以及定义标题的方式，您需要一种或另一种方法。

在您所呈现的具体场景中，使用 URI::Find< 获取 URL /a>、HTML::LinkExtractor 等，然后 我的 $title=URI->new($link)->path()将提供标题和链接。

但是，如果网站标题是链接文本，例如 标记，然后如何在 Perl 中从 HTML 中提取 URL 和链接文本？ 将为您提供答案。

如果标题编码在链接本身中，并且链接是链接的文本本身，那么如何定义标题？

您是否想要在任何查询之前获取 URI 的最后一位？将查询设置为 URL 路径会发生什么情况？
您想要主机和查询之间的部分吗？
您想解析链接源并检索标题标签（如果有）吗？

一如既往，从琐碎的首次实现到涵盖所有极端情况是一项艰巨的任务;-)

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

22 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

烙印

文章 0 评论 0

singlesman

文章 0 评论 0

给自己一个微笑

文章 0 评论 0

独孤求败

文章 0 评论 0

晨钟暮鼓

文章 0 评论 0

我是自愿种绣球花的

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文