解析爬虫的url
我正在编写一个小型爬虫,在获取链接的同时提取大约 5 到 10 个站点,
../tets/index.html
如果它是 /test/index.html
我们可以添加基本 url http ://www.example.com/test/index.html
我能为这种网址做什么。
i am writting an small crawler that extract some 5 to 10 sites while getting the links i am getting some urls like this
../tets/index.html
if it is /test/index.html
we can add with base url http://www.example.com/test/index.html
what can i do for this kind of urls.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
像这样的网址是 相对网址 。 “..”表示“父目录”,而“.”表示“父目录”。简单来说就是“这个目录”,就像在 bash 中一样。
例如,如果您正在查看此页面: http://www.someserver/test/foo /bar.html ,里面有一个像这样的url:“../baz/foobar.html”,它实际上会指向 http://www.someserver/test/baz/foobar.html 我想。只是测试一下。
Url like these are relative urls . ".." means "parent directory", whereas "." simply means "this directory", as in bash.
For instance, if you are looking at this page : http://www.someserver/test/foo/bar.html , and there is an url like this in it : "../baz/foobar.html", it will in fact point to http://www.someserver/test/baz/foobar.html I think. Just test.
使用
dirname()
获取基本目录,删除..< /code> 使用
substr()
并将其附加到那里。像这样:输出:
Use
dirname()
to get base directoy, remove the..
usingsubstr()
and append it there. Like this:This outputs:
查看此 URL 规范化 维基百科页面。
Take a look into this URL Normalization Wikipedia page.