从 URL 中提取 TLD,并对每个 TLD 文件的域和子域进行排序
我有一个包含数百万个网址的列表。 我需要提取每个网址的 TLD 并为每个 TLD 创建多个文件。 例如,收集所有以 .com 作为 tld 的 url,并将其转储到 1 个文件中,将 .edu tld 转储到另一个文件中,依此类推。 此外,在每个文件中,我必须按域的字母顺序对其进行排序,然后按子域等进行排序。
任何人都可以给我一个在 perl 中实现此功能的先机吗?
I have a list of million urls.
I need to extract the TLD for each url and create multiple files for each TLD.
For example collect all urls with .com as tld and dump that in 1 file, another file for .edu tld and so on.
Further within each file, I have to sort it alphabetically by domains and then by subdomains etc.
Can anyone give me a head start for implementing this in perl?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
host
方法获取主机,get_root_domain
解析主机名。tld
或suffix
方法获取真实TLD或伪TLD。host
method to get the host,get_root_domain
to parse the host name.tld
orsuffix
method to get the real TLD or the pseudo TLD.