提取主机+路径中的一个文件夹
你能帮我找出一个正则表达式,
- 当其后面的路径中没有指定文件夹时,该正则表达式将从 url:
host name 中提取 例如
http://jj.com/'-> 'jj.com http://jj.com/index.php'-> 'jj.com http://jj.com/query?q=http://kk.uk' -> 'jj.com
主机名 + 路径中的一个文件夹(当路径中至少指定了一个文件夹时) 例如
'http://jj.com/site/index.php' -> 'jj.com/site' 'http://jj.com/site/second/aldldls.html' -> 'jj.com/site'
是否可以仅使用一个正则表达式来做到这一点?
顺便说一句,我将使用 hive 中的 regex_extract 函数,但任何可以做到这一点的正则表达式变体(例如 perl 正则表达式)都将非常有用。
Could you help me figure out a regular expression that would extract from url:
host name when there is no folder specified in the path that follows it
e.g.http://jj.com/' -> 'jj.com http://jj.com/index.php' -> 'jj.com http://jj.com/query?q=http://kk.uk' -> 'jj.com
host name + one folder from path when there is at least one folder specified in the path
e.g.'http://jj.com/site/index.php' -> 'jj.com/site' 'http://jj.com/site/second/aldldls.html' -> 'jj.com/site'
Is it possible to do that with just one regular expression?
BTW I will be using regex_extract function from hive but any variation of regex (e.g. perl regex) that can do that would be extremely useful.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
data:image/s3,"s3://crabby-images/d5906/d59060df4059a6cc364216c4d63ceec29ef7fe66" alt="扫码二维码加入Web技术交流群"
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
输出
Output
输出:
Output: