如何使用正则表达式提取 URL 的子字符串
使用一些非结构化数据并希望从 URL 中提取 utm_campaign 名称。下面是一个 URL 的示例。我想每次提取“utm_campaign=”后面但“&utm_source”之前的名称。我怎样才能用正则表达式做到这一点?
https://data.io/?utm_campaign=branded&utm_source=google&utm_medium=cpc&utm_term=data&gclid=CjwKCAjwiuuRBhBvEiwAFXKaNGwDI2MaPLQpb9duvQZ2XeOA4vpk7FuBTqhYiJ2ysnirdUh8SZ6-zxoC4VYQAvD_BwE
我尝试过各种正则表达式函数,例如:
regexp_substr(get_path(event_properties, 'url'), '(\[A-Za-z\_-\]\*)-utm_campaign')
Working with some unstructured data and hoping to extract utm_campaign names from URLs. Here's an example of one URL. I'd like to extract the name following "utm_campaign=" but before "&utm_source" each time. How can I do this with regex?
https://data.io/?utm_campaign=branded&utm_source=google&utm_medium=cpc&utm_term=data&gclid=CjwKCAjwiuuRBhBvEiwAFXKaNGwDI2MaPLQpb9duvQZ2XeOA4vpk7FuBTqhYiJ2ysnirdUh8SZ6-zxoC4VYQAvD_BwE
I've tried various regex functions, for instance:
regexp_substr(get_path(event_properties, 'url'), '(\[A-Za-z\_-\]\*)-utm_campaign')
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
使用
parse_url
更容易完成,或者您可以使用
split_part
分而治之Easier done with
parse_url
Or you can divide and conquer using
split_part
试试这个:
参考:REGEXP_SUBSTR
Try this one:
Reference: REGEXP_SUBSTR