如何从 SAS URL 访问方法中删除 HTML?

发布于 2024-07-23 08:56:16 字数 46 浏览 5 评论 0原文

使用SAS URL访问方法读取网页时,删除所有HTML标签的最便捷方法是什么?

What is the most convenient way to remove all the HTML tags when using the SAS URL access method to read web pages?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

奶气 2024-07-30 08:56:16

这应该做你想做的。 删除 <> 之间的所有内容 包括<> 并只留下内容(又名innerHTML)。

Data HTMLData;

filename INDEXIN URL "http://www.zug.com/";

input;

textline = _INFILE_;

/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);

run;

This should do what you want. Removes everything between the <> including the <> and leaves just the content (aka innerHTML).

Data HTMLData;

filename INDEXIN URL "http://www.zug.com/";

input;

textline = _INFILE_;

/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);

run;
§普罗旺斯的薰衣草 2024-07-30 08:56:16

我认为该方法不是从页面中删除 HTML,而是确定您尝试捕获的数据的标准模式。 这就是perl/正则表达式类型的方法论。

一个例子可能是徽标图像后面有很多字符的一些数据或表格。 您可以编写一个脚本来仅保留数据。

如果你想发布一些 html,也许我们可以帮助解码它。

I think the methodology is not to remove the HTML from the page, but identify the standard patterns for the data you are trying to capture. This is the perl / regular expressions type methodology.

An example might be some data or table that comes so many characters after the logo image. You could write a script to keep only the data.

If you want to post up some html, maybe we can help decode it.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文