如何从 SAS URL 访问方法中删除 HTML?
使用SAS URL访问方法读取网页时,删除所有HTML标签的最便捷方法是什么?
What is the most convenient way to remove all the HTML tags when using the SAS URL access method to read web pages?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
这应该做你想做的。 删除 <> 之间的所有内容 包括<> 并只留下内容(又名innerHTML)。
This should do what you want. Removes everything between the <> including the <> and leaves just the content (aka innerHTML).
我认为该方法不是从页面中删除 HTML,而是确定您尝试捕获的数据的标准模式。 这就是perl/正则表达式类型的方法论。
一个例子可能是徽标图像后面有很多字符的一些数据或表格。 您可以编写一个脚本来仅保留数据。
如果你想发布一些 html,也许我们可以帮助解码它。
I think the methodology is not to remove the HTML from the page, but identify the standard patterns for the data you are trying to capture. This is the perl / regular expressions type methodology.
An example might be some data or table that comes so many characters after the logo image. You could write a script to keep only the data.
If you want to post up some html, maybe we can help decode it.