用C#的Regex正则表达式取出网页的内容

发布于 2021-11-24 14:52:41 字数 341 浏览 769 评论 5

站长:

      <td align="left">
       张三
      </td>
     </tr>
    
    
    <tr class="phoneinfo">
     <td class="phonetitle" align="right">
      




想取出除了html标签的 站长: 和 张三 这几个字 求regex的正则表达式怎么写

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(5

如日中天 2021-11-26 22:38:09
System.Text.RegularExpressions.Regex regHtml = new System.Text.RegularExpressions.Regex("<[^>]*>");
string s = regHtml.Replace(InputString,"");

孤独患者 2021-11-26 22:04:39

亲,如果是用c#你要手动去除rn的换行回车符

绝情姑娘 2021-11-26 21:51:37

来一段PHP的,PHP VS C#

<?php 
header("Content-Type:text/html;charset=utf-8");
echo strip_tags(file_get_contents(dirname(__FILE__)  . "/1.html"));

如此安好 2021-11-26 21:34:35
/**////提取HTML代码中文字的C#函数     
  ///   <summary>   
  ///   去除HTML标记   
  ///   </summary>   
  ///   <param   name="strHtml">包括HTML的源码   </param>   
  ///   <returns>已经去除后的文字</returns>   
  using   System;   
  using   System.Text.RegularExpressions;   
  public   class   StripHTMLTest{   
      public   static   void   Main(){   
          string   s=StripHTML("<HTML><HEAD><TITLE>中国石龙信息平台</TITLE></HEAD><BODY>faddfs龙信息平台</BODY></HTML>");   
          Console.WriteLine(s);   
      }   
    
      public   static   string   StripHTML(string   strHtml){   
          string   []   aryReg   ={   
                      @"<script[^>]*?>.*?</script>",   
    
                      @"<(/s*)?!?((w+:)?w+)(w+(s*=?s*(([""'])(http://www.cnblogs.com/xchit/admin/file://[%22%22'tbnr]%7c[%5e/7])*?7|w+)|.{0})|s)*?(/s*)?>",   
                      @"([rn])[s]+",   
                      @"&(quot|#34);",   
                      @"&(amp|#38);",   
                      @"&(lt|#60);",   
                      @"&(gt|#62);",     
                      @"&(nbsp|#160);",     
                      @"&(iexcl|#161);",   
                      @"&(cent|#162);",   
                      @"&(pound|#163);",   
                      @"&(copy|#169);",   
                      @"&#(d+);",   
                      @"-->",   
                      @"<!--.*n"   
                    };   
    
          string   []   aryRep   =   {   
                        "",   
                        "",   
                        "",   
                        """,   
                        "&",   
                        "<",   
                        ">",   
                        "   ",   
                        "xa1",//chr(161),   
                        "xa2",//chr(162),   
                        "xa3",//chr(163),   
                        "xa9",//chr(169),   
                        "",   
                        "rn",   
                        ""   
                      };   
    
          string   newReg   =aryReg[0];   
          string   strOutput=strHtml;   
          for(int   i   =   0;i<aryReg.Length;i++){   
              Regex   regex   =   new   Regex(aryReg[i],RegexOptions.IgnoreCase);   
              strOutput   =   regex.Replace(strOutput,aryRep[i]);   
          }   
          strOutput.Replace("<","");   
          strOutput.Replace(">","");   
          strOutput.Replace("rn","");   
          return   strOutput;   
      }   
  }

归途 2021-11-26 21:03:17
System.Text.RegularExpressions.Regex regHtml = new System.Text.RegularExpressions.Regex("<[^>]*>");
string s = regHtml.Replace(InputString,"");

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文