删除 之外的所有内容和
随机文本
在 HTML 中我正在尝试使用 ac# http 模块从网页中剥离数据。我只想要原始文本和图像。我怎样才能把其他的东西都去掉呢?
private static Regex reg = new Regex(@"<img src=\t????????");
public override void Write(byte[] buffer, int offset, int count)
{
byte[] data = new byte[count];
Buffer.BlockCopy(buffer, offset, data, 0, count);
string html = System.Text.Encoding.Default.GetString(buffer);
html = reg.Replace(html, string.Empty);
byte[] outdata = System.Text.Encoding.Default.GetBytes(html);
_sink.Write(outdata, 0, outdata.GetLength(0));
}
I am trying to strip data out of a web page using a c# http module. I just want raw text and images. How can I strip everything else out?
private static Regex reg = new Regex(@"<img src=\t????????");
public override void Write(byte[] buffer, int offset, int count)
{
byte[] data = new byte[count];
Buffer.BlockCopy(buffer, offset, data, 0, count);
string html = System.Text.Encoding.Default.GetString(buffer);
html = reg.Replace(html, string.Empty);
byte[] outdata = System.Text.Encoding.Default.GetBytes(html);
_sink.Write(outdata, 0, outdata.GetLength(0));
}
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
使用 HTML 解析器,例如 HtmlAgilityPack。
Use an HTML parser, such as the HtmlAgilityPack.