当前位置：文江博客话题详情

想从网页中提取标签，哪中方法比较合适，求指点？

发布于 2021-11-04 20:17:33 字数 109 浏览 789 评论 10

我想对诸如html、xml等网页文件进行处理，只保留标签及标签名以及属性，文本和注释均不要，我也看了好多包诸如htmlparse、jsoup、sax、dom4j等，不知道采用哪种方法比较好做，求指点，谢谢！

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

成熟稳重的好男人 2021-11-09 01:01:55

java -Xmx1024m 这样来运行，应该不内存不够了吧

回复收藏 0

把回忆走一遍 2021-11-09 01:01:46

还是不行啊！

回复收藏 0

旧城烟雨 2021-11-09 00:58:34

搞那么大的HTML，继续加大，要不就是哪里出问题了

回复收藏 0

草莓味的萝莉 2021-11-09 00:56:10

如何利用jsoup把标签中的属性全部删除？谢谢

回复收藏 0

狠疯拽 2021-11-09 00:49:52

我利用Jsoup和正则表达式写了个程序，可以删除注释和文本，但是当网页大于10MB时就会出现内存溢出的错误，不知道为什们，我的程序是：

import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.safety.Whitelist;
import org.jsoup.select.Elements;

 
public class Test { 
    private static String text;

    public static void main(String []args) throws Exception{
         Test t= new Test();
         t.test();
    }
    public void test() throws IOException{
        BufferedReader buf=null;
        buf=new BufferedReader(new InputStreamReader(System.in));
        String s=null;
        System.out.print("请输入文件路径:");
        try{
            s=buf.readLine();
        }catch(IOException e){
            e.printStackTrace();
        }
        System.out.println(s);
        File f=new File(s);
        //File f=new File("d:"+File.separator+"test");//新建根目录
        String str[]=f.list();//获得文件序列
        for(int i=0;i<str.length;i++){
            File f1=new File(f+File.separator+str[i]);
            //File f1=new File("d:"+File.separator+"test"+File.separator+str[i]);//新建并获得文件目录
            Document doc = Jsoup.parse(f1,"UTF-8","http://www.html.net/");//利用Jsoup对获得的网页进行解析
            Document doc2 = Jsoup.parse(f1, "UTF-8");
            String str2=doc.html();
            str2=str2.replaceAll("<!.+>","");//删除注释
            str2=str2.replaceAll("<!--[\s\S]*?-->","");//删除注释
            str2=str2.replaceAll("<![\s\S]*?-->","");//删除注释
            String regex = "<[^>]+>";
            Pattern p = Pattern.compile(regex);
            Matcher m = p.matcher(str2);
            StringBuilder sb = new StringBuilder();
            while(m.find()){
                sb.append(m.group());
            }
            String newStr = sb.toString();
            Document ndoc=Jsoup.parse(newStr);
            File nf=new File("d:"+File.separator+"test_back");//新建一个文件夹目录
            nf.mkdir();//新建文件夹
            File output= new File("d:"+File.separator+"test_back"+File.separator+str[i]);//定义输出地址
            output.createNewFile();//新建输出文件
            OutputStreamWriter outputsw = new OutputStreamWriter(new FileOutputStream("d:"+File.separator+"test_back"+File.separator+str[i]), "UTF-8");
            outputsw.write(ndoc.html());
            outputsw.close();
        }
    }
}

回复收藏 0