如何获取文本和使用 Jericho HTML 解析器的特定标签之间的其他标签?

发布于 2024-10-31 09:15:55 字数 485 浏览 7 评论 0原文

我有一个包含特定标签的 HTML 文件,例如 ,结束标签是

。现在我想获取这些标签之间的所有内容。我正在 Java 中使用 Jericho HTML 解析器来解析 HTML。是否可以获取文本& Jericho 解析器中特定标签之间的其他标签?

例如:

<TABLE  cellspacing=0>    
  <tr><td>HELLO</td>  
  <td>How are you</td></tr>
</TABLE>

回答:

<tr><td>HELLO</td>  
<td>How are you</td></tr> 

I have a HTML file which contains a specific tag, e.g. <TABLE cellspacing=0> and the end tag is </TABLE>. Now I want to get everything between those tags. I am using Jericho HTML parser in Java to parse the HTML. Is it possible to get the text & other tags between specific tags in Jericho parser?

For example:

<TABLE  cellspacing=0>    
  <tr><td>HELLO</td>  
  <td>How are you</td></tr>
</TABLE>

Answer:

<tr><td>HELLO</td>  
<td>How are you</td></tr> 

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

小霸王臭丫头 2024-11-07 09:15:55

一旦找到表的元素,您所要做的就是调用 getContent().toString()。以下是使用示例 HTML 的快速示例:

Source source = new Source("<TABLE  cellspacing=0>\n" +
    "  <tr><td>HELLO</td>  \n" +
    "  <td>How are you</td></tr>\n" +
    "</TABLE>");

Element table = source.getFirstElement();
String tableContent = table.getContent().toString();

System.out.println(tableContent);

输出:

    <tr><td>HELLO</td>  
    <td>How are you</td></tr>

Once you have found the Element of your table, all you have to do is call getContent().toString(). Here's a quick example using your sample HTML:

Source source = new Source("<TABLE  cellspacing=0>\n" +
    "  <tr><td>HELLO</td>  \n" +
    "  <td>How are you</td></tr>\n" +
    "</TABLE>");

Element table = source.getFirstElement();
String tableContent = table.getContent().toString();

System.out.println(tableContent);

Output:

    <tr><td>HELLO</td>  
    <td>How are you</td></tr>
埋情葬爱 2024-11-07 09:15:55

Aby,我遍历所有元素的代码并显示在屏幕上。也许对你有帮助。

        List<Element> elementListTd = source.getAllElements(HTMLElementName.TD);

        //Scroll through the list of elements "td" page
        for (Element element : elementListTd) {
            if (element.getAttributes() != null) {
                String td = element.getAllElements().toString();
                String tag = "td";
                System.out.println("TD: " + td);
                System.out.println(element.getContent());
                String conteudoAtributo = element.getTextExtractor().toString();
                System.out.println(conteudoAtributo);

                if (td.contains(palavraCompara)) {
                    tabela.add(conteudoAtributo);
                }

            }

Aby, I walk down the code for all elements and show on screen. Maybe help you.

        List<Element> elementListTd = source.getAllElements(HTMLElementName.TD);

        //Scroll through the list of elements "td" page
        for (Element element : elementListTd) {
            if (element.getAttributes() != null) {
                String td = element.getAllElements().toString();
                String tag = "td";
                System.out.println("TD: " + td);
                System.out.println(element.getContent());
                String conteudoAtributo = element.getTextExtractor().toString();
                System.out.println(conteudoAtributo);

                if (td.contains(palavraCompara)) {
                    tabela.add(conteudoAtributo);
                }

            }
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文