如何在 Java 中使用 Jericho 查找自定义开始标记?

发布于 2024-09-15 18:04:21 字数 804 浏览 7 评论 0原文

正如标题所示,我试图以 的形式匹配非标准 StartTagType,

我将如何对 Jericho 执行此操作?

编辑

我创建了以下自定义 StartTagType:

PrimoResultStartTagType primoSTT = new PrimoResultStartTagType("search", "<sear:DOC", ">", EndTagType.NORMAL, false, true, true);

...并且:

class PrimoResultStartTagType extends StartTagType {

    protected PrimoResultStartTagType(String arg0, String arg1, String arg2, EndTagType arg3, boolean arg4, boolean arg5, boolean arg6) {
        super(arg0, arg1, arg2, arg3, arg4, arg5, arg6);
    }

    @Override
    protected Tag constructTagAt(Source arg0, int arg1) {
        return null;
    }

}

但是,当我执行 source.getAllElements(...) 时,我没有得到任何匹配项。

As the title says, I'm trying to match a non-standard StartTagType in the form of <foo:bar ...>

How would I do this with Jericho?

Edit:

I have created the follow custom StartTagType:

PrimoResultStartTagType primoSTT = new PrimoResultStartTagType("search", "<sear:DOC", ">", EndTagType.NORMAL, false, true, true);

...and:

class PrimoResultStartTagType extends StartTagType {

    protected PrimoResultStartTagType(String arg0, String arg1, String arg2, EndTagType arg3, boolean arg4, boolean arg5, boolean arg6) {
        super(arg0, arg1, arg2, arg3, arg4, arg5, arg6);
    }

    @Override
    protected Tag constructTagAt(Source arg0, int arg1) {
        return null;
    }

}

However, when i do a source.getAllElements(...), I get no matches.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

断肠人 2024-09-22 18:04:21

也许会有所帮助:

示例 html:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN" "http://www.w3.org/TR/html4/frameset.dtd">
<html>
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
    <title>StartTagType (Jericho HTML Parser 3.1)</title>
</head>

<body>

<span>simple tag</span>

<test:name>custom tag</test:name>

</body>

</html>

和示例代码:

public class Main {

public static void main(String[] args)
        throws IOException {

    URL url = Main.class.getClassLoader().getResource("test.html");
    Source source = new Source(url);
    List<Element> elementList = source.getAllElements("test:name");
    for (Element element : elementList) {
        System.out.println("Custom tag content: " + element.getContent().toString());
    }
}

}

输出:

Custom tag content: custom tag

Maybe it will help:

Example html:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN" "http://www.w3.org/TR/html4/frameset.dtd">
<html>
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
    <title>StartTagType (Jericho HTML Parser 3.1)</title>
</head>

<body>

<span>simple tag</span>

<test:name>custom tag</test:name>

</body>

</html>

And sample code:

public class Main {

public static void main(String[] args)
        throws IOException {

    URL url = Main.class.getClassLoader().getResource("test.html");
    Source source = new Source(url);
    List<Element> elementList = source.getAllElements("test:name");
    for (Element element : elementList) {
        System.out.println("Custom tag content: " + element.getContent().toString());
    }
}

}

Output:

Custom tag content: custom tag
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文