当前位置：文江博客话题详情

HTML Python Perl rendering rendering-engine

使用 WebKit（或 Gecko）查找渲染的 HTML 元素位置

发布于 2024-07-24 22:16:26 字数 348 浏览 17 评论 0原文

我想获取浏览器呈现网页的所有 HTML 元素的尺寸（坐标），即它们呈现的位置。例如，(top-left,top-right,bottom-left,bottom-right)

在 lxml 中找不到此内容。那么，Python 中有没有库可以做到这一点呢？我还查看了 Perl 中的 Mechanize::Mozilla，但是，这似乎很难配置/设置。

我认为满足我的要求的最佳方法是使用渲染引擎 - 例如 WebKit 或 Gecko。

是否有可用于上述两个渲染引擎的 perl/python 绑定？ Google 搜索有关如何“插入”WebKit 渲染引擎的教程并没有多大帮助。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（7）

小ぇ时光︴ 2024-07-31 22:16:26

lxml 根本不会帮助你。它根本不关心前端渲染。

要准确地了解某些内容的渲染方式，您需要渲染它。为此，您需要连接到浏览器，生成页面并在页面上运行一些 JS 来查找 DOM 元素并获取其属性。

这是完全可能的，但我认为您应该首先了解网站屏幕截图工厂的工作原理（因为它们将共享启动浏览器并显示正确页面所需的 90％的代码）。

您可能仍想使用 lxml 将 javascript 注入页面。

回复收藏 0 原文

一个人练习一个人 2024-07-31 22:16:26

我同意 Oli，渲染有问题的页面并通过 JavaScript 检查 DOM 是最实用的方法。

您可能会发现 jQuery 在这里非常有用：

$(document).ready(function() {
    var elem = $("div#some_container_id h1")
    var elem_offset = elem.offset();
    /* elem_offset is an object literal:
       elem_offset = { x: 25, y: 140 }
    */
    var elem_height = elem.height();
    var elem_width = elem.width();
    /* bottom_right is then
       { x: elem_offset.x + elem_width,
         y: elem_offset.y + elem_height }
});

相关文档是此处。

I agree with Oli, rendering the page in question and inspecting DOM via JavaScript is the most practical way IMHO.

You might find jQuery very useful here:

$(document).ready(function() {
    var elem = $("div#some_container_id h1")
    var elem_offset = elem.offset();
    /* elem_offset is an object literal:
       elem_offset = { x: 25, y: 140 }
    */
    var elem_height = elem.height();
    var elem_width = elem.width();
    /* bottom_right is then
       { x: elem_offset.x + elem_width,
         y: elem_offset.y + elem_height }
});

Related documentation is here.

回复收藏 0 原文

单挑你×的.吻 2024-07-31 22:16:26

是的，Javascript 是正确的选择：

var allElements=document.getElementsByTagName("*"); 将选择页面中的所有元素。

然后您可以循环遍历它，从每个元素中提取您需要的信息。关于获取元素的尺寸和位置的良好文档在这里。

getElementsByTagName 返回节点列表而不是数组（因此，如果您的 JS 更改了 HTML，这些更改将反映在节点列表中），因此我很想将数据构建到 AJAX 帖子中，并在完成后将其发送到服务器。

回复收藏 0 原文

情归归情 2024-07-31 22:16:26

我无法找到任何简单的解决方案（即 Java/Perl/Python :) 来连接 Webkit/Gecko 来解决上述渲染问题。我能找到的最好的是用 Java 编写的 Lobo 渲染引擎，它有一个非常清晰的 API，可以完全满足我的需求- 访问 DOM 和 HTML 元素的渲染属性。

JRex 是 Gecko 渲染引擎的 Java 包装器。

回复收藏 0 原文

圈圈圆圆圈圈 2024-07-31 22:16:26

您有三个主要选项：

1) http://www.gnu.org/software/pythonwebkit基于 webkit；

2) python-comtypes 用于访问 MSHTML（仅限 Windows）

3) hulahop (python-xpcom) 基于 xulrunner

您应该获取 pyjamas-desktop 源代码并在 pyjd/ 目录中查找“启动”代码，这将允许您创建一个 Web 浏览器应用程序，并在引擎调用“页面加载”回调后开始操作 DOM。

您可以执行节点遍历，并且可以访问所需的 DOM 元素的属性。你可以查看 pyjamas/library/pyjamas/DOM.py 模块来查看你需要使用的许多东西来完成你想做的事情。

但如果上述三个选项还不够，那么您应该阅读页面 http://wiki.python.org/ moin/WebBrowserProgramming 了解更多选项，其中许多选项已被其他人提到过。

湖

回复收藏 0 原文

时光暖心i 2024-07-31 22:16:26

您可能会考虑查看 WWW::Selenium。有了它（和 selenium rc），你可以从内部操纵字符串 IE、Firefox 或 Safari Perl 的。

回复收藏 0 原文

忆离笙 2024-07-31 22:16:26

问题是当前的浏览器渲染的内容并不完全相同。如果您正在寻找符合标准的做事方式，您可能可以用 Python 编写一些东西来呈现页面，但这将是一项繁重的工作。

您可以使用 wxWidgets 中的 wxHTML 控件单独渲染页面的每个部分以获得关于它的大小的想法。

如果您有 Mac，您可以尝试 WebKit。同一篇文章也对其他平台上的解决方案提出了一些建议。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

666 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

知足的幸福

文章 0 评论 0

我一向站在原地

文章 0 评论 0

慕烟庭风

文章 0 评论 0

秉忠贞之诚守退让之实

文章 0 评论 0

小兔几

文章 0 评论 0

mb_3y7WUgWY

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文