当前位置：文江博客话题详情

以编程方式清理 Word 生成的 HTML，同时保留样式？

发布于 2024-09-01 04:50:59 字数 737 浏览 3 评论 0原文

在我现在的公司，我们已经有十年的历史了......让我们称之为“Hello World”应用程序。

在想要创建它的新版本的同时，我们也想保留旧的条目。这些旧条目包含可怕的 Word 生成的 HTML，以前从未过滤过。

如果我们迁移到较新的系统，我更愿意清理和过滤 HTML，以便使网站尽可能符合 HTML 标准。
然而，只需像 Jeff Atwood 在他的文章中描述的那样清理该代码博客或我知道的任何其他方式也会破坏风格和格式。

现在，这可能会导致我们的用户反抗，然后一切都会崩溃——这不是一个好主意。

所以问题是：可以在保留基本格式的同时清理 Word 的 HTML 吗？（例如：着色、斜体、粗体文本等）

最好使用公开可用的代码或库，例如 HTML Tidy，C# 中的示例将非常感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

巾帼英雄 2024-09-08 04:50:59

有几个可用的选项，但您当然可以使用 Jeff Atwood 的作为编写您自己的代码的良好起点。如果是这样，您可能会获得对结果的微调控制 - 但请注意，结果永远不会 100% 准确，因为所有额外的 ms 代码实际上都在那里，以确保尽可能多地保真原始文档（至少在 IE 中用于往返目的）。但大多数代码确实保留了大部分格式。

以下是一些可能有用的代码库：

Microsoft Word 2000 HTML Mess
Cleaner（注意：这个卖的是
源代码）
MS Word HTML 清理工具（注意：
打算与 FCKEditor 一起使用，但是
源可用）

如果您只是想要批处理（并且不关心拥有代码库），则 Office 2000 HTML Filter 2.0 可能是您最好的选择 - 请在 TechRepublic。

回复收藏 0 原文

等待我真够勒 2024-09-08 04:50:59

tidy 非常适合清理和规范 html 语法。

它是非常可配置的，因此对于批量清理来说，很可能
命令行工具将满足您的需要。你没有
自己编写 tidylib 程序。

如果您需要对内容进行更多涉及的清理 -
不仅仅是语法 - 一些 xslt 处理器（ xsltproc 就是其中之一）
有一个“--html”选项：输入文件由 html 解析器解析
一个 xml 解析器。然后您可以使用 xslt 来转换或重新排列
内容，然后使用 html 序列化器输出。

回复收藏 0 原文

乖乖 2024-09-08 04:50:59

这个问题提出了类似的问题问题，尽管存在，但不需要编程清理。

其中一个答案提到 Office 2007 有一个“发布”->“博客”菜单项，据说可以产生良好的结果并且速度很快。您可以从 Word 创建宏来调用此命令，然后以编程方式调用该宏。您可以使用 COM 或 VBScript 启动 Word 并运行宏，或者使用 /m 开关运行 winword.exe。这里给出了 winword.exe 的命令行开关< /a>.

回复收藏 0 原文

羅雙樹 2024-09-08 04:50:59

一定要有预算。这可能工作。购买前先尝试一下。

回复收藏 0 原文

谢绝鈎搭 2024-09-08 04:50:59

看看 FCKEditor ，它是一个基于 javascript 的编辑器，所以看看源代码可能会为您提供很多关于删除 Word HTML 时要查找的内容的提示。

特别是查看文件 /editor/dialog/fck_paste.html。有一个功能，“CleanWord”可以完成这一切。我已经修改了它以便在我自己的应用程序中使用（轻微修改，即不同的替换等...），但是它在摆脱丑陋的 Word HTML 方面做得很好。

它使用正则表达式来查找和替换，这意味着您可以轻松地添加正则表达式并将其导入您选择的另一种编程语言中以运行批处理作业。

回复收藏 0 原文

零度℉ 2024-09-08 04:50:59

PSPad 包括 tidy，它有一个“清理 Microsoft Word 2000”选项，我之前曾在 Word 文档中使用过该选项它是可定制的。

回复收藏 0 原文

泪眸﹌ 2024-09-08 04:50:59

HtmlRuleSanitizer （可在 NuGet) 可以开箱即用地为您执行此操作。

它使用 HTML Agility Pack 来解析 HTML 代码，并使用一组基于白名单的规则来保留格式。默认规则集将消除几乎所有冗长的 MS Word HTML 代码，同时保留基本文档结构，如标题标签、粗体、斜体等。

如果您想保留特定的 MS Word 样式，则必须创建或调整规则根据您的用例进行设置。

例如，它可以轻松转换 MS Word 为包含以下内容的文档生成的数百行 HTML 代码：

标题一
段落
标题
两个
粗体
斜体
链接

仅适用于以下一组相对干净的 HTML：

<html>
<body>
<h1><span>Heading</span> <span>one</span></h1>
<p><span>Paragraph</span></p>
<h2><span>Heading</span> <span>two</span></h2>
<p><span><strong>Bold</strong></span><strong></strong></p>
<p><span><i>Italic</i></span><i></i></p>
<p><i><a href="http://www.google.com/" target="_blank" rel="nofollow">Link</a></i></p>
</body>
</html>

请注意，MS Word 经常执行的一些烦人的操作（例如打开和关闭标记）（请参阅示例中的 span 元素）并未完全清除。

The HtmlRuleSanitizer (available on NuGet) can do this for you out of the box.

It uses the HTML Agility Pack to parse the HTML code and uses a set of white list based rules to preserve formatting. The default rule sets will get rid of virtually all the verbose MS Word HTML code while preserving basic document structure like header tags, bold, italic, etc.

If you want to preserve specific MS Word styling you'll have to create or adapt a rule set for your use case.

It will for example easily convert the hundreds of lines of HTML code which MS Word would generate for a document containing the following:

Heading one
Paragraph
Heading
two
Bold
Italic
A Link

To only the following set of relatively clean HTML:

<html>
<body>
<h1><span>Heading</span> <span>one</span></h1>
<p><span>Paragraph</span></p>
<h2><span>Heading</span> <span>two</span></h2>
<p><span><strong>Bold</strong></span><strong></strong></p>
<p><span><i>Italic</i></span><i></i></p>
<p><i><a href="http://www.google.com/" target="_blank" rel="nofollow">Link</a></i></p>
</body>
</html>

Note that some of the annoying stuff MS Word is doing like opening and closing tags very often (see the span elements in the example) are not fully cleaned out.

回复收藏 0 原文