python 在 Linux 上将 Microsoft Office 文档转换为纯文本

发布于 2024-07-16 07:17:51 字数 133 浏览 4 评论 0原文

关于在 Linux 上使用 python 将 .doc、.ppt 和 .xls 转换为纯文本的方法有什么建议吗? 实际上任何转换方法都会有用。 我已经考虑过使用 Open Office,但是我想要一个不需要安装 Open Office 的解决方案。

Any recomendations on a method to convert .doc, .ppt, and .xls to plain text on linux using python? Really any method of conversion would be useful. I have already looked at using Open Office but, I would like a solution that does not require having to install Open Office.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(7

挽你眉间 2024-07-23 07:17:51

我会选择命令行解决方案(然后使用 Python 子进程模块从 Python 运行工具)。

msword (catdoc)、excel (xls2csv) 和 ppt (catppt) 的转换器可在此处(以源形式)找到:http://vitus.wagner.pp.ru/software/catdoc/

无法真正评论 catppt 的实用性,但 catdoc 和 xls2csv 工作得很好!

但一定要先搜索你的发行版存储库...在 ubuntu 上,例如 catdoc 只是一个快速的 apt-getaway。

I'd go for the command line-solution (and then use the Python subprocess module to run the tools from Python).

Convertors for msword (catdoc), excel (xls2csv) and ppt (catppt) can be found (in source form) here: http://vitus.wagner.pp.ru/software/catdoc/.

Can't really comment on the usefullness of catppt but catdoc and xls2csv work great!

But be sure to first search your distributions repositories... On ubuntu for example catdoc is just one fast apt-get away.

甜点 2024-07-23 07:17:51

将 Microsoft Office 文档转换为 HTML 或其他格式的常用工具是 mswordview,后来更名为 vwWare

如果您正在寻找命令行工具,他们实际上建议使用 AbiWord 来执行转换:

AbiWord --to=txt

如果您正在寻找库,请从 wvWare 概述页面。 他们还维护读取 MS Office 文档的库和工具列表

The usual tool for converting Microsoft Office documents to HTML or other formats was mswordview, which has since been renamed to vwWare.

If you're looking for a command-line tool, they actually recommend using AbiWord to perform the conversion:

AbiWord --to=txt

If you're looking for a library, start on the wvWare overview page. They also maintain a list of libraries and tools which read MS Office documents.

痕至 2024-07-23 07:17:51

在命令行中,反词wv 非常适合 .doc 文件。 (不是 Python 解决方案,但它们易于安装且速度很快。)

At the command line, antiword or wv work very nicely for .doc files. (Not a Python solution, but they're easy to install and fast.)

扬花落满肩 2024-07-23 07:17:51

这里同样的问题。 下面是我的简单脚本,用于使用 catdoc 将目录“docs/”中的所有文档文件转换为目录“txts/”。 希望它能帮助某人:

#!/usr/bin/env python 
# -*- coding: utf-8 -*-

import glob, re, os
f = glob.glob('docs/*.doc') + glob.glob('docs/*.DOC')

outDir = 'txts'
if not os.path.exists(outDir):
    os.makedirs(outDir)
for i in f:
    os.system("catdoc -w '%s' > '%s'" %
              (i, outDir + '/' + re.sub(r'.*/([^.]+)\.doc', r'\1.txt', i,
                                   flags=re.IGNORECASE)))

Same problem here. Below is my simple script to convert all doc files in dir 'docs/' to dir 'txts/' using catdoc. Hope it will help someone:

#!/usr/bin/env python 
# -*- coding: utf-8 -*-

import glob, re, os
f = glob.glob('docs/*.doc') + glob.glob('docs/*.DOC')

outDir = 'txts'
if not os.path.exists(outDir):
    os.makedirs(outDir)
for i in f:
    os.system("catdoc -w '%s' > '%s'" %
              (i, outDir + '/' + re.sub(r'.*/([^.]+)\.doc', r'\1.txt', i,
                                   flags=re.IGNORECASE)))
花心好男孩 2024-07-23 07:17:51

对于处理 Excel 电子表格 xlwt 很好。 但它对 .doc.ppt 文件没有帮助。

(您可能还听说过 PyExcelerator。xlwt 是它的一个分支,并且维护得更好,所以我认为您最好使用 xlwt。)

For dealing with Excel Spreadsheets xlwt is good. But it won't help with .doc and .ppt files.

(You may have also heard of PyExcelerator. xlwt is a fork of this and better maintained so I think you'd be better of with xlwt.)

萌酱 2024-07-23 07:17:51

过去,我在使用 XSLT 将基于 XML 的办公文件处理成可用的文件方面取得了一些成功。 它不一定是基于 python 的解决方案,但它确实可以完成工作。

I've had some success at using XSLT to process the XML-based office files into something usable in the past. It's not necessarily a python-based solution, but it does get the job done.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文