python 在 Linux 上将 Microsoft Office 文档转换为纯文本
关于在 Linux 上使用 python 将 .doc、.ppt 和 .xls 转换为纯文本的方法有什么建议吗? 实际上任何转换方法都会有用。 我已经考虑过使用 Open Office,但是我想要一个不需要安装 Open Office 的解决方案。
Any recomendations on a method to convert .doc, .ppt, and .xls to plain text on linux using python? Really any method of conversion would be useful. I have already looked at using Open Office but, I would like a solution that does not require having to install Open Office.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(7)
我会选择命令行解决方案(然后使用 Python 子进程模块从 Python 运行工具)。
msword (catdoc)、excel (xls2csv) 和 ppt (catppt) 的转换器可在此处(以源形式)找到:http://vitus.wagner.pp.ru/software/catdoc/。
无法真正评论 catppt 的实用性,但 catdoc 和 xls2csv 工作得很好!
但一定要先搜索你的发行版存储库...在 ubuntu 上,例如 catdoc 只是一个快速的 apt-getaway。
I'd go for the command line-solution (and then use the Python subprocess module to run the tools from Python).
Convertors for msword (catdoc), excel (xls2csv) and ppt (catppt) can be found (in source form) here: http://vitus.wagner.pp.ru/software/catdoc/.
Can't really comment on the usefullness of catppt but catdoc and xls2csv work great!
But be sure to first search your distributions repositories... On ubuntu for example catdoc is just one fast apt-get away.
您可以通过 Python API 访问 OpenOffice。
尝试使用此作为基础: http://wiki.services.openoffice.org/wiki /Odt2txt.py
You can access OpenOffice via Python API.
Try using this as a base: http://wiki.services.openoffice.org/wiki/Odt2txt.py
将 Microsoft Office 文档转换为 HTML 或其他格式的常用工具是 mswordview,后来更名为 vwWare 。
如果您正在寻找命令行工具,他们实际上建议使用 AbiWord 来执行转换:
如果您正在寻找库,请从 wvWare 概述页面。 他们还维护读取 MS Office 文档的库和工具列表。
The usual tool for converting Microsoft Office documents to HTML or other formats was mswordview, which has since been renamed to vwWare.
If you're looking for a command-line tool, they actually recommend using AbiWord to perform the conversion:
If you're looking for a library, start on the wvWare overview page. They also maintain a list of libraries and tools which read MS Office documents.
在命令行中,反词 或 wv 非常适合 .doc 文件。 (不是 Python 解决方案,但它们易于安装且速度很快。)
At the command line, antiword or wv work very nicely for .doc files. (Not a Python solution, but they're easy to install and fast.)
这里同样的问题。 下面是我的简单脚本,用于使用 catdoc 将目录“docs/”中的所有文档文件转换为目录“txts/”。 希望它能帮助某人:
Same problem here. Below is my simple script to convert all doc files in dir 'docs/' to dir 'txts/' using catdoc. Hope it will help someone:
对于处理 Excel 电子表格 xlwt 很好。 但它对
.doc
和.ppt
文件没有帮助。(您可能还听说过 PyExcelerator。xlwt 是它的一个分支,并且维护得更好,所以我认为您最好使用 xlwt。)
For dealing with Excel Spreadsheets xlwt is good. But it won't help with
.doc
and.ppt
files.(You may have also heard of PyExcelerator. xlwt is a fork of this and better maintained so I think you'd be better of with xlwt.)
过去,我在使用 XSLT 将基于 XML 的办公文件处理成可用的文件方面取得了一些成功。 它不一定是基于 python 的解决方案,但它确实可以完成工作。
I've had some success at using XSLT to process the XML-based office files into something usable in the past. It's not necessarily a python-based solution, but it does get the job done.