perl doc/pdf/xls 到 HTML 转换器
我想将扩展名为 doc/docx/xls/xlsx/pdf 的文件转换为 HTML 文件。有没有办法在 Solaris 上使用 Perl 以简单的方式做到这一点?
I would like to convert files with extensions doc/docx/xls/xlsx/pdf to HTML files. Is there any way to do that in a simple way on Solaris using Perl?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
我用来处理 Microsoft Office 文件的 Perl 库非常缺乏,而且我还没有找到能够很好地处理 Office 2007 和 Office 2010 扩展的库(如果您知道,请在评论中指出一个)一!)
如果您有一台运行 Microsoft Office 的 PC,则可以使用 win32ole 从 unix 控制 Office 应用程序。我以前用 Ruby 做过:
http://rubyonwindows.blogspot.com/2007/03/automating -excel-with-ruby.html
这是一个使用 win32 OLE 的 perl 模块:
http://metacpan.org/pod/Win32::OLE
我个人不这么认为推荐使用 OLE 方法,因为它有很多令人头疼的问题(就像您必须让 Office 在 PC 上运行才能使 UNIX 脚本正常工作,当您的 PC 更新补丁时,Windows 防火墙几乎会随机阻止 UNIX 脚本)。
我还没有尝试过这个,但这里有一个 java 程序,它将使用 OpenOffice 和 GhostScript 为您进行批量转换:
http://www.codeproject.com/KB/java/PDFCM.aspx
The perl libraries I've used for processing Microsoft Office files have been pretty lacking, and I have yet to find ones that do a good job of handling the Office 2007 and Office 2010 extensions (please point to one in the comments if you know of one!)
If you have a PC running Microsoft Office, you can use win32ole to control the Office app from unix. I've done it before with Ruby:
http://rubyonwindows.blogspot.com/2007/03/automating-excel-with-ruby.html
Here's a perl module for using win32 OLE:
http://metacpan.org/pod/Win32::OLE
I personally don't recommend the OLE approach because it has lots of headaches (like you have to leave Office running on the PC for the unix script to work, Windows Firewall will almost randomly block the unix script as your PC gets updated with patches).
I haven't tried this, but here's a java program that will use OpenOffice and GhostScript to do batch conversions for you:
http://www.codeproject.com/KB/java/PDFCM.aspx
作为旁注,有一个名为 xpdf 的实用程序,它将 pdf 文件转换为文本。它已在 Solaris 上编译,但您必须从源代码进行编译(您可以从命令行调用该实用程序)。我用过它,非常棒。
更重要的是,它有一个修改版本,将 pdf 转换为 html。这个我还没有测试过,但可能值得一试。
As a sidenote, there is a utility called xpdf which converts pdf files to text. That has been compiled on Solaris, though you'd have to compile from source (you can call the utility from the command line). I've used it and it's great.
More importantly, there is a modified version of it which converts pdf to html. This one I have not tested out, but it might be worth a try.
对于 excel 到 html ->您可以使用 exceltohtml
需要以下模块:
for excel to html -> you could use exceltohtml
needs the following modules :