在 Ruby on Rails 中从各种文档格式中获取文本

发布于 2024-11-09 23:24:02 字数 220 浏览 2 评论 0原文

我是 Rails 新手,但正在开发一个 Web 应用程序,需要从大型文本文件数据库中获取文本并以 html 格式显示文本。这些文件采用 .doc、.docx、.wps 和 .pages 格式,目前仅位于硬盘上。 .wps 和 .pages 中的文件数量足够少,我可以手动将它们转换为 .doc,但问题仍然存在:如何获取 .doc 或 .docx 文件中的文本以便保存它存入sqlite数据库供以后使用?

谢谢!

I'm new to Rails but am developing a web app that requires taking text from a large database of text files and displaying the text in html. The files are in .doc, .docx, .wps, and .pages, and are currently just sitting on a hardrive. There are a small enough number of files in .wps and .pages that I could convert these to .doc manually, but the question remains: how do I get to the text inside a .doc or .docx file so that I can save it into a sqlite database for later use?

Thanks!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

苍风燃霜 2024-11-16 23:24:02

看看 Yomu。它是一个 gem,充当 Apache TIKA 的包装器,它支持多种文档格式,其中包括:

  • Microsoft Office OLE 2 和 Office Open XML 格式(.doc、.docx、.xls、.xlsx、.ppt、.pptx)
  • OpenOffice.org OpenDocument 格式(.odt、.ods、.odp)
  • Apple iWorks 格式
  • Rich Text 格式( .rtf)
  • 便携式文档格式 (.pdf)

Take a look at Yomu. It's a gem which acts as a wrapper for Apache TIKA and it supports a variety of document formats which includes the following:

  • Microsoft Office OLE 2 and Office Open XML Formats (.doc, .docx, .xls, .xlsx, .ppt, .pptx)
  • OpenOffice.org OpenDocument Formats (.odt, .ods, .odp)
  • Apple iWorks Formats
  • Rich Text Format (.rtf)
  • Portable Document Format (.pdf)
终遇你 2024-11-16 23:24:02

这是一个漫长的迂回方式,但开放办公可以转换文件,并且有编程方法可以做到这一点:http://railstech.com/2010/08/convert-open-office-document-to-another-open-office-format/

这可能这还不是最好的方法,但也许它会起到一点润滑作用。

It's a long roundabout way, but open office can convert files, and there are programmatic ways to do that: http://railstech.com/2010/08/convert-open-office-document-to-another-open-office-format/

That may not be the best way yet, but maybe it will grease the wheels a bit.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文