gpt4 book ai didi

ruby-on-rails - 在 Ruby on Rails 中从各种文档格式中抓取文本

转载 作者:数据小太阳 更新时间:2023-10-29 08:40:51 25 4
gpt4 key购买 nike

我是 Rails 的新手,但我正在开发一个 Web 应用程序,该应用程序需要从大型文本文件数据库中获取文本并以 html 格式显示文本。这些文件位于 .doc、.docx、.wps 和 .pages 中,目前仅位于硬盘上。 .wps 和 .pages 中的文件数量足够少,我可以手动将它们转换为 .doc,但问题仍然存在:如何获取 .doc 或 .docx 文件中的文本以便保存它放入 sqlite 数据库供以后使用?

谢谢!

最佳答案

看看Yomu .这是一个 gem,充当 Apache TIKA 的包装器它支持多种文档格式,其中包括:

  • Microsoft Office OLE 2 和 Office Open XML 格式(.doc、.docx、.xls、.xlsx、.ppt、.pptx)
  • OpenOffice.org OpenDocument 格式(.odt、.ods、.odp)
  • Apple iWorks 格式
  • 富文本格式 (.rtf)
  • 可移植文档格式 (.pdf)

关于ruby-on-rails - 在 Ruby on Rails 中从各种文档格式中抓取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6145033/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com