php - 如何从word文件.doc,docx,.xlsx,.pptx php中提取文本-6ren

php - 如何从word文件.doc,docx,.xlsx,.pptx php中提取文本

转载作者：IT王子更新时间：2023-10-29 00:52:39

32

4

可能有这样一种情况，我们需要从 word 文档中获取文本，以便将来用于搜索用户上传的文档中的字符串，例如在 cv/resumes 中进行搜索，并且会出现一个常见的问题，即如何获取文本，打开并阅读用户上传的Word文档，有一些有用的链接，但并不能解决整个问题。我们需要在上传时获取文本并将文本保存在数据库中，我们可以轻松地在数据库中进行搜索。

最佳答案

这是一个简单的类，它为 .doc/.docx 做正确的工作， PHP docx reader: Convert MS Word Docx files to text .

    class DocxConversion{
    private $filename;

    public function __construct($filePath) {
        $this->filename = $filePath;
    }

    private function read_doc() {
        $fileHandle = fopen($this->filename, "r");
        $line = @fread($fileHandle, filesize($this->filename));   
        $lines = explode(chr(0x0D),$line);
        $outtext = "";
        foreach($lines as $thisline)
          {
            $pos = strpos($thisline, chr(0x00));
            if (($pos !== FALSE)||(strlen($thisline)==0))
              {
              } else {
                $outtext .= $thisline." ";
              }
          }
         $outtext = preg_replace("/[^a-zA-Z0-9\s\,\.\-\n\r\t@\/\_\(\)]/","",$outtext);
        return $outtext;
    }

    private function read_docx(){

        $striped_content = '';
        $content = '';

        $zip = zip_open($this->filename);

        if (!$zip || is_numeric($zip)) return false;

        while ($zip_entry = zip_read($zip)) {

            if (zip_entry_open($zip, $zip_entry) == FALSE) continue;

            if (zip_entry_name($zip_entry) != "word/document.xml") continue;

            $content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry));

            zip_entry_close($zip_entry);
        }// end while

        zip_close($zip);

        $content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content);
        $content = str_replace('</w:r></w:p>', "\r\n", $content);
        $striped_content = strip_tags($content);

        return $striped_content;
    }

 /************************excel sheet************************************/

function xlsx_to_text($input_file){
    $xml_filename = "xl/sharedStrings.xml"; //content file name
    $zip_handle = new ZipArchive;
    $output_text = "";
    if(true === $zip_handle->open($input_file)){
        if(($xml_index = $zip_handle->locateName($xml_filename)) !== false){
            $xml_datas = $zip_handle->getFromIndex($xml_index);
            $xml_handle = DOMDocument::loadXML($xml_datas, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING);
            $output_text = strip_tags($xml_handle->saveXML());
        }else{
            $output_text .="";
        }
        $zip_handle->close();
    }else{
    $output_text .="";
    }
    return $output_text;
}

/*************************power point files*****************************/
function pptx_to_text($input_file){
    $zip_handle = new ZipArchive;
    $output_text = "";
    if(true === $zip_handle->open($input_file)){
        $slide_number = 1; //loop through slide files
        while(($xml_index = $zip_handle->locateName("ppt/slides/slide".$slide_number.".xml")) !== false){
            $xml_datas = $zip_handle->getFromIndex($xml_index);
            $xml_handle = DOMDocument::loadXML($xml_datas, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING);
            $output_text .= strip_tags($xml_handle->saveXML());
            $slide_number++;
        }
        if($slide_number == 1){
            $output_text .="";
        }
        $zip_handle->close();
    }else{
    $output_text .="";
    }
    return $output_text;
}


    public function convertToText() {

        if(isset($this->filename) && !file_exists($this->filename)) {
            return "File Not exists";
        }

        $fileArray = pathinfo($this->filename);
        $file_ext  = $fileArray['extension'];
        if($file_ext == "doc" || $file_ext == "docx" || $file_ext == "xlsx" || $file_ext == "pptx")
        {
            if($file_ext == "doc") {
                return $this->read_doc();
            } elseif($file_ext == "docx") {
                return $this->read_docx();
            } elseif($file_ext == "xlsx") {
                return $this->xlsx_to_text();
            }elseif($file_ext == "pptx") {
                return $this->pptx_to_text();
            }
        } else {
            return "Invalid File Type";
        }
    }

}

Document_file_format Doc 文件是二进制 blob。可以使用 fopen 读取它们。 .而.docx 文件只是zip 文件和xml 文件xml files in a zipfile container (source wikipedia)您可以使用 zip_open 阅读它们.

上述类的用法

$docObj = new DocxConversion("test.doc");
//$docObj = new DocxConversion("test.docx");
//$docObj = new DocxConversion("test.xlsx");
//$docObj = new DocxConversion("test.pptx");
echo $docText= $docObj->convertToText();

关于php - 如何从word文件.doc,docx,.xlsx,.pptx php中提取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19503653/

32

4

0

文章推荐： templates - 如何处理模板中的字符串格式

文章推荐： C# String.Format() 在 PHP 中等效？

文章推荐： command-line - 命令行参数后的 Golang 标志解析

文章推荐： c++ - Linux Standard Base (LSB) AppChecker 可靠吗？

javascript - 如何为(导出到 .xlsx)SheetJS js-xlsx : https://github. com/SheetJS/js-xlsx 的单元格数据设置公式
引用这个例子https://github.com/SheetJS/js-xlsx/blob/master/tests/write.js ，它在 xlsx 电子表格中没有任何单元格公式的实现我尝试使用
javascript - 使用模块 xlsx 样式时无法找到命名空间 XLSX
我在我的 angular2 应用程序中使用 xlsx-style npm 模块来动态创建 Excel。使用 xlsx-style 而不是 xlsx 模块的原因是因为我需要设置单元格的样式，而使用 xl
javascript - 使用 xlsx npm 包将表格数据下载为 xlsx
我正在尝试将类似 json 的数据下载为 xlsx。我用过xlsx npm 包并在线遵循了一些示例代码，但是当我尝试在 Excel 中打开该文件时，出现此错误: /* original data */
r - 从 .xlsx 中读取 .xlsx，张数未知
假设我有一个 excel 文件，我想使用 read.xlsx 函数将其读取到 R 中。文件由电子表格组成，我不知道电子表格的数量(大约有 200 个这样的文件，因此手动检查表格数量会很痛苦)。每个电子
python - 将具有多个工作表的 xlsx 文件转换为多个 xlsx 文件
我有一个包含多个工作表的 .xlsx 文件，我想将所有工作表拆分为不同的 .xlsx 文件。例如，我有一个文件 matt.xlsx，它有 5 个工作表，名称分别为 A、B、C、D、E。我想将它们分成
js-xlsx - 如何在 webpack 之后减小 xlsx 的大小
在我的 angular 5 应用程序中，我使用 xlsx 从 microsoft excel 文件中读取内容(老师的联系信息，如电子邮件和姓名)，在 webpack 应用程序用于生产后，我发现 xls
r - 在 xlsx 包的 write.xlsx 中格式化日期
我正在尝试使用 xlsx 将带有日期列的数据框导出到 Excel包裹。 write.xlsx() 的帮助文件说明了格式化日期列的方法。我尝试按照下面的方法进行操作，但生成的 Excel 文件没有显示正
java - 在 write.xlsx 中使用 xlsx 包时出错
我正在尝试使用 write.xslx 保存文件(使用 write.csv 保存时，某些行在更多列中移动，因此我正在尝试保存文件直接作为xlsx)。如果我输入这个命令: write.xlsx (
javascript - 使用 XLSX.js 编辑 xlsx 文件而不丢失格式和公式
我需要在 nodejs 应用程序中编辑 XLSX 文件以创建订单表。我需要编辑的文件有特定的格式和一些公式。我尝试使用多个库，但我发现唯一一个能够读写 xlsx 文件的库是 XLSX.js . 但是当
javascript - 使用 js-xlsx 导出 .xlsx 文件时如何设置单元格宽度
我正在尝试使用 js-xlsx 为导出的 excel 文件设置固定的列/单元格宽度。编辑: 这里是js-xlsx的来源:https://github.com/SheetJS/js-xlsx 最佳答案
xlsx - 哪些 Perl 6 模块可以读/写 XLSX 文件？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 8 个月前关闭。 Improve this
python - 使用 Python 根据第一列将 xlsx 文件拆分为其他 xlsx 文件
我有一个大的 .xlsx 文件，我想根据第一列将其拆分为多个文件。数据结构有点不确定，这使它复杂化了很多，而且我是 python 的新手。基本上我需要为以“Brand1”(见下文)开头的每一行创建一
javascript - 无法从巨大的 xlsx 文件中获取正确的表格 - 使用 NodeJS XLSX 库
我正在尝试从一个大文件(800k 行)中获取数据并通过 lambda (AWS) 将其放入数据库中。为此，我从 S3 获取 xlsx 文件作为缓冲区并读取它。 module.exports.getSa
r - write.xlsx 函数在使用文件名定义路径时出错，但 read.xlsx 没问题
我对 xlsx R 包的 write.xlsx2 函数有问题。例如，请参阅下面的代码。 main_path<-"~/mydir/" read.xlsx2(paste0(main_path,"my_in
r - 如何使用 R 的 xlsx 包对齐 XLSX 文件的单元格？
使用 R 的 xlsx 包创建 XLSX 文件时，默认情况下，带有字符串的列默认向左对齐，带有整数的列向右对齐(混合了整数和字符串的列也向左对齐)。最终，我想通过将所有列都向左对齐来标准化所有列，但是
javascript - 设置单个单元格样式 js-xlsx, xlsx-style node.js
在写入文件时找不到设置单个单元格样式的方法。不过看书没问题。尝试过 js-xlsx、xlsx-style，似乎都不行？还是我读错了 API？如果我没看错的话，将 cell.s 设置为这样的对象就足够
java - 使用 write.xlsx 将现有工作表替换为 R 包 xlsx
我正在使用包 xlsx 版本:0.5.7 日期:2014-08-01。在 R 版本 3.0.1 (2013-05-16) 中——“Good Sport”平台:i386-w64-mingw32/i386
javascript - 在 SELECT * INTO XLSX ('cities.xlsx' ,{headers :true}) FROM ? 中动态更改文件名
我正在使用此函数对数据进行排序并将数据导出到 Excel window.exportData = function () { data.sort(function(a, b){
javascript - 如何使用 Node js 中的 xlsx/sheetjs 包在现有 xlsx 文件中创建新工作表？
如何使用 Node js 中的 sheetjs 的 xlsx 包在已有的 xlsx 文件中创建/添加新的工作表文件？这是我迄今为止针对现有“todo-list.xlsx”文件的代码。 const x
python - 如何让 pandas 将 xlsx 文件(包括其工作表)复制到新的 xlsx 文件中
我正在尝试复制 Excel 文档，但它似乎只复制第一个工作表，而不复制原始文件中的工作表名称。我尝试复制它，当失败时，我查找了如何执行此操作，但是，问题是我不知道使用前的工作表名称是什么，也不知道有

首页

博学

6Ren·AI

商城

php - 如何从word文件.doc,docx,.xlsx,.pptx php中提取文本