- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
可能有这样一种情况,我们需要从 word 文档中获取文本,以便将来用于搜索用户上传的文档中的字符串,例如在 cv/resumes 中进行搜索,并且会出现一个常见的问题,即如何获取文本,打开并阅读用户上传的Word文档,有一些有用的链接,但并不能解决整个问题。我们需要在上传时获取文本并将文本保存在数据库中,我们可以轻松地在数据库中进行搜索。
最佳答案
这是一个简单的类,它为 .doc/.docx 做正确的工作, PHP docx reader: Convert MS Word Docx files to text .
class DocxConversion{
private $filename;
public function __construct($filePath) {
$this->filename = $filePath;
}
private function read_doc() {
$fileHandle = fopen($this->filename, "r");
$line = @fread($fileHandle, filesize($this->filename));
$lines = explode(chr(0x0D),$line);
$outtext = "";
foreach($lines as $thisline)
{
$pos = strpos($thisline, chr(0x00));
if (($pos !== FALSE)||(strlen($thisline)==0))
{
} else {
$outtext .= $thisline." ";
}
}
$outtext = preg_replace("/[^a-zA-Z0-9\s\,\.\-\n\r\t@\/\_\(\)]/","",$outtext);
return $outtext;
}
private function read_docx(){
$striped_content = '';
$content = '';
$zip = zip_open($this->filename);
if (!$zip || is_numeric($zip)) return false;
while ($zip_entry = zip_read($zip)) {
if (zip_entry_open($zip, $zip_entry) == FALSE) continue;
if (zip_entry_name($zip_entry) != "word/document.xml") continue;
$content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry));
zip_entry_close($zip_entry);
}// end while
zip_close($zip);
$content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content);
$content = str_replace('</w:r></w:p>', "\r\n", $content);
$striped_content = strip_tags($content);
return $striped_content;
}
/************************excel sheet************************************/
function xlsx_to_text($input_file){
$xml_filename = "xl/sharedStrings.xml"; //content file name
$zip_handle = new ZipArchive;
$output_text = "";
if(true === $zip_handle->open($input_file)){
if(($xml_index = $zip_handle->locateName($xml_filename)) !== false){
$xml_datas = $zip_handle->getFromIndex($xml_index);
$xml_handle = DOMDocument::loadXML($xml_datas, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING);
$output_text = strip_tags($xml_handle->saveXML());
}else{
$output_text .="";
}
$zip_handle->close();
}else{
$output_text .="";
}
return $output_text;
}
/*************************power point files*****************************/
function pptx_to_text($input_file){
$zip_handle = new ZipArchive;
$output_text = "";
if(true === $zip_handle->open($input_file)){
$slide_number = 1; //loop through slide files
while(($xml_index = $zip_handle->locateName("ppt/slides/slide".$slide_number.".xml")) !== false){
$xml_datas = $zip_handle->getFromIndex($xml_index);
$xml_handle = DOMDocument::loadXML($xml_datas, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING);
$output_text .= strip_tags($xml_handle->saveXML());
$slide_number++;
}
if($slide_number == 1){
$output_text .="";
}
$zip_handle->close();
}else{
$output_text .="";
}
return $output_text;
}
public function convertToText() {
if(isset($this->filename) && !file_exists($this->filename)) {
return "File Not exists";
}
$fileArray = pathinfo($this->filename);
$file_ext = $fileArray['extension'];
if($file_ext == "doc" || $file_ext == "docx" || $file_ext == "xlsx" || $file_ext == "pptx")
{
if($file_ext == "doc") {
return $this->read_doc();
} elseif($file_ext == "docx") {
return $this->read_docx();
} elseif($file_ext == "xlsx") {
return $this->xlsx_to_text();
}elseif($file_ext == "pptx") {
return $this->pptx_to_text();
}
} else {
return "Invalid File Type";
}
}
}
Document_file_format Doc 文件是二进制 blob。可以使用 fopen 读取它们。 .而.docx 文件只是zip 文件和xml 文件xml files in a zipfile container (source wikipedia)您可以使用 zip_open 阅读它们.
上述类的用法
$docObj = new DocxConversion("test.doc");
//$docObj = new DocxConversion("test.docx");
//$docObj = new DocxConversion("test.xlsx");
//$docObj = new DocxConversion("test.pptx");
echo $docText= $docObj->convertToText();
关于php - 如何从word文件.doc,docx,.xlsx,.pptx php中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19503653/
引用这个例子https://github.com/SheetJS/js-xlsx/blob/master/tests/write.js ,它在 xlsx 电子表格中没有任何单元格公式的实现我尝试使用
我在我的 angular2 应用程序中使用 xlsx-style npm 模块来动态创建 Excel。使用 xlsx-style 而不是 xlsx 模块的原因是因为我需要设置单元格的样式,而使用 xl
我正在尝试将类似 json 的数据下载为 xlsx。我用过xlsx npm 包并在线遵循了一些示例代码,但是当我尝试在 Excel 中打开该文件时,出现此错误: /* original data */
假设我有一个 excel 文件,我想使用 read.xlsx 函数将其读取到 R 中。文件由电子表格组成,我不知道电子表格的数量(大约有 200 个这样的文件,因此手动检查表格数量会很痛苦)。每个电子
我有一个包含多个工作表的 .xlsx 文件,我想将所有工作表拆分为不同的 .xlsx 文件。例如,我有一个文件 matt.xlsx,它有 5 个工作表,名称分别为 A、B、C、D、E。我想将它们分成
在我的 angular 5 应用程序中,我使用 xlsx 从 microsoft excel 文件中读取内容(老师的联系信息,如电子邮件和姓名),在 webpack 应用程序用于生产后,我发现 xls
我正在尝试使用 xlsx 将带有日期列的数据框导出到 Excel包裹。 write.xlsx() 的帮助文件说明了格式化日期列的方法。我尝试按照下面的方法进行操作,但生成的 Excel 文件没有显示正
我正在尝试使用 write.xslx 保存文件(使用 write.csv 保存时,某些行在更多列中移动,因此我正在尝试保存文件直接作为xlsx)。如果我输入这个命令: write.xlsx (
我需要在 nodejs 应用程序中编辑 XLSX 文件以创建订单表。我需要编辑的文件有特定的格式和一些公式。我尝试使用多个库,但我发现唯一一个能够读写 xlsx 文件的库是 XLSX.js . 但是当
我正在尝试使用 js-xlsx 为导出的 excel 文件设置固定的列/单元格宽度。 编辑: 这里是js-xlsx的来源:https://github.com/SheetJS/js-xlsx 最佳答案
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 8 个月前关闭。 Improve this
我有一个大的 .xlsx 文件,我想根据第一列将其拆分为多个文件。数据结构有点不确定,这使它复杂化了很多,而且我是 python 的新手。 基本上我需要为以“Brand1”(见下文)开头的每一行创建一
我正在尝试从一个大文件(800k 行)中获取数据并通过 lambda (AWS) 将其放入数据库中。为此,我从 S3 获取 xlsx 文件作为缓冲区并读取它。 module.exports.getSa
我对 xlsx R 包的 write.xlsx2 函数有问题。例如,请参阅下面的代码。 main_path<-"~/mydir/" read.xlsx2(paste0(main_path,"my_in
使用 R 的 xlsx 包创建 XLSX 文件时,默认情况下,带有字符串的列默认向左对齐,带有整数的列向右对齐(混合了整数和字符串的列也向左对齐)。最终,我想通过将所有列都向左对齐来标准化所有列,但是
在写入文件时找不到设置单个单元格样式的方法。不过看书没问题。尝试过 js-xlsx、xlsx-style,似乎都不行?还是我读错了 API? 如果我没看错的话,将 cell.s 设置为这样的对象就足够
我正在使用包 xlsx 版本:0.5.7 日期:2014-08-01。在 R 版本 3.0.1 (2013-05-16) 中——“Good Sport”平台:i386-w64-mingw32/i386
我正在使用此函数对数据进行排序并将数据导出到 Excel window.exportData = function () { data.sort(function(a, b){
如何使用 Node js 中的 sheetjs 的 xlsx 包在已有的 xlsx 文件中创建/添加新的工作表文件? 这是我迄今为止针对现有“todo-list.xlsx”文件的代码。 const x
我正在尝试复制 Excel 文档,但它似乎只复制第一个工作表,而不复制原始文件中的工作表名称。 我尝试复制它,当失败时,我查找了如何执行此操作,但是,问题是我不知道使用前的工作表名称是什么,也不知道有
我是一名优秀的程序员,十分优秀!