gpt4 book ai didi

php - 是什么导致 PHPExcel 在使用分块过滤器读取文件时使用如此多的内存?

转载 作者:可可西里 更新时间:2023-11-01 01:00:23 27 4
gpt4 key购买 nike

与许多其他人一样,我在读取文件(将其转换为 MySQL)时一直在为 PHPExcel 内存使用而苦苦挣扎。

当然我已经尝试过各个地方提到的通常的东西并且已经能够将内存效率提高至少 40%。这包括使用自定义分块读取器类、将分块读取器实例化移到读取循环之外等。

我的测试服务器上有 16G RAM,并在 PHP 中分配了 2G 最大内存使用量。对于 ~200K 行以下的文件,PHPExcel 将工作(缓慢但肯定)。一旦超过一定大小,脚本就会失败,只会向 shell 输出“Killed”。日志显示内核杀死了 PHP,因为它使用了太多内存。在使用 top 命令观察 CPU 和内存使用情况时,我可以看到内存空闲和交换空闲直线下降,而内存使用和交换使用飙升。

在阅读了大量有关 PHPExcel 的内容并查看了一些源文件后,我得出的结论是,每个单元格都存储了大量数据,而这些数据在仅处理文本时是不需要的。使用:

$objReader->setReadDataOnly(true);

有一点帮助,但实际上并没有那么多......但是,使用分块读取器并将 block 大小设置为较小的值然后使用 unset() 清理大变量理论上应该可行。我知道 PHPExcel 每次都必须读取整个文件,但它不应该将它存储在内存中,对吧?

这是我目前使用的代码:

<?php

date_default_timezone_set("America/New_York");
set_time_limit(7200);
ini_set('memory_limit', '2048M');

include_once("classes/PHPExcel/PHPExcel/IOFactory.php");

$inputFileName = "/PATH/TO/FILE.xlsx";
$inputFileType = PHPExcel_IOFactory::identify($inputFileName);
$worksheetName = "Sheet1";

class chunkReadFilter implements PHPExcel_Reader_IReadFilter
{
private $_startRow = 0;
private $_endRow = 0;

public function __construct($startRow, $chunkSize)
{
$this->_startRow = $startRow;
$this->_endRow = $startRow + $chunkSize;
}

public function setRows($startRow, $chunkSize)
{
$this->_startRow = $startRow;
$this->_endRow = $startRow + $chunkSize;
}

public function readCell($column, $row, $worksheetName = '')
{
if (($row == 1) || ($row >= $this->_startRow && $row < $this->_endRow))
{
return true;
}
return false;
}
}


$objReader = PHPExcel_IOFactory::createReader($inputFileType);
$objReader->setReadDataOnly(true);

$chunkSize = 1000;

echo "Got here 1\n";

$chunkFilter = new chunkReadFilter(2,$chunkSize);


for ($startRow = 2; $startRow <= 378767; $startRow += $chunkSize)
{
$chunkFilter->setRows($startRow, $chunkSize);
$objReader->setReadFilter($chunkFilter);
echo "Got here 2\n";

$objPHPExcel = $objReader->load($inputFileName);
echo "Got here 3\n";

$sheet = $objPHPExcel->getSheetByName($worksheetName);
echo "Got here 4\n";

$highestRow = $sheet->getHighestRow();
$highestColumn = $sheet->getHighestColumn();
echo "Got here 5\n";

$sheetData = $sheet->rangeToArray("A".$startRow.":".$highestColumn.$highestRow, NULL, TRUE, FALSE);
print_r($sheetData);
echo "\n\n";
}

?>

哪些输出:

[USER@BOX Directory]# php PhpExcelBigFileTest.php
Got here 1
Got here 2
Killed

这引出了一个问题:PHPExcel 是否试图将整个文件加载到内存中,而不考虑我的过滤器?如果是,为什么 PHP 不在 2G 内存使用时停止它,而是让它变得如此糟糕以至于内核不得不杀死 PHP?

最佳答案

PHPExcel 目前使用 SimpleXML 来读取基于 XML 的格式,例如 OfficeOpenXML (xlsx)、OASIS (.odc) 和 Gnumeric,而不是使用内存效率更高的 XMLReader。这意味着压缩存档中的每个文件 XML 文件都直接加载到 PHP 内存中进行解析,并构建 PHPExcel 对象。虽然单元格分块通过将单元格数量减少为读取过滤器定义的单元格数量来减少 PHPExcel 对象使用的内存,但它仍然需要将整个文件加载到内存中以便 SimpleXML 对其进行解析。

开发团队研究了将压缩存档中的数据直接流式传输到 PHP 的拉式解析器 XMLReader,初步实验表明这是非常高效的内存;但它也是一个主要的代码重写,以重构电子表格阅读器以使用此方法;由于开发资源和可用时间有限,因此这项工作并非轻而易举。

除了通过仅将单元格子集加载到 PHPExcel 对象中来减少内存外,您可能还想查看单元格缓存。这在 documentation 中有描述。并允许以减少它们占用的内存的方式存储单元格对象。提供了不同的方法来适应不同的系统,节省的内存量会根据 PHP 版本和配置而有所不同,因此您需要确定哪些方法最适合您自己的系统。使用单元格缓存也会以速度为代价。通常,SQLite 是内存效率最高的方法,但也是最慢的方法之一。

关于php - 是什么导致 PHPExcel 在使用分块过滤器读取文件时使用如此多的内存?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29020399/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com