gpt4 book ai didi

以 Unicode 字符作为分隔符的 PHP Explode

转载 作者:可可西里 更新时间:2023-10-31 22:13:36 25 4
gpt4 key购买 nike

XPDFs pdftotext 将 pdf 转换为文本并在命令行级别输出。如果需要,它会按照 TextOutputDev.cc 中指定的方式在页面之间插入分页符:

eopLen = uMap->mapUnicode(0x0c, eop, sizeof(eop));

这个 Unicode 符号是编码独立的,-enc ASCII7 不会改变它。我目前愿意使用 PHP 将 PDF 文件转换和拆分为多个 TXT 页面以进行数据库存储。然而,下面的函数确实有效,但花费的时间是一次转换整个 PDF 的两倍。

for($i = 1; $i <= $pages[0]; $i++)
$page[$i] = shell_exec('/usr/bin/pdftotext sample.pdf -f '.$i.' -l '.$i.' -');

我应该如何使用 Unicode 字符作为分隔符来 explode(0x0c, $wholePDF)?目前,page[$i] 似乎没有从 shell_exec() 中检索那些奇怪的 Unicode PageBreak 字符。我尝试了几个用于编码的 header (尤其是 UTF-8),但到目前为止还没有成功。

最佳答案

0x0c 是一个 ASCII 字符(即在 0-127 范围内),因此在 UTF-8 编码中它被表示为自身而不是多字节序列。您应该能够explode(chr(0x0c), $wholePDF)

关于以 Unicode 字符作为分隔符的 PHP Explode,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12234868/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com