gpt4 book ai didi

python - 如何使用 python 将 pdf 文件打印到标准输出?

转载 作者:IT王子 更新时间:2023-10-29 00:43:59 24 4
gpt4 key购买 nike

已通过脚本创建了正确的 pdf 文件(不幸的是,其输出不能直接写入标准输出)。假设文件名为“myfile.pdf”。

我想将准确的 pdf 内容打印到标准输出。 (中间没有处理)。

为了对此进行测试,我编写了这个简短的 read_pdf.py 脚本:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

with open('myfile.pdf', mode='rb') as pdf_file:
for line in pdf_file:
print(str(line))

我使用 'rb' 模式,因为在文本模式下读取它会导致 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 10: invalid continuation byte 。因此,看起来没有任何其他选择(如果文本模式不起作用,则二进制模式)。

当然,现在的问题是输出包含不能用作 pdf 文件的 b'blablabla' 行。为了检查它,我将 read_pdf.py 重定向到一个文件并尝试使用 pdf 查看器打开它,当然它不起作用:

$ ./read_pdf.py > test_output.pdf
$ evince test_output.pdf
Syntax Error: Couldn't find trailer dictionary
Syntax Error: Couldn't read xref table
Syntax Error: Couldn't find trailer dictionary
Syntax Error: Couldn't read xref table

那么,正确的做法是什么?我没有检查任何 pdf 专用库,因为它看起来没有必要,我希望能够阅读和打印正确的内容,而无需为此导入 pdf 库。

chardet.detect(pdf_file.read()) 无能为力(它返回了 {'encoding': None, 'confidence': 0.0})。

编辑:* 我正在寻找 python3 和 Linux/Unix 系统的解决方案,而不是 Windows。* 我需要知道如何在 python 中执行此操作,因为它实际上是一个完全用 python 编写的更大项目的一部分

最佳答案

答案实际上是使用sys.stdout.buffer.write(),而不是print(),此外还有pdf_file.read( ):

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import sys

with open('myfile.pdf', mode='rb') as pdf_file:
sys.stdout.buffer.write(pdf_file.read())

关于python - 如何使用 python 将 pdf 文件打印到标准输出?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38210245/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com