gpt4 book ai didi

python - 当我看到特殊的 eol 字符时,如何使用 Python 识别它?

转载 作者:行者123 更新时间:2023-12-01 05:36:10 26 4
gpt4 key购买 nike

我正在使用 Python 抓取一组原始 pdf 文件。让他们发短信后,我很难弄清楚行尾。我无法弄清楚行分隔符是什么。问题是,我还是不知道。

这不是'\n',或者,我不认为是'\r\n'。然而,我已经成功地分离出这些特殊字符之一。我确实将其保存在内存中,通过调用 my_str.replace(eol, ''),我可以从我的一个文件中删除所有这些字符。

所以我的问题是开放式的。当谈到unicode之类的时候我有点迷失了。如何在我的文件中识别这个字符而不诉诸一些荒谬的事情,比如序列化它然后读入它?有没有办法我可以将其作为代码引用?我无法让 Python 产生它实际上是什么。如果我打印它,或者调用 unicode(special_eol) ,我所看到的只是其功能用法中的字符作为换行符。

请帮忙!谢谢,如果我遗漏了一些明显的东西,抱歉。

最佳答案

要确定具体是什么字符,您可以使用 str.encode('unicode_escape')repr()获取(在 Python 2 中)字符的 ASCII 可打印表示形式:

>>> print u'☃'.encode('unicode_escape')
\u2603
>>> print repr(u'☃')
u'\u2603'

关于python - 当我看到特殊的 eol 字符时,如何使用 Python 识别它?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18997829/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com