gpt4 book ai didi

python - 如何下载和阅读带有通用换行符的 URL?

转载 作者:太空宇宙 更新时间:2023-11-04 09:16:53 25 4
gpt4 key购买 nike

我正在使用 urllib.urlopen使用 Python 2.7,但我需要处理下载的 HTML 文档及其包含的换行符(在 <pre> 元素内)。

urllib docs表示 urlopen 将不使用通用换行符。我该怎么做?

最佳答案

除非 HTML 文件已经在您的磁盘上,urlopen() 将正确处理所有格式的换行符 (\n, \r\n\r) 在你要解析的 HTML 文件中(即它将它们转换为 \n),根据 urllib docs :

"If the URL does not have a scheme identifier, or if it has file: as its scheme identifier, this opens a local file (without universal newlines)"

例如

>>> from urllib import urlopen
>>> urlopen("http://****.com/win_new_lines.htm").read()
'line 1\nline 2\n\n\nline 3'
>>> urlopen("http://****.com/unix_new_lines.htm").read()
'line 1\nline 2\n\n\nline 3'

关于python - 如何下载和阅读带有通用换行符的 URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8221296/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com