gpt4 book ai didi

python - 如何将网页保存为文本文件[Python]

转载 作者:太空狗 更新时间:2023-10-30 01:28:02 26 4
gpt4 key购买 nike

我想将网页(所有内容)保存为文本文件。 (就像您右键单击网页 -> “页面另存为” -> “另存为文本文件”而不是 html 文件一样)

我试过使用下面的代码:

import urllib2
url=''
page = urllib2.urlopen(url)
page_content = page.read()
file = open('file_text.txt', 'w')
f.write(page_content)
f.close()

我的目标是能够在没有 html 代码的情况下保存整个文本。(例如我想读“è”而不是“é”)

最佳答案

看看html2text如前所述elsewhere

import urllib2
import html2text
url=''
page = urllib2.urlopen(url)
html_content = page.read()
rendered_content = html2text.html2text(html_content)
file = open('file_text.txt', 'w')
file.write(rendered_content)
file.close()

关于python - 如何将网页保存为文本文件[Python],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35166169/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com