gpt4 book ai didi

python - 从 .html 文件中提取文本,删除 HTML,并使用 Python 和 Beautiful Soup 写入文本文件

转载 作者:行者123 更新时间:2023-11-28 21:59:43 27 4
gpt4 key购买 nike

我正在使用 Beautiful Soup 4 从 HTML 文件中提取文本,并使用 get_text() 我可以轻松地仅提取文本,但现在我正在尝试将该文本写入普通文件文本文件,当我这样做时,我收到消息“416”。这是我正在使用的代码:

from bs4 import BeautifulSoup
markup = open("example1.html")
soup = BeautifulSoup(markup)
f = open("example.txt", "w")
f.write(soup.get_text())

控制台的输出是 416 但没有任何内容写入文本文件。我哪里做错了?

最佳答案

您需要将文本发送到 BeautifulSoup 类。也许试试 markup.read()

from bs4 import BeautifulSoup
markup = open("example1.html")
soup = BeautifulSoup(markup.read())
markup.close()
f = open("example.txt", "w")
f.write(soup.get_text())
f.close()

更像 python 风格

from bs4 import BeautifulSoup

with open("example1.html") as markup:
soup = BeautifulSoup(markup.read())

with open("example.txt", "w") as f:
f.write(soup.get_text())

正如@bernie 建议的那样

关于python - 从 .html 文件中提取文本,删除 HTML,并使用 Python 和 Beautiful Soup 写入文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16241374/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com