gpt4 book ai didi

python - html转文本使用python语言

转载 作者:搜寻专家 更新时间:2023-10-31 22:16:51 25 4
gpt4 key购买 nike

import urllib2

from BeautifulSoup import *

resp = urllib2.urlopen("file:///D:/sample.html")

rawhtml = resp.read()

resp.close()
print rawhtml

我正在使用此代码从 html 文档中获取文本,但它也为我提供了 html 代码。我应该怎么做才能仅从 html 文档中获取文本?

最佳答案

请注意,您的示例没有使用 Beautifulsoup。查看doc ,并遵循示例。

以下示例取自上面的链接,搜索 soup对于 <td>元素。

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://www.icc-ccs.org/prc/piracyreport.php")
soup = BeautifulSoup(page)
for incident in soup('td', width="90%"):
where, linebreak, what = incident.contents[:3]
print where.strip()
print what.strip()
print

关于python - html转文本使用python语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3593784/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com