gpt4 book ai didi

python - 我如何摆脱像 ' 这样出现而不是撇号的字符?

转载 作者:太空宇宙 更新时间:2023-11-03 15:25:04 25 4
gpt4 key购买 nike

<分区>

Possible Duplicate:
Convert XML/HTML Entities into Unicode String in Python

我正在尝试使用 Python 抓取网站。我导入并使用 urllib2、BeautifulSoup 和 re 模块。

response = urllib2.urlopen(url)
soup = BeautifulSoup(response)
responseString = str(soup)

coarseExpression = re.compile('<div class="sodatext">[\n]*.*[\n]*</div>')
coarseResult = coarseExpression.findall(responseString)

fineExpression = re.compile('<[^>]*>')
fineResult = []

for coarse in coarseResult:
fine = fineExpression.sub('', coarse)
#print(fine)
fineResult.append(fine)

不幸的是,像撇号这样的字符以损坏的方式出现,就像这样 - ' ;有没有办法避免这种情况?或者有一种方法可以轻松替换它们?

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com