gpt4 book ai didi

python - 撇号打印为 â\x80\x99

转载 作者:行者123 更新时间:2023-11-28 18:20:14 25 4
gpt4 key购买 nike

import requests
from bs4 import BeautifulSoup
import re

source_url = requests.get('http://www.nytimes.com/pages/business/index.html')
div_classes = {'class' :['ledeStory' , 'story']}
title_tags = ['h2','h3','h4','h5','h6']

source_text = source_url.text
soup = BeautifulSoup(source_text, 'html.parser')


stories = soup.find_all("div", div_classes)

h = []; h2 = []; h3 = []; h4 =[]

for x in range(len(stories)):

for x2 in range(len(title_tags)):
hold = []; hold2 = []
hold = stories[x].find(title_tags[x2])

if hold is not None:
hold2 = hold.find('a')

if hold2 is not None:
hh = (((hold.text.strip('a'))).strip())
h.append(hh)
#h.append(re.sub(r'[^\x00-\x7f]',r'', ((hold.text.strip('a'))).strip()))
#h2.append(hold2.get('href'))

hold = []
hold = stories[x].find('p')

if hold is not None:
h3.append(re.sub(r'[^\x00-\x7f]',r'',((hold.text.strip('p')).strip())))

else:
h3.append('None')


h4.append(h)
h4.append(h2)
h4.append(h3)
print(h4)

大家好。我一直想抓取一些数据,当我注意到打印输出将 (') 替换为 (â\x80\x99) 时,我几乎完成了我的抓取。例如,包含“China's”的标题出现“Chinaâ\x80\x99s”。我做了一些研究并尝试使用解码/编码(utf-8)但无济于事。它只会告诉我你不能在 str() 上运行解码。我尝试使用 re.sub() 让我删除 (â\x80\x99) 但不会让我用 (') 替换它 因为我想使用自然语言处理来解释数据担心没有撇号将大大改变意义。帮助将不胜感激,我觉得我遇到了这个问题。

最佳答案

在 ISO 8859-1 和相关代码集中(有很多),â代码点为 0xE2。当您将三个字节 0xE2、0x80、0x99 解释为 UTF-8 编码时,字符为 U+2019,右单引号(即 ' 或 ,与 ' 或 ' 不同——您可以或可能无法发现差异)。

我看到了您的困难根源的几种可能性,其中任何一种或多种都可能是您麻烦的根源:

  1. 您的终端未设置为解释 UTF-8。
  2. 您的源代码应使用 ' (U+0027,撇号)。
  3. 您使用的是 Python 2.x 而不是 Python 3.x,并且由于使用 Unicode (UTF-8) 而出现问题。与此相反(如 Cory Madden pointed out ),代码以 print(h4) 结尾。这是 Python 3,所以它可能不是问题所在。

将引号更改为 ASCII 撇号可能是最简单的。

另一方面,如果您从其他地方分析 HTML,您可能必须考虑您的脚本将如何处理 UTF-8。使用 Unicode U+20xx 范围内的引号是一个非常常见的选择;也许您的刮刀需要处理它?<​​/p>

关于python - 撇号打印为 â\x80\x99,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45539010/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com