gpt4 book ai didi

python - 从 webscrape 输出中删除 'u

转载 作者:行者123 更新时间:2023-11-28 16:38:53 25 4
gpt4 key购买 nike

您好,我正在使用 Beautifulsoup 解析网站并获取名称作为输出。但是在运行脚本之后,我得到了一个 [u'word1', u'word2', u'word3'] 输出。我正在寻找的是 'word1 word2 word3'。如何摆脱这个 u' 并使结果成为一个字符串?

from bs4 import BeautifulSoup
import urllib2
import re

myfile = open("base/dogs.txt","w+")
myfile.close()

url="http://trackinfo.com/entries-race.jsp?raceid=GBR$20140302A01"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
names=soup.findAll('a',{'href':re.compile("dog")})
myfile = open("base/dogs.txt","w+")
for eachname in names:
d = (str(eachname.string.split()))+"\n"
print [x.encode('ascii') for x in d]
myfile.write(d)

myfile.close()

最佳答案

BeautifulSoup 和 Unicode, Dammit !

>>> from bs4 import BeautifulSoup
>>> BeautifulSoup("Sacré bleu!")
<html><body><p>Sacré bleu!</p></body></html>

这不是很好吗?制作汤时,文档被转换为 Unicode,HTML 实体被转换为 Unicode 字符!所以你得到 Unicode 对象作为结果。像预期的那样。这没有错。

所以你的问题是关于 Unicode 的。并解释了 Unicode in this video .不喜欢视频?阅读 Introduction to Unicode .

u'The following sting is Unicode encoded' 的缩写。您现在可以使用所有 Unicode 字符,而不是 128 个 ASCII 字符。此时超过 110.000。 u 未保存到文件或数据库中。这是视觉反馈,因此您可以看到您正在处理 Unicode 编码的字符串。像使用普通字符串一样使用它,因为它是普通字符串。

这个故事的寓意:

☺ 当您看到 u'…'

关于python - 从 webscrape 输出中删除 'u,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22129324/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com