gpt4 book ai didi

python - 修剪 python bs4 中的空格

转载 作者:太空宇宙 更新时间:2023-11-03 18:46:13 25 4
gpt4 key购买 nike

我正在尝试删除已抓取数据中的空格。我引用了所有可用的解决方案,但似乎没有任何效果。

这是我的代码

    from bs4 import BeautifulSoup
import urllib2
url="http://www.sfap.org/klsfaprep_search?page=38&type=1&strname=&loc=&op=Lancer%20la%20recherche&form_build_id=form-72a297de309517ed5a2c28af7ed15208&form_id=klsfaprep_search_form"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
universities=soup.findAll('div',{'class':'field-item odd'})
for eachuniversity in universities:
#print eachuniversity['href']+","+eachuniversity.string.encode('utf-8').strip()
print eachuniversity.string if eachuniversity else ''

我得到的输出是

                    EMSP
None
None

BP J5

98880

NOUMEA

Nouvelle-Calédonie

Intra établissement

Dr Chantal Barbe

c.barbe@cht.nc

00 687 25 66 66 (standard)

emasp@cht.nc

1078 (poste Dr Barbe)

Accueil stagiaire
None

Régional
None

但我希望它是

EMSP,None,None, BP J5,98880,NOUMEA,Nouvelle-Calédonie,Intra établissement,Dr Chantal Barbe, c.barbe@cht.nc, 00 687 25 66 66 (standard), emasp@cht.nc, 1078 (poste Dr Barbe),  Accueil stagiaire, None, Régional,None

当我尝试其他答案时,我收到 Nonetype 属性错误。

更新我改进了我的脚本如下

from bs4 import BeautifulSoup
import urllib2
url="http://www.sfap.org/klsfaprep_search?page=38&type=1&strname=&loc=&op=Lancer%20la%20recherche&form_build_id=form-72a297de309517ed5a2c28af7ed15208&form_id=klsfaprep_search_form"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
for eachuniversity in soup.findAll('div',{'class':'field-item odd'}):
print ''.join(eachuniversity.findAll(text=True)).encode('utf-8').strip()

这给了我以下输出

EMSP
Nom de la structure: 
EMASP
Hôpital Gaston Bourret
BP J5
98880
NOUMEA
Nouvelle-Calédonie
Intra établissement
Dr Chantal Barbe
c.barbe@cht.nc
00 687 25 66 66 (standard)
emasp@cht.nc
1078 (poste Dr Barbe)
Accueil stagiaire
7h30 17h
Régional
ouverture équipe mobile depuis le 1 aout 2011
Travail au quotidien avec le malade sur demande médecin référent
Activités de formation intra et extra hospitalières sur toute la Nouvelle Calédonie auprès de professionnels de la santé, des auxiliaires de vie, des bénévoles, des prêtres....
Information auprès du grand public
Travail de recherche : étude des problèmes ethniques; évaluation du ressenti des malades walisien et /ou kanak sur l' approche SP et propositions

但我希望它位于一行中,并以逗号分隔。

最佳答案

要在同一行上打印,只需在 print 语句末尾添加 , 即可:

print ''.join(eachuniversity.findAll(text=True)).encode('utf-8').strip(),',',

您可能想从文本中删除换行符。

print re.sub(r'\s+',' ',''.join(eachuniversity.findAll(text=True)).encode('utf-8')),',',

它将用一个空格替换所有连续的空白字符,包括换行符。

关于python - 修剪 python bs4 中的空格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19457963/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com