gpt4 book ai didi

python - 在 Python 中使用 Beautifulsoup 遍历 xml 中的非 href 链接并检索特定信息

转载 作者:太空宇宙 更新时间:2023-11-04 10:40:50 24 4
gpt4 key购买 nike

我是一名 Python 初学者,刚开始学习使用 Bsoup 抓取网站。

我正在尝试从 this site 上的所有单独链接中提取联系信息(地址、公司名称) .

一般来说,我知道如何在典型的 html 源中检索 href 列表,但由于这是一个 xml,我只能分离出以下格式的链接:

[你'http://www.agenzia-interinale.it/milano ']

到目前为止,我的代码为我提供了该格式的所有公司链接,但我不知道如何让它遍历每个链接并提取相关信息。

from bs4 import BeautifulSoup
import requests
import re

resultsdict = {}
companyname = []
url1 = 'http://www.agenzia-interinale.it/sitemap-5.xml'

html = requests.get(url1).text
bs = BeautifulSoup(html)
# find the links to companies
company_menu = bs.find_all('loc')
for company in company_menu:
print company.contents

从该链接列表中,它首先需要确定页面是否有联系信息,然后确定是否有联系信息,例如this example。 , 然后它应该拉地址/公司名称。

我相信我正在寻找的最终信息可以被这个 div 过滤器隔离:

bs.find_all("div",{'style':'vertical-align:middle;'})

我试过放入一个嵌套循环,但我无法让它工作。

非常感谢任何意见!

最佳答案

不需要为此使用 BeautifulSoup。该站点返回完全有效的 XML,可以使用 Python 的包含工具进行解析:

import requests
import xml.etree.ElementTree as et

req = requests.get('http://www.agenzia-interinale.it/sitemap-5.xml')
root = et.fromstring(req.content)
for i in root:
print i[0].text # the <loc> text

关于python - 在 Python 中使用 Beautifulsoup 遍历 xml 中的非 href 链接并检索特定信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20669665/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com