gpt4 book ai didi

python - Beautifulsoup 从无序列表中提取文本和链接 div < ul
  • 转载 作者:搜寻专家 更新时间:2023-10-31 08:32:45 26 4
    gpt4 key购买 nike

    我试图从此网页的左侧提取城市名称 (http://www.silvan.dk/butikker)。原因是我需要提取每个城市的物理地址(在链接指向的页面上可以找到,但是,我暂时开始提取城市名称)。更准确的说是从这个容器。然而,由于我才刚刚开始使用 Python 和 Beautifulsoup,所以我无法提取想要的信息。

    结果应该给我:城市,城市链接。

    到目前为止我有:

    import urllib2
    import sys, locale, os, re
    import lxml.etree
    from bs4 import BeautifulSoup

    def cp65001(name):
    if name.lower() == 'cp65001':
    return codecs.lookup('utf-8')

    html_page = urllib2.urlopen("http://www.silvan.dk/butikker",'w')
    soup = BeautifulSoup(html_page)
    li = soup.select("ul > li > a")
    for link in li:
    print link.get('href')

    这给了我以下输出:

    #1
    #2
    #3
    #4
    #5
    #6
    #7
    #8
    #9
    #10
    #11
    #12
    #13
    #14
    #15
    #16
    #17
    #18

    如果有人能指导我找到解决方案,我将不胜感激。我厌倦了使用

    div = soup.find('div', id='leftContent')
    lis = div.find_all('li')
    num_lis = len(lis)

    但是运行一圈就停止工作了,我不知道为什么?感谢您的宝贵时间。

    最佳答案

    更改您的选择器:

    li = soup.select("ul > li > a")

    到:

    li = soup.select(".subMenu li a")

    输出:

    http://www.silvan.dk/butikker/ballerup
    http://www.silvan.dk/butikker/birkeroed
    http://www.silvan.dk/butikker/city2
    http://www.silvan.dk/butikker/esbjerg
    http://www.silvan.dk/butikker/fisketorvet
    http://www.silvan.dk/butikker/fredericia
    http://www.silvan.dk/butikker/frederikshavn
    etc

    您可以找到非常好的选择器文档 here

    关于python - Beautifulsoup 从无序列表中提取文本和链接 div < ul <li (斯堪的纳维亚字符),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19267175/

    26 4 0
  • Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com