gpt4 book ai didi

python - 网页抓取返回空白结果,python 代码

转载 作者:太空宇宙 更新时间:2023-11-03 21:23:52 25 4
gpt4 key购买 nike

尝试从 Indeed.com 查询中抓取职位

下面是我的代码,但我从代码中得到一个空白数组

import requests
import bs4
from bs4 import BeautifulSoup

import pandas as pd
import time

导入依赖项

URL = "https://au.indeed.com/jobs?q=digital+marketing+-intern+-sales+-agency+-talent+-consulting&l=&limit=20&ts=1546381706970&rq=1&fromage=last"

对上述 URL 进行请求:

page = requests.get(URL)

使用 HTML 解析器指定所需的“页面”格式 - 基本上允许 python 读取组件而不是长字符串

soup = BeautifulSoup(page.text, "html.parser")

以更易读的格式打印 soup

print(soup.prettify())

提取数据的基本元素

def extract_job_title_from_result(soup): 
jobs = []
for div in soup.find_all(name="div", attrs={"class":"row result"}):
for a in div.find_all(name="a", attrs={"data-tn-element":"jobTitle"}):
jobs.append(a["title"])
return(jobs)

extract_job_title_from_result(soup)

我的输出是[]

最佳答案

将你的方法更改为:

def extract_job_title_from_result(soup): 
jobs = []
for div in soup.findAll(True, {'class':['row', 'result']}):
for a in div.find_all(name="a", attrs={"data-tn-element":"jobTitle"}):
jobs.append(a["title"])
return(jobs)

注意:问题在于您选择具有两个类别的项目的方式。按照我的建议,使用 findAll 代替,它将为您提供您想要的内容。

jobs = extract_job_title_from_result(soup)

关于python - 网页抓取返回空白结果,python 代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54002013/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com