- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在开发一些抓取代码,它不断返回一些错误,我想其他人可能会提供帮助。
首先我运行这个片段:
import pandas as pd
from urllib.parse import urljoin
import requests
base = "http://www.reed.co.uk/jobs"
url = "http://www.reed.co.uk/jobs?datecreatedoffset=Today&pagesize=100"
r = requests.get(url).content
soup = BShtml(r, "html.parser")
df = pd.DataFrame(columns=["links"], data=[urljoin(base, a["href"]) for a in soup.select("div.pages a.page")])
df
我在今天的职位发布的第一页上运行了上面的代码片段。然后我提取页面底部的 URL,以便及时找到该时间点存在的页面总数。下面的正则表达式帮我解决了这个问题:
df['partone'] = df['links'].str.extract('([a-z][a-z][a-z][a-z][a-z][a-z]=[0-9][0-9].)', expand=True)
df['maxlink'] = df['partone'].str.extract('([0-9][0-9][0-9])', expand=True)
pagenum = df['maxlink'][4]
pagenum = pd.to_numeric(pagenum, errors='ignore')
请注意上面的第三行,页面数始终包含在此列表中倒数第二个(五个中的)URL 中。我敢肯定有一种更优雅的方法可以做到这一点,但它就足够了。然后我将从 URL 中获取的数字输入一个循环:
result_set = []
loopbasepref = 'http://www.reed.co.uk/jobs?cached=True&pageno='
loopbasesuf = '&datecreatedoffset=Today&pagesize=100'
for pnum in range(1,pagenum):
url = loopbasepref + str(pnum) + loopbasesuf
r = requests.get(url).content
soup = BShtml(r, "html.parser")
df2 = pd.DataFrame(columns=["links"], data=[urljoin(base, a["href"]) for a in soup.select("div", class_="results col-xs-12 col-md-10")])
result_set.append(df2)
print(df2)
这是我遇到错误的地方。我正在尝试做的是遍历所有列出作业的页面,从第 1 页开始到第 N 页,其中 N = pagenum,然后提取链接到每个单独作业页面的 URL 并将其存储在数据框中.我已经尝试了 soup.select("div", class_="")
的各种组合,但每次都会收到错误消息:TypeError: select() got an unexpected keyword argument ' class_'
.
如果有人对此有任何想法,并且可以看到前进的好方法,我将不胜感激!
干杯
克里斯
最佳答案
你可以一直循环直到没有下一页:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
base = "http://www.reed.co.uk"
url = "http://www.reed.co.uk/jobs?datecreatedoffset=Today&pagesize=100"
def all_urls():
r = requests.get(url).content
soup = BeautifulSoup(r, "html.parser")
# get the urls from the first page
yield [urljoin(base, a["href"]) for a in soup.select("div.details h3.title a[href^=/jobs]")]
nxt = soup.find("a", title="Go to next page")
# title="Go to next page" is missing when there are no more pages
while nxt:
# wash/repeat until no more pages
r = requests.get(urljoin(base, nxt["href"])).content
soup = BeautifulSoup(r, "html.parser")
yield [urljoin(base, a["href"]) for a in soup.select("div.details h3.title a[href^=/jobs]")]
nxt = soup.find("a", title="Go to next page")
只需遍历生成器函数即可从每个页面获取 url:
for u in (all_urls()):
print(u)
我还在选择器中使用了 a[href^=/jobs]
,因为还有其他匹配的标签,所以我们确保只提取工作路径。
在您自己的代码中,使用选择器的正确方法是:
soup.select("div.results.col-xs-12.col-md-10")
您的语法适用于 find 或 find_all,其中您对 css 类使用 class_=...
:
soup.find_all("div", class_="results col-xs-12 col-md-10")
但这无论如何都不是正确的选择器。
不确定您为什么要创建多个 dfs,但如果这是您想要的:
def all_urls():
r = requests.get(url).content
soup = BeautifulSoup(r, "html.parser")
yield pd.DataFrame([urljoin(base, a["href"]) for a in soup.select("div.details h3.title a[href^=/jobs]")],
columns=["Links"])
nxt = soup.find("a", title="Go to next page")
while nxt:
r = requests.get(urljoin(base, nxt["href"])).content
soup = BeautifulSoup(r, "html.parser")
yield pd.DataFrame([urljoin(base, a["href"]) for a in soup.select("div.details h3.title a[href^=/jobs]")],
columns=["Links"])
nxt = soup.find("a", title="Go to next page")
dfs = list(all_urls())
这会给你一个 dfs 列表:
In [4]: dfs = list(all_urls())
dfs[0].head()
In [5]: dfs[0].head(10)
Out[5]:
Links
0 http://www.reed.co.uk/jobs/tufting-manager/308...
1 http://www.reed.co.uk/jobs/financial-services-...
2 http://www.reed.co.uk/jobs/head-of-finance-mul...
3 http://www.reed.co.uk/jobs/class-1-drivers-req...
4 http://www.reed.co.uk/jobs/freelance-middlewei...
5 http://www.reed.co.uk/jobs/sage-200-consultant...
6 http://www.reed.co.uk/jobs/bereavement-support...
7 http://www.reed.co.uk/jobs/property-letting-ma...
8 http://www.reed.co.uk/jobs/graduate-recruitmen...
9 http://www.reed.co.uk/jobs/solutions-delivery-...
但是,如果您只想要一个,那么请使用带有 itertools.chain 的原始代码:
from itertools import chain
df = pd.DataFrame(columns=["links"], data=list(chain.from_iterable(all_urls())))
这将在一个 df 中为您提供所有链接:
In [7]: from itertools import chain
...: df = pd.DataFrame(columns=["links"], data=list(chain.from_iterable(all_
...: urls())))
...:
In [8]: df.size
Out[8]: 675
关于python - 为 soup.select() 正确的 div 类组合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40057058/
我有一个 div(我认为是容器?)我希望它成为中心页面。 Billede 2 我只想让所有上下文都位于页面中心,这怎么可能? 最佳答案 Billede 2 根据您的要求
我只是在研究 jQuery,偶然发现了 Find 函数。 我是这样测试的: $(document).ready(function(){ $('button').click(function()
如何制定一个规则来做这样的事情: .container .unit:first-child(if it has inside div.box1.extra) + .box2 { top: 50px;}
我想了解为什么浏览器显示 和 的方式不同? 这是一个示例:片段 #1 的预期输出是三个并排的框:[黑色]、[蓝色]、[红色]。代码段 #2 仅显示 [black] 和 [red] - 为什么代码段 #
我有一个奇怪的问题,我无法使用正常的嘶嘶声选择器来正确选择 jQuery 中的某些内容: 这两行代码不做同样的事情。 ele.children("div.a > div").addClass("bad
我有一个包含另外两个 div 的 div first div second div 父 div 有最大高度,因此不能增长超过一定数量。但是两个子 div 可以有任何大小(动态
我在两个 div 之间有问题。 div#mainbody 是父 div 有一个背景,div 2 子 div 有自己的背景所以 div 2 浮出父级 div 但我希望它位于父级 div 中。 HTML:
我在另一个具有特定宽度的 div 中有一个 div,但我希望子 div 的宽度与浏览器屏幕大小成百分比而不是与其父 div 的百分比,这意味着当我将子 div 的宽度设置为 50% 时,我希望它的大小
我有以下代码。当单击 div 1 中的按钮时,我需要隐藏 div 1 并显示 div2。 (在 Angular HTML5 中)。我有一个带有 Controller 等的 JS 文件,目前我有两个不同
现在我可以将容器 div 的大小自动调整到内部 div,或者我可以将整个东西居中...但我不知道如何同时进行这两项操作。 下面是我拥有的 CSS/布局。现在 page 和 main 元素都居中,但如果
当一个单元格 div 包含绝对定位的 div 时,如何在表格 div 中顶部对齐两个单元格 div? 在此示例中,不包含绝对定位的 div 的单元格 div 被下推。 HTML: 1
我的程序是一个游戏,从 4 个可玩 Angular 色开始,每个 Angular 色都在自己的类 charContainer 中,这 4 个 div 位于类 character 的容器中。当玩家通过点
我有这样的东西: 现在,#page 中没有任何格式。它适用于一些内容,我的意思是,当内容更大时,#page 也有更高的高度。但是,当今天我在其中应用 #con
我有一个 React 应用程序,并且在一些 CSS 方面遇到了一个稍微大一点的问题。 我有一个 View 分为两部分。但这两个部分位于一个更大的组件中。左侧部分显示一些联系人,右侧我想显示这些联系人的
我想像 facebook 注册页面一样,一个div1(section width:1024px)有四个div,左边div2(width:50%) 有div3(fb slogan),下面div4(con
在我的网页上遇到一个问题,母版页中的页脚对于某个特定页面没有正确显示。在那个页面上,我有一个 在底部。 在我的头上敲了一会儿之后,我发现要让页脚正确显示,我需要做的就是将该行更改为: 我不明白为什么
我正在使用 this plugin用于跨浏览器兼容的灰度图像。基本上,图像最初处于低不透明度的灰度模式。当用户将鼠标悬停在图像上时,灰度逐渐变为彩色,不透明度返回到 1,之前隐藏的 div 从底部向上
这是一个 jsfiddle link of my issue HTML 8.123456 huh-fjiuetie 条件是: h
当前面的 div 中的文本溢出时,如何防止后面的内联 div 换行显示。 如您所见,对于第一个帖子,主要内容换行到第二行,因此它后面的链接显示在新行上(这是不正确的)。 但是对于第 3 篇文章,主标题
我有一个 div,当它悬停在上面时,它会激活另一个 div。当用户将鼠标移动到激活的 div 上时,我希望该 div 保留下来。这是一个片段。 当您将鼠标悬停在金色框上时,紫色框会隐藏并显示灰色框。当
我是一名优秀的程序员,十分优秀!