- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 django-rq 在 Python 中创建网站爬虫.到目前为止,我的 worker 看起来像这样:
status=1
。status=0
并将链接添加到队列。status=1
表示页面已处理。 status=0
表示页面尚未处理。
现在,该算法仅适用于单个工作人员。然而,当有更多的 worker 时它不会,因为工作程序的结束有时会比它应该的更早触发。
实现此 worker 的正确方法是什么?
最佳答案
所以你的系统会是这样的:
start job:
1. Create a page record in the database. Set status=0. Add page to queue.
worker:
1. Get the next page from the queue.
2. Download the page contents and process. Might take up to a minute or so.
3. For each link in the page
1. Check if the link is already registered in the database.
2. If not, create a new page record. Set status=0 and add the link to the queue.
4. After the for loop ends, set status=1 for this page.
5. Check whether the count of pages with status=0 is 0. If yes, the job is done.
存在的问题是,如果在前一个网络抓取作业完成之前开始后续网络抓取作业,您将只会在最后一个网络抓取作业结束时获得“作业完成”。您也许可以将作业 ID 添加到数据库页面记录中,并将“完成的作业”重新定义为 count(status=0 and job-id=x) = 0
来自RQ docs :
When jobs get enqueued, the queue.enqueue() method returns a Job instance. ... it has a convenience result accessor property, that will return None when the job is not yet finished, or a non-None value when the job has finished (assuming the job has a return value in the first place, of course).
您可以对两种不同类型的作业进行排队,一种是“获取网页”,另一种用于管理抓取过程。
管理工作将启动并跟踪所有“获取网页”工作。它会知道什么时候“工作完成”,因为它的所有子工作都已完成。
您不一定需要向数据库写入任何内容来管理抓取过程。
您需要运行 2 个以上的工作程序,以便可以同时处理 crawl
和 fetch
,也许在不同的队列上。
def something_web_facing():
...
queue.enqueue(crawl, 'http://url.com/start_point.html')
...
def crawl(start_url):
fetch_jobs = []
seen_urls = set()
seen_urls.add(start_url)
fetch_jobs.append( queue.enqueue(fetch, start_url) )
while len(fetch_jobs) > 0:
# loop over a copy of fetch_jobs
for job in list(fetch_jobs):
# has this job completed yet?
if job.result:
# a fetch job returns a list of the next urls to crawl
for url in job.result:
# fetch this url if we haven't seen it before
if url not in seen_urls:
seen_urls.add(url)
fetch_jobs.append( queue.enqueue(fetch, url) )
fetch_jobs.remove(job)
time.sleep(1)
return "Job done!"
def fetch(url):
"""Get web page from url, return a list of links to follow next"""
html_page = download_web_page(url)
links_to_follow = find_links_to_follow(html_page)
return links_to_follow
您可以排队使用 scrapy 的作业。 Run scrapy from a script
关于python - 当多个 worker 完成未知大小的工作时如何得到通知?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25958467/
我有一个交叉表函数,我过去曾多次成功使用它,但现在它在最后转储所有数据,而不是将其旋转到输出表中。它似乎无法找到交叉表。我通过以下方式对其进行了研究; 如果 tablefunc 不存在则创建扩展; -
表1(客户表) Id, CustomerId, IsKnownCustomer,phonemacaddress 1, 空 0 00:9a:34:cf:a4 2, 004024 1 00:6f:64:c
知道为什么我总是收到这个烦人且无用的错误代码/描述吗? Failed to pull image myapidemodocker.azurecr.io/apidemo:v4.0: rpc error:
我正在进行 PHP 登录,并且之前可以正常工作,但我尝试使用户名功能不区分大小写,但此后代码一直无法正常工作。我删除了我添加的所有内容,以尝试使其不区分大小写,即 strtolower()。页面上显示
有人会帮助我提供有关此错误的任何可能信息吗?原因?登录?在哪里寻找/开始? Cannot use output buffering in output buffering display handl
我已经添加了这样的脚本 我在我的 test.js 中做了这个 var app = angular.module('MyApp', ['ngRoute']).config
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我有这个sql语句: selectAllUsersByCriteria = 连接.prepareStatement( “从用户那里选择*?=?” ); 下面的方法运行该语句: public Array
我有一个白色的 EditText,在 Android 3.1 及更高版本中,光标不显示(因为它也是白色的)。有关信息,我使用 android:background="@android:drawable
我正在尝试使用 Keras 实现深度学习模型。但是我有一个未知形状实现的问题。我一直在寻找类似的错误,但没有找到。 这是我的代码。 Xhome = dataset[:,32:62] Xaway = d
关注此introduction可以通过导入命名空间 System.Xml 来使用 XMLReader 类。在我的 Visual Studio 项目中,我使用 .NET 4.0,但 System.Xml
我有一个动态链接库的程序。该程序将函数指针传递给该库以执行。 但是 ubsan(Undefined Behavior Sanitizer)指定指针位于错误的函数类型上。那只会发生 如果回调函数有一个类
我正在尝试在我的 Swift SpriteKit 应用程序中使用 AVAudioSession。我遇到了奇怪的“未声明类型”问题。例如…… import AVFoundation var audioS
如果在编译期间(在实际编译和运行程序之前)其参数之一的值已知/未知,如何专门化模板函数? 我还不知道怎么做。 想法 1: #include #include int main(void){
我看到一些人的代码是这样的: while (!(baseType == typeof(Object))) { .... baseType = baseType.BaseType;
我正在尝试使用 GoColly 框架获取所有 HREF 链接,但是只允许任何域的 url 为根 URL 或子域(否路径)。我已经注释掉了我的 REGEXP。文件扩展名没有事情。我只是在“/”之后不想要
我有一个包含多个实体的数据库,特别是 Book 和 User。它们之间存在这样的 ManyToMany 关系: 书: @Entity @Table(name = "Books") public cla
如果我将范围的初始部分设置为 Range("A:A"),如何确保将整行传递给排序? 数据 id、fname、mname、lname、后缀、状态、位置、时区 通过在 id 中搜索起点和终点来选择范围。
我对kubernetes很陌生,而对于docker来说就不那么多了。 我一直在研究示例,但是我对自动缩放器(似乎无法缩放)感到困惑。 我在这里通过示例https://kubernetes.io/doc
我在 ChildWindow 中使用 SL Toolkit 5 中的 BusyIndicator 控件。 在某些解决方案中,它可以工作,但在其他解决方案中,使用完全相同的代码(至少看起来),我在运
我是一名优秀的程序员,十分优秀!