- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
最近,我一直在努力掌握 scrapy。我觉得如果我对架构有更好的理解,我会走得更快。当前的具体问题是:我想将 scrapy 提取的所有链接存储在数据库中,而不是响应和链接。这是为了完整性检查。
我最初的想法是使用 process_links
rule
上的参数并生成 items
在它指向的函数中。然而,callback
参数指向一个函数,它是一个项目生成器,process_links
参数更像是一个过滤器。在callback
函数你产生项目,它们被自动收集并放入管道中。在process_links
函数返回链接列表。您不生成项目。
我可以在 process_links
中建立数据库连接函数并直接写入数据库,但是当 scrapy 具有通过 Twisted 的内置异步数据库事务处理时,这并不是正确的方法。
我可以尝试传递 process_links
中的项目功能到callback
功能,但我不确定这两个功能之间的关系。一个用来生成item,一个接收一个list,还得返回一个list。
在试图彻底思考这个问题时,我不断遇到这样一个事实,即我不理解 scapy 中的控制循环。正在读取 callback
产生的项目的进程是什么?功能?向 process_links
提供链接并从中接收链接的过程是什么?功能?那个带requests
的并返回 responses
?
从我的角度来看,我在生成 items
的蜘蛛中编写代码. items
自动读取并通过管道移动。我可以在管道和 items
中创建代码将自动传递到该代码中并从该代码中取出。缺少的是我对这些 items
的确切理解。通过管道移动。
查看代码我可以看到蜘蛛的基本代码隐藏在角落里,所有优秀的蜘蛛都应该这样,并以 __init__.py
的名义进行.它包含 starts_requests(
) 和 make_requests_from_url()
根据文档的功能是起点。但这不是一个控制循环。它正在被其他东西调用。
从相反的方向,我可以看到当我执行命令时 scrapy crawl...
我调用crawl.py
依次调用 self.crawler_process.start()
在 crawler.py
.这将启动一个 Twisted react 器。还有core/engine.py
这是另一个函数集合,看起来好像是为了控制蜘蛛的操作而设计的。
尽管查看了代码,但我对整个过程并没有清晰的印象。我意识到框架的想法是它隐藏了很多复杂性,但我觉得通过更好地了解正在发生的事情,我可以更好地利用框架。
抱歉发了这么长的帖子。如果有人能给我关于保存数据库链接的具体问题的答案,那就太好了。如果您能够简要概述架构,那将非常有帮助。
最佳答案
简而言之,Scrapy 是这样工作的:
start_requests
方法start_requests
方法时显式定义回调。如果你不这样做,Scrapy 将使用 parse
方法作为回调。 parse
回调中获得的 response
对象允许您使用 css 选择器或 xpath 提取数据。 Item
并 yield
它们。如果需要跳转到其他页面,可以yield scrapy.Request
。Item
对象,Scrapy 将通过注册的管道发送它们。如果你 yield scrapy.Request
,请求将被进一步解析,响应将反馈给回调。同样,您可以定义一个单独的回调或使用默认回调。 Item
)通过管道处理器。在管道中,您可以将它们存储在数据库中或任何您想做的事情。 简而言之:
parse
方法或蜘蛛内部的任何方法中,我们将提取并生成我们的数据,以便它们通过管道发送。 在管道中,您进行实际处理。
这是一个简单的蜘蛛和管道示例:https://gist.github.com/masnun/e85b38a00a74737bb3eb
关于python - 了解scrapy框架架构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34311702/
是否可以简化在裸机上运行的这条链: 具有随时间变化的副本数的 StatefulSet 服务 使用 proxy-next-upstream: "error http_502 timeout invali
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我需要为应用程序制定架构。它专为销售产品而设计。 系统每天将接受大约 30-40k 的新产品。它将导致在表 product 中创建新记录。 系统应保留价格历史记录。用户应该能够看到产品 A 的价格在去
我需要一些帮助来理解 PHP 的内部工作原理。 还记得,在过去,我们曾经写过 TSR(Terminate and stay resident)例程(pre-windows 时代)吗?一旦该程序被执行,
1.Nginx 基础架构 nginx 启动后以 daemon 形式在后台运行,后台进程包含一个 master 进程和多个 worker 进程。如下图所示: master与
.NET Core:架构、特性和优势详解 在软件开发领域,保持领先地位至关重要。随着技术以指数级的速度发展,开发人员不断寻求高效、可扩展且多功能的解决方案来应对现代挑战。.NET Core 就是这样
本文深入探讨了Kubernetes(K8s)的关键方面,包括其架构、容器编排、网络与存储管理、安全与合规、高可用性、灾难恢复以及监控与日志系统。 关注【TechLeadCloud】,
我知道 CNN 的工作原理,包括每一层的用途(Dropout、Pooling 等)。但是,在为新数据集设计 CNN 时,我不知道要使用多少个 Conv-Relu-Pool 层,在最终获得输出之前我应该
在基于 REST 的架构中,资源和方法之间有什么区别。有吗? 最佳答案 资源是您的应用程序定义的东西;它们与物体非常相似。方法是 HTTP 动词之一,例如 GET、POST、PUT、DELETE。它们
我想用 oneOf仅在 xyType 的值上不同的模式属性(property)。我想要其中两个:一个是 xyType设置为 "1"第二个在哪里xyType是 任何其他值 .这可以使用 json 模式完
寻求 PHP 架构师的建议! 我对 PHP 不是很熟悉,但已经接管了一个用该语言编写的大型分析包的维护工作。该架构旨在将报告的数据读取到大型键/值数组中,这些数组通过各种解析模块传递,以提取每个模块已
这些存在吗? 多年来,我一直是大型强类型面向对象语言(Java 和 C#)的奴隶,并且是 Martin Fowler 及其同类的信徒。 Javascript,由于它的松散类型和函数性质,似乎不适合我习
我已经阅读了 Manning 的 Big Data Lambda Architecture ( http://www.manning.com/marz/BD_meap_ch01.pdf ),但仍然无法
在过去的几年里,我做了相当多的 iOS 开发,所以我非常熟悉 iOS 架构和应用程序设计(一切都是一个 ViewController,您可以将其推送、弹出或粘贴到选项卡栏中)。我最近开始探索正确的 M
我有以下应用程序,我在其中循环一些数据并显示它。 {{thing.title}} {{thing.description}}
昨天我和我的伙伴讨论了我正在开发的这个电子购物网站的架构。请注意,我为此使用 ASP.NET。他非常惊讶地发现我没有将添加到购物车的项目保留在 ArrayList 或其他通用列表中,而是使用 LINQ
我正在使用在 tridion 蓝图层次结构中处于较低位置的出版物。从蓝图中较高级别的出版物继承的一些内容和模式不适合我的出版物,并且永远不会被我的出版物使用。 我将跟进添加这些项目的内部团队,并尝试说
我目前已经在 Cassandra 中设计了一个架构,但我想知道是否有更好的方法来做事情。基本上,问题在于大多数(如果不是全部)读取都是动态的。我构建了一个分段系统作为应用程序服务,读取动态自定义查询(
我正在按照 documentation 中给出的 icingaweb UI v 2.0 布局执行在服务器上设置 icinga 的步骤。 。我成功进入设置页面,该页面要求您输入 token ,然后按照步
我必须保存来自不同社交媒体的用户的不同个人资料。例如用户可能有 1 个 Facebook 和 2 个 Twitter 个人资料。如果我保存每个配置文件它作为新文档插入不同的集合中,例如 faceboo
我是一名优秀的程序员,十分优秀!