gpt4 book ai didi

python - Scrapy -- 从脚本调用 scrapy 时,如何立即将字典返回给进程,而不是导出到 json 文件

转载 作者:太空狗 更新时间:2023-10-29 20:30:34 25 4
gpt4 key购买 nike

The official tutorial指定如何在python脚本中调用scrapy的方式

通过更改以下设置属性:

settings.overrides['FEED_URI'] = output_path
settings.overrides['FEED_FORMAT'] = 'json'

我能够将抓取的数据存储在 json 文件中。

但是,我正在尝试处理并返回在我定义的函数中立即抓取的数据。因此,其他函数可以调用此包装器函数来抓取某些网站。

我认为必须有一些设置可以使用 FEED_URI,但我不确定。任何建议将不胜感激!

最佳答案

提要导出旨在序列化您抓取的数据(参见 feed export documentation )。您正在尝试做的事情不涉及序列化。

您要做的是创建一个 pipeline . Scrapy 会将抓取的 Items 传递给管道。它们是字典,您可以随心所欲地使用它们。

关于python - Scrapy -- 从脚本调用 scrapy 时,如何立即将字典返回给进程,而不是导出到 json 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29401789/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com