gpt4 book ai didi

python - 在 Django/Python 中从网站抓取图像的有效方法

转载 作者:行者123 更新时间:2023-12-01 01:55:30 26 4
gpt4 key购买 nike

首先,我想我应该说我仍然是一个 Django/Python 菜鸟。我正在进行一个允许用户输入 URL 的项目,该网站从该页面中抓取内容并返回超过一定大小的图像和页面标题标签,以便用户可以选择他们想要在其上使用的图像轮廓。我假设这是一个非常标准的场景。我通过使用 Selenium( headless Chrome 浏览器)来获取目标页面内容,使用一些 python 来确定文件大小,然后我的 Django View 将其全部吐出到模板中。然后,我对其进行编码,以便用户选择的图像将被下载并存储在本地。

但是我严重怀疑它的可扩展性,它目前只是在本地运行,我非常担心如果有很多用户同时运行,它会如何应对。每次发出请求时,我都会启动 headless Chrome 浏览器,这听起来效率不高,我必须下载图像来确定它的大小,以便我可以决定它是否足够大。一个示例从我提交 URL 到向用户显示结果花了 12 秒,而通过 www.kit.com 输入相同的目标 URL(它们具有非常相似的网页抓取功能)花了 3 秒。

我没有提供任何代码,因为我的代码做了它应该做的事情,但我认为这种方法是不正确的。总结一下我想要的是:

  • 允许用户输入 URL 并返回该页面中超过特定​​尺寸(宽度/高度)的所有图像(或仅返回这些图像的 URL)以及页面标题。

  • 考虑到它将在许多用户之间同时运行,这是最有效的解决方案。

  • 让它在 Django (2.0)/Python (3+) 环境中工作。

我并不完全反对使用来自第三方服务的 API(如果存在),但这将是我最不喜欢的选择。

任何帮助/指示将不胜感激。

最佳答案

您可以根据您的情况使用 2 个 python 解决方案:
1) BeautifulSoup ,和 here是如何使用它下载图像的一个很好的答案。您只需将其设为一个单独的函数并将 site 作为参数传递给它即可。但正如你所说,仅解析图像链接也很容易 - 取决于你需要的速度(显然,抓取文件,特别是当文件数量很大时,会比链接慢得多)。该工具仅用于解析和抓取页面内容。

2) Scrapy - 这是更强大的工具、框架,通过它你可以将你的蜘蛛连接到 Django 模型,使用它的 built-in 更有效地操作图像。图像管道。它具有许多功能,可以更加灵活地处理废弃的数据。我不确定您是否需要在您的项目中使用它,以及它在您的情况下是否强大。

另外,我的建议是在一些后台任务中运行蜘蛛,例如 QueueCelery,并通过 AJAX 调用结果,因为解析内容可能需要一些时间 - 所以不要让用户等待响应。

附:在某些情况下,您甚至可以结合使用这两个工具:)

关于python - 在 Django/Python 中从网站抓取图像的有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50250478/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com