gpt4 book ai didi

java - 在开发中为 gae 应用程序抓取数据并将其上传到 prod 还是应该在 prod 中抓取更容易?

转载 作者:搜寻专家 更新时间:2023-10-30 19:58:34 25 4
gpt4 key购买 nike

我必须运行抓取任务来为我的 App Engine (Java) 应用程序收集数据。

我不确定哪个最好 - 在开发模式下抓取数据并将其上传到产品或在应用程序在生产环境中运行时抓取它。

有区别吗?

将大量数据从一个环境转移到另一个环境是否有任何困难(dev->prodprod->dev )?

最佳答案

开发服务器本身可能不是一个很好的抓取工具;它是单线程的,并且(至少对于 python 而言;java 实现可能截然不同)在存储大量数据时,数据存储非常糟糕。

但是,根据您要抓取的内容,生产服务器可能不太适合这项任务;如果网站响应请求的时间可能超过 10 秒,则 urlfetch API 将超时。如果您可以确定这不会成为问题,那么在生产中进行抓取并直接写入数据存储可能会更方便。

如果没有,使用独立工具进行抓取然后使用 RESTful 网络服务或远程 API 将数据放入生产数据存储中可能是有意义的。


编辑:生产服务器现在可以对从任务队列或 cron 作业启动的 urlfetch 设置 10 分钟超时,因此这些异议可能不再适用。

关于java - 在开发中为 gae 应用程序抓取数据并将其上传到 prod 还是应该在 prod 中抓取更容易?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4023857/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com