- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们正在 10 多家公司之间部署一个数据联盟。 Wi 将为所有公司部署多个机器学习模型(一般为高级分析模型),我们将管理所有模型。我们正在寻找一种管理多个服务器、集群和数据科学管道的解决方案。我喜欢 kedro,但不确定在使用 kedro 时管理所有内容的最佳选择是什么。
总之,我们正在寻找最佳解决方案来管理不同服务器和可能的 Spark 集群中的多个模型、任务和管道。我们目前的选择是:
最佳答案
我将尝试总结我所知道的,但请注意,我并未参与 KubeFlow 项目。
数据块上的 Kedro
我们的方法是使用 CI 构建我们的项目,然后从笔记本执行管道。我们没有使用 kedro recommended approach使用 databricks-connect 由于 large price difference作业和交互式集群(数据库连接所需)之间。如果您正在处理数 TB 的数据,这很快就会变得相关。
作为 DS,这种方法可能感觉很自然,但作为 SWE,虽然它不是。在笔记本中运行管道感觉很麻烦。它有效,但感觉没有工业化。 Databricks 在自动启动和关闭集群并为您处理运行时方面表现良好。所以他们的附加值是从你那里抽象出 IaaS(稍后会详细介绍)。
GCP 和“云原生”
亲 :GCP 的主要卖点是 BigQuery。它是一个非常强大的平台,仅仅因为您可以从第 0 天开始工作。我见过人们在它之上构建整个 Web API。 KubeFlow 与 GCP 无关,因此您可以稍后将其移植到其他地方。 Kubernetes 还允许您在集群、API、流媒体、Web 服务、网站上运行任何您想要的任何东西。
康 :Kubernetes 很复杂。如果你有 10 多名工程师长期运行这个项目,你应该没问题。但不要低估 Kubernetes 的复杂性。 Linux 之于操作系统世界,就像云之于云一样。想想日志管理、嘈杂的邻居(一个用于 Web API 的集群 + 批量 Spark 作业)、多集群管理(每个部门/项目一个集群)、安全性、资源访问等。
IaaS 服务器方法
你的最后一个选择,手动安装服务器是我推荐的唯一方法,前提是你有一个庞大的团队,非常大的数据,并且正在构建一个收入可以承受大量维护成本的长期产品。
背后的人
您所在地区的人才市场如何?如果您可以聘请具有 GCP 知识的经验丰富的工程师,我会选择第二个解决方案。 GCP 是一个成熟的“原生”平台,因为它为客户抽象了很多东西。如果您的市场主要有 AWS 工程师,那可能是一条更好的道路。如果您有许多 kedro 工程师,这也很重要。请注意,kedro 是不可知的,可以在任何地方运行。它实际上只是python代码。
主观建议 :
我主要从事 AWS 项目和一些 GCP 项目,我会选择 GCP。我会使用平台的组件(BigQuery、Cloud Run、PubSub、Functions、K8S)作为工具箱来选择并围绕它构建一个组织。 Kedro 可以在任何这些上下文中运行,作为调度程序触发的作业、作为 Kubernetes 上的容器或作为将数据导入(或导出)BigQuery 的 ETL 管道。
尽管与原始 AWS 相比,Databricks 的“管理更少”,但它仍然是需要考虑的服务器和需要担心的 VPC 网络费用。 BigQuery 只是查询 GB。函数只是调用计数。这些高级组件将使您能够快速向客户展示值(value),并且您只需在扩展时更深入(RaaS -> PaaS -> IaaS)。
AWS 在 IaaS 上也有这些更高级别的抽象,但总的来说,(对我来说)谷歌的产品似乎是最成熟的。主要是因为他们发布了在内部使用了近十年的工具,而 AWS 为市场构建了新工具。不过,AWS 是 IaaS 之王。
最后说一点内容,two former colleagues have discussed ML industrialisation frameworks earlier this fall
关于google-cloud-platform - DataBricks + Kedro Vs GCP + Kubeflow Vs 服务器 + Kedro + Airflow,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64921833/
谁能解释一下 Server.MapPath(".")、Server.MapPath("~")、Server.MapPath(@"之间的区别\") 和 Server.MapPath("/")? 最佳答案
我不知道,为什么我们要使用 Server.UrlEncode() & Server.UrlDecode()?!在 QueryString 中我们看到 URL 中的任何内容,那么为什么我们要对它们进行编
我已经通过 WHM 在我的一个域上安装了 ssl 证书。网站正在使用 https://xyz.com . 但是它不适用于 https://www.xyz.com .我已经检查了证书,它也适用于 www
我已经使用 WMI 检测操作系统上是否存在防病毒软件,itz 正常工作并通过使用命名空间向我显示防病毒信息,例如 win xp 和 window7 上的名称和实例 ID:\root\SecurityC
我们有 hive 0.10 版本,我们想知道是否应该使用 Hive Server 1 或 Hive Server2。另一个问题是连接到在端口 10000 上运行的 Hive 服务器,使用 3rd 方工
我想在 C++ 中使用 Windows Server API 设置一个 HTTPS 服务器,我使用了示例代码,它在 HTTP 上工作正常,但我就是不能让它在 HTTPS 上工作。 (我不想要客户端 S
我写了一个非常基本的类来发送电子邮件。我用 smtp 服务器对其进行了测试,它工作正常,但是当我尝试使用我公司的交换服务器时,它给出了这个异常: SMTP 服务器需要安全连接或客户端未通过身份验证。服
我的应用程序包含一个“网关”DataSnap REST 服务器,它是所有客户端的第一个访问点。根据客户端在请求中传递的用户名(基本身份验证),请求需要重定向到另一个 DataSnap 服务器。我的问题
我有一个 Tomcat 服务器和一个 Glassfish4 服务器。我的 Servlet 在 Tomcat 服务器上启动得很好,但在 Glassfish4 服务器上给我一个“HTTP Status 4
我在 vmware 上创建了一个 ubuntu 服务器。我用它作为文件服务器。如果我通过托管虚拟机的计算机进行连接,则可以访问它。我无法从同一网络上的其他计算机执行此操作。提前致谢! 最佳答案 首先确
如何重启 Rails 服务器?我从 开始 rails server -d 所以服务器是分离的 我知道的唯一方法就是去做ps 辅助 | grep rails 并 kill -9关于过程#但是像这样杀死进
我实际上正在尝试找到编写一个简单的 XMPP 服务器的最佳方法,或者找到一个占用空间非常小的服务器。我只关心XMPP的核心功能(状态、消息传递、群组消息传递)。目前还在学习 XMPP 协议(proto
我实际上正在尝试找到编写简单 XMPP 服务器的最佳方法,或者找到一个占用空间非常小的方法。我只关心 XMPP 的核心功能(统计、消息、组消息)。目前也在学习 XMPP 协议(protocol),所以
我们正在尝试从 Java JAX-RS 适配器访问 SOAP 1.1 Web 服务。 我们正在使用从 WSDL 生成的 SOAP 客户端。 但是当解码 SOAP 故障时,我们得到以下异常: ... C
目前,我和许多其他人正在多个平台(Windows、OS X 和可能的 Linux)上使用 Python HTTP 服务器。我们正在使用 Python HTTP 服务器来测试 JavaScript 游戏
我有一个连续运行的服务器程序(C#/.NET 2.0 on Linux with mono),我想从 PHP 脚本连接到它以在网站上显示状态信息。 目的是创建一个(某种)实时浏览器游戏(无 Flash
所以我有一个单页客户端应用程序。 正常流程: 应用程序 -> OAuth2 服务器 -> 应用程序 我们有自己的 OAuth2 服务器,因此人们可以登录应用程序并获取与用户实体关联的 access_t
我们刚刚将测试 Web 服务器从 Server 2008 升级到 Server 2012 R2。我们有一个部署我们网站的批处理脚本。当它将站点推送到服务器时,它现在失败了。奇怪的是,我可以使用相同的发
建议一些加载SpagoBI服务器的方法,我尝试了所有方法来解析spagobi服务器。在 Catalina 中,错误是 - * SEVERE: Unable to process Jar entry [
当我们点击应用程序服务器(apache tomcat)时,它会创建一个线程来处理我们的请求并与 tomcat 连接,建立连接,tomcat 创建另一个线程来处理请求并将其传递给连接,连接线程将其传递给
我是一名优秀的程序员,十分优秀!