gpt4 book ai didi

etl - ETL 框架所需的功能是什么?

转载 作者:行者123 更新时间:2023-12-04 01:45:54 29 4
gpt4 key购买 nike

我正在编写一个 ETL(在带有 mongodb 后端的 python 中)并且想知道:应该将 ETL 什么样的标准函数和工具称为 ETL?

此 ETL 将尽可能通用,采用可编写脚本和模块化的方法。大多数情况下,它将用于使不同的数据库保持同步,并以不同的格式(xml 和 csv)导入/导出数据集。我不需要任何多维工具,但以后可能会需要它。

最佳答案

让我们考虑一下 ETL 用例。

  • 提炼。
  • 通过通用 DB-API 适配器读取数据库。
  • 通过类似的适配器读取平面文件。
  • 通过类似的适配器阅读电子表格。
  • 洁净。
  • 任意规则
  • 过滤和拒绝
  • 替换
  • 添加数据列
  • 配置文件数据。
  • 统计频率表。
  • 转换(参见 cleanse,它们是具有相同实现的两个用例)
  • 进行尺寸一致性查找。
  • 替换值,或添加值。
  • 总计的。
  • 在管道中的任何位置
  • 加载。
  • 或者准备一个平面文件并运行数据库产品的加载器。

  • 此外,还有一些不是单一用例的附加要求。
  • 每个单独的操作都必须是一个单独的进程,可以在 Unix 管道中连接,各个记录从一个进程流向另一个进程。这会使用所有 CPU 资源。
  • 您需要某种基于时间的调度程序来处理难以推理出 ETL 前提条件的地方。
  • 您需要一个基于事件的时间表来确定 ETL 处理步骤的先决条件。

  • 笔记。由于 ETL 是 I/O 绑定(bind)的,因此多线程对您没有什么好处。由于每个进程都运行了很长时间——尤其是如果你有数千行数据要处理——“重量级”进程的开销不会受到伤害。

    关于etl - ETL 框架所需的功能是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1321396/

    29 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com