Kedro 数据建模-6ren

Kedro 数据建模

转载作者：行者123 更新时间：2023-12-02 02:09:22

26

4

我们正在努力对数据进行正确建模以便在 Kedro 中使用 - 我们正在使用推荐的 Raw\Int\Prm\Ft\Mst 模型，但正在努力解决一些概念......例如

什么时候数据集是要素而不是主要数据集？区别似乎很模糊......
主数据集可以使用另一个主数据集的数据吗？
从 INT 层构建特征数据集是一种好的做法吗？还是应该始终通过 Primary？

我很欣赏数据建模没有硬性规定，但这些都是重大的建模决策，任何有关 Kedro 建模的指导或最佳实践都会非常有帮助，我可以在 Kedro docs 中找到一张定义各层的表。

如果有人可以提供任何有关 Kedro 数据建模的进一步建议或博客\文档，那就太棒了!

最佳答案

很好的问题。正如您所说，这里没有硬性规定，意见也各不相同，但让我作为一名 QB 数据科学家和 kedro 维护者分享我的观点，他曾多次使用过您提到的分层约定。

首先，我要强调的是，如果 kedro 建议的数据工程约定不适合您的需求，那么绝对没有理由坚持它。 99% 的用户不会更改 data 中的文件夹结构。这并不是因为 kedro 默认结构适合他们，而是因为他们只是不想改变它。您绝对应该添加/删除/重命名图层以适合自己。最重要的是选择一组适合您的项目的图层(甚至是非分层结构)，而不是尝试硬塞数据集以适应 kedro 默认建议。

现在，假设您遵循 kedro 的建议结构 - 解决您的问题:

When is a dataset a feature rather than a primary dataset? The distinction seems vague...

对于简单特征，特征数据集可能与主要数据集非常相似。如果您考虑更复杂的功能，例如通过在时间窗口内聚合而形成。主数据集将有一列提供原始数据的清理版本，但无需对其进行任何复杂的计算，只需进行简单的转换。假设原始数据是一周内驶过您家的所有汽车的颜色。当数据处于主要状态时，它将是干净的(例如，将“rde”更正为“红色”，可能将“深红色”和“红色”映射为相同的颜色)。在主要层和特征层之间，我们将对其进行一些不那么简单的计算，例如每天查找最常见的汽车颜色 one-hot 编码。

Is it OK for a primary dataset to consume data from another primary dataset?

在我看来，是的。如果您想将多个主表连接在一起，这可能是必要的。一般来说，如果您正在构建复杂的管道，如果您不允许这样做，将会变得非常困难。例如在要素图层中，我可能希望根据两个输入 feature_1 和 feature_2 形成一个包含 composite_feature = feature_1 * feature_2 的数据集。如果要素层中没有多个子层，则无法做到这一点。

但是，通常值得避免的是消耗来自许多不同层的数据的节点。例如一个节点，它从要素层获取一个数据集，从中间层获取一个数据集。这看起来有点奇怪(为什么后面的数据集没有通过要素层？)。

Is it good practice to build a feature dataset from the INT layer? or should it always pass through Primary?

从中间层构建功能并非闻所未闻，但似乎有点奇怪。主层通常是重要的一层，它构成了所有特征工程的基础。如果您的数据处于可以构建特征的形状，那么这意味着它可能已经是主要层。在这种情况下，也许您不需要中间层。

以上几点可以总结为以下规则(毫无疑问，在需要时应该打破这些规则):

L 层中节点的输入数据集应全部位于同一层，可以是 L 或 L-1
层L中节点的输出数据集应全部位于同一层L，可以是L或L+1

If anyone can offer any further advice or blogs\docs talking about Kedro Data Modelling that would be awesome!

我也有兴趣看看其他人的想法!需要注意的一件可能有用的事情是 kedro 受到 cookiecutter 数据科学的启发，并且 kedro 层结构是 what's suggested there 的扩展版本。。也许其他项目已经采用了这个目录结构并以不同的方式对其进行了调整。

关于Kedro 数据建模，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67925860/

26

4

0

文章推荐： google-cloud-platform - Terraform - GCP - 连接 : connection refused

文章推荐： iOS Swift URLSession POST 请求因缓慢的 API 调用而重复

eclipse 建模
我正在寻找可以从 Eclipse 的 UML 图生成代码的工具。该工具应该从 UML 图生成代码，进行逆向工程以查看代码更改，并提供合并选项以防止因任何更改而删除文件。是否有工具可以做到这一点，或者
UML 建模 - 在实践中它会在某个时候变成巫毒科学吗？
我正在寻找有关建模的见解。我有一个关于设计模式和基本类图、序列图和用例的介绍类(class)。我发现类图作为我编程中的组织工具非常宝贵。到目前为止，用例还算有用。本学期我正在上课，更深入地学习 U
json - 如何在Fluter上从Firestore中的模型json数据内部序列化/建模
如何使用 flutter 数据建模技术访问“HH”和“mm”。我一直在尝试按以下方式使用它，但是下面给出了错误。我的数据模型当前为它的简化版本。 class Week { final Strin
Neo4j 建模 - 按距离排序节点
我正在使用 Neo4j 和 PHP。在我的项目中，我有餐厅节点。每个节点都有纬度、经度和分类属性。我需要返回与用户给定分类相匹配的餐厅节点，其结果按距用户位置的距离排序(即第一个最近的餐厅)。最简
Java POJO 建模
我希望 POJO 包含一个 Status 字段(只有两个可能的值 SUCCESS、FAILED)，并且根据此状态，第二个字段需要为 POJO 对象(如果 Status 为 SUCCESS) 或只是字符
mysql 数据库规范化/建模
我正在尝试将我的办公室迁移到数据库应用程序中。这是我得到的: (来源:phunkei.de) 公司和个人从客户继承(1:1关系)。这是因为他们都可以是“客户”并收到账单，我想引用订单中的单个表。公司和
SQL 建模/查询问题
我目前有这个数据库结构: 一个条目可以有多个"file"、“文本”和“url”类型的项目。这些项目中的每一项在文本、网址或文件表(存储数据的位置)中都有一个对应的项目。我需要一个查询来有效地选择一
c++ - 用 "if"建模 "for"
下面的代码不应该像“if(condition)”语句一样工作吗，当它在另一个循环中并且“body”有自己的 break 或 continue 语句时，会出现明显的错误行为: for( ; condit
按计数对字符串进行排序的 Redis 建模
我一直在像这样存储和递增下载计数器: INCRBY downloads: 1 但现在我想要下载:* 按值排序，以便显示热门下载列表。我觉得我可以更好地存储它。我愚弄了: ZINCRBY downlo
nosql - Neo4j(或任何其他图形数据库)建模
我开始使用图形数据库，在我的团队中，我们已经开始为我们的软件建模图形。当我们尝试“记录”模型以查看数据库的结构时，问题就出现了。对于 SQL 数据库，您只需查看 SQL 模式。我们花了一些时间阅读
r - 使用面板数据进行 ARIMA 建模
我正在做一个固定效应回归并且遇到了自相关问题，为了解决这个问题，我正在使用预测、lmtest 和 plm 包进行 ARIMA 建模。我的数据是一般面板数据，looks like this ，我正在尝试
c - 建模 C 应用程序
我想知道是否有任何工具可以帮助我对 C 应用程序(即函数式编程)进行建模。例如。我目前正在构建一个共享库。但是为了直观地传达我的设计，我需要类似 UML 的东西。我想这样做，以便审查我的设计的人不需要
Json 到 Gson - 建模
我正在尝试将 JSON 转换为 GSON ，但我无法建模。谁能给我举个例子。 [ { "id": "1", "name": "lalala",
scala - 建模 optional 参数的最佳方法
正如标题所说，在中建模 optional 参数的最佳方法是什么？斯卡拉 ? 对于 optional 参数，我的意思是执行函数体不需要的值。要么因为该参数存在默认值，要么根本不需要该参数本身(例如配
functional-programming - 建模/记录功能程序
我发现 UML 可用于记录 OO 系统的各个方面，尤其是用于整体架构的类图和用于说明特定例程的序列图。我想为我的 clojure 应用程序做同样的事情。我目前对模型驱动开发不感兴趣，只是在交流应用程序
properties - 建模 DateTime 原始类型
我想知道是否有人知道如何使用 UML 在属性中建模 DateTime 基元类型？最佳答案我想这取决于日期的格式......请参阅下面的示例，其中我使用两个整数(分别为日和年)和一个名为“Month
java - 用于模型库测试的 UML 建模
我有一些与我的问题建模相关的问题。我正在研究基于模型的测试的论文项目。还想从专家的角度了解我是否采用正确的方法来建模我的场景。我正在对 Android 应用程序的 UI 进行建模，遍历它们，生成测试用
nosql - CouchDB 建模 - 时间过滤和分组数据
我正在尝试建立对 CouchDB 以及如何为某些现实世界场景建模数据的理解。我现在已经尽可能多地“按日期获取我的博客文章”；) 给定这样的文件: { "_id": "couch1",
rest - 使用层次结构对 REST 建模
一个模型资源是如何分层的？例如假设一个人有一个“留言板”并且“消息”是一种资源。假设“消息”可以有回复，从而形成一个讨论线程。如何模拟线程的概念？ “消息”是否包含它的子项？ “线程”是它自己的资源吗
java - 为我的类中使用的通用 pojo 建模
我正在尝试创建一个像通用 POJO 一样工作的对象，因为我必须通过不同的对象传递它，并且我需要一个接口(interface)来访问其属性。目前，我使用具有 getField 方法的基础对象来完成此操

首页

博学

6Ren·AI

商城

Kedro 数据建模