KDB+/q : How to implement an aggregation table for features?-6ren

KDB+/q : How to implement an aggregation table for features?

转载作者：行者123 更新时间：2023-12-04 12:44:38

26

4

我正在尝试实现一个聚合表，它将来自多个不同表的数据整理成一个用于特征工程、预处理和规范化。我面临着许多问题，其中第一个是我必须以某种方式为这个聚合表构建架构，而无需对其进行硬编码，这为我添加额外的数据提要提供了足够的灵活性。

trades
  - exch1
    - sym1
    - sym2
  - exch2
    - sym1
    - sym2
book
  - exch1
    - sym1
    - sym2
  - exch2
    - sym1
    - sym2
sentiment
   - sym1
   - sym2

问题出现了，正如我在之前的问题中所指出的，当我想在 kdb-tick 架构内的聚合表(聚合后)中插入可能具有或不具有不同模式的新聚合时。

我已经注意到 uj操作似乎是一个适当的操作，好像输出速率只有大约 0.5-1 赫兹，但是我被告知这可以被视为一种反模式，因为它可能会导致持久性问题，不是一个有效的操作等。

我想过在进行插入/更新插入操作之前检查模式(如果模式不同，更新模式，然后插入)。然而，这也可能是低效的。

我已经记下了之前问题的答案，但似乎所有问题都有负面影响，可能超过正面影响。

聚合的性质意味着我只需要 RTE 订阅者/工作器上大约 1000 行的表，以便有效地运行聚合，从而将旧记录清除到磁盘。
然而，列的数量可能会间歇性地改变(添加新的提要等)，不一定是在一天内。

数据的性质也意味着需要连续运行聚合，即将数据切割成几天是无效的。

我还考虑过为每个新功能维护一个单独的表，但是表的数量也会导致效率低下。

当人们选择尝试将旧的/清除的聚合行发送给然后定期保留这些聚合的工作人员时，也会出现问题，如何修改 kdb-tick 发布者-订阅者架构以支持 .u.upd[]聚合数据的列何时可能发生变化？
问题不在于 kdb-tick 架构本身，而是如何在保持向后模式兼容性/效率的同时对其中的数据进行聚合？

我什至考虑在 Rust 中创建我自己的域特定数据库，将数据划分为分片的平面文件。但是，由于我能够执行/创建的高级查询操作，我选择坚持使用 kdb/q。

我认为在线/实时运行这样的聚合将是使用 kdb+ 的 ml 的一个重要功能，但是我无法找到任何与此相关的文档。

因此，我的问题可以总结如下:
这个的规范实现是什么？一个人如何在 kdb 中有效地聚合来自多个来源的数据？
非常感谢您的建议。

最佳答案

您的tickerplant 应该为每个提要/表格提供一个固定/设置的架构。为此，您应该使用 vanilla/stock tick.q 代码。如果添加了新的提要，那么您可以在tickerplant 中配置一个新表。

您的订阅者/聚合器应该订阅来自tickerplant 的所有原始表，并且它应该聪明地根据表名弄清楚如何处理传入的记录。

您不必将不同的表/模式合并到一个表中。您的订阅者/聚合器(或者可能是您的模型流程)应该获取传入的记录并生成一个功能。然后，您可以将此功能插入具有固定架构的表中:

source    time                          feature output
---------------------------------------------------------
trade     2019.09.06D08:47:56.525854000 f1      0.4707883
trade     2019.09.06D08:47:56.525855000 f10     0.6346716
book      2019.09.06D08:47:56.525856000 f3      0.9672398
trade     2019.09.06D08:47:56.525857000 f5      0.2306385
sentiment 2019.09.06D08:47:56.525858000 f2      0.949975

然后你不断地扩大这张 table 。如果您需要旋转表格以使特征成为列，那么您可以事后进行。

这里的任何人都很难完全理解你的系统和你想要做什么。 Stack 更像是一个提出小问题的地方，而不是大的架构问题，因为这需要很多额外的信息。

关于KDB+/q : How to implement an aggregation table for features?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57814012/

26

4

0

文章推荐： docker - 合并请求合并后自动运行管道清理

文章推荐： qt - 如何将QML ScrollView滚动到中心？

文章推荐： android - 修复了没有滚动监听器的android中的背景图像

aggregate - 什么是 "aggregate"
刚刚收到一条错误消息，内容为“union __anonymous 只能是聚合的一部分”。我对此并不感到困惑，因为我正在尝试一些我知道不应该起作用的东西。但这让我想知道 D 中“聚合”的确切定义是什么
elasticsearch - “Filter then Aggregation”还是“Filter Aggregation”？
我最近在研究ES，发现可以达到几乎相同的结果，但是对于这两者之间的 DIFFERENCE ，我不清楚。 "Filter then Aggregation" POST kibana_sample_dat
sql - 更改查询以避免 Bigquery 中的 "Aggregations of aggregations are not allowed"
给定用户和订单表，我需要计算在注册日期后的第二天首次下单的用户。我设法通过以下查询列出了此类用户: SELECT users.first_name as first_name, users.
elasticsearch - Bucket_script aggregation on filters aggregation over nested documents
我有我的文档，它们包含嵌套的“事件”(如网站上的点击)文档。现在我想计算 name=x 的嵌套事件和 name=y 的嵌套事件之间的比率这是我的查询: curl -XGET http://192.
architecture - 领域驱动设计 : Aggregate root & Sub Aggregate roots
在我的项目中，我发现需要以分层方式打破我的聚合，使用顶级根级别聚合，以确保根级别的规则一致性，然后我的根下的对象可以分组为各种聚合。在计算根级聚合的完整性时，根验证自己的规则，然后委托(delegat
Spring 数据 MongoDB : How to describe aggregation $merge with Spring Aggregation?
我想通过 MongoTemplate 执行的代码: { $merge: { into: 'someCollection', on: "_id",
domain-driven-design - DDD : Getting aggregate roots for other aggregates
在过去的两周里，我一直在研究DDD，而真正令我难忘的一件事是聚合根如何包含其他聚合根。从存储库中检索聚合根，但是如果一个根包含另一个根，该存储库是否具有对另一个存储库的引用，并要求其构建子根？最佳答
domain-driven-design - DDD : Aggregate design - Referencing between aggregates
我对如何设计聚合有疑问。我有Company , City , Province和 Country实体。其中每一个都需要是其自身聚合的聚合根。 City , Province和 Country实体在整
domain-driven-design - DDD : Aggregate design - Referencing between aggregates
我对如何设计聚合有疑问。我有Company , City , Province和 Country实体。其中每一个都需要是其自身聚合的聚合根。 City , Province和 Country实体在整
c# - DDD : Aggregate Root accessed by another aggregate root
我目前正在开发 DDD 应用程序，我对如何处理似乎必须从另一个聚合根访问聚合根的场景感到困惑。这是我的边界上下文的概述: 用户可以加入该站点并就他们感兴趣的主题创建帖子。他们还可以创建群组并针对他们创
domain-driven-design - 解决框架 : How to properly derive an aggregate's state from the state of other aggregates?
我正在用 reSolve 做我的第一个项目，但在 DDD、ES 和 CQRS 方面的经验有限。所以，也许有一个非常简单的解决方案，但我还没有找到。我的问题:在我的项目中，一个聚合的状态(订单状态)实
azure - Azure Cosmos cassandra 数据库中的 "Cannot have aggregate and non-aggregate selectors in query"
https://howtoprogram.xyz/2017/02/18/using-group-apache-cassandara/ 我试图在 azure cosmos cassandra db 中执
java - 西提 CEP : Aggregate functions with time window don't "remove" values from aggregation
使用 Siddhi 3.0.3 作为 Java 库。我通过扩展 AttributeAggregator 类开发了自定义聚合函数，并且在调用 processRemove() 方法后我看到了一些奇怪的行
design-patterns - DDD : Can an Aggregate Root be an Entity within another Aggregate Root?
我正在尝试对一个公司拥有许多团队的问题进行建模。有一条业务规则“每个公司的团队名称必须是唯一的”。然而，团队还有许多其他行为，例如加入。此外，一个团队可以有许多报告 - 它们维护对Team.Id的引用
sql-server - T-SQL : Cannot perform an aggregate function on an expression containing an aggregate or a subquery
我正在尝试将总计的结果相加并将其减去总计，但我看到以下错误: 想象一下这样的事情第一个子查询:1 3 5 7第二个子查询:2 4 6 总计:(1+3+5+7) - (2+4+6) = 4 这是我的查
c# - DDD : one-to-many relationship between user aggregate root and almost all entities in other aggregates
我有以下 DDD 场景，分为以下聚合: 用户， friend (用户协会)，文件(供用户上传)，图库(文件分组)，消息(用户通信)，群组(用户可以创建，其他成员可以加入)， GroupMess
SQL Server "cannot perform an aggregate function on an expression containing an aggregate or a subquery"，但 Sybase 可以
这个问题之前已经讨论过，但没有一个答案能解决我的具体问题，因为我正在处理内部和外部选择中的不同 where 子句。该查询在 Sybase 下执行得很好，但在 SQL Server 下执行时会出现本文标
azure - 流分析: How can I start and stop a TUMBLINGWINDOW aggregation job inorder to reduce costs while still getting the same aggregation results?
上下文我使用 Azure 门户创建了一个流作业，该门户使用每日 TUMBLINGWINDOW 聚合数据。下面附上了一个代码片段，修改自 docs ，这显示了类似的逻辑。 SELECT DAT
mysql错误 "ERROR 3029 (HY000): Expression #1 of ORDER BY contains aggregate function and applies to the result of a non-aggregated query"
我正在执行以下查询 SELECT DISTINCT n.nid AS entity_id FROM node n INNER JOIN og_membership om ON n.nid=om.eti
aggregation - 如何聚合普罗米修斯指标
我的各种 docker 容器都导出 prometheus 指标，但是我们的 prometheus 安装只需要从一个端点提取所有指标。不幸的是，这无法更改。因此，我需要通过安装普罗米修斯来收集所有指标。

首页

博学

6Ren·AI

商城

KDB+/q : How to implement an aggregation table for features?