gpt4 book ai didi

.net - RavenDB - MapReduce 复杂聚合

转载 作者:行者123 更新时间:2023-12-02 03:54:26 27 4
gpt4 key购买 nike

我有这样一个文档:

 order : 1
event : { timestamp: 1/1/2012, employeeName: "mick" },
event : { timestamp: 1/1/2012, employeeName: "mick" },
event : { timestamp: 1/2/2012, employeeName: "rick" },
event : { timestamp: 1/3/2012, employeeName: "mick" }

order : 2
event : { timestamp: 1/2/2012, employeeName: "mick" },
event : { timestamp: 1/2/2012, employeeName: "rick" }

我想运行 map-reduce 查询以返回按日期分组的结果列表以及每个订单的员工事件计数。

在这种情况下,Mick 在 1/1 的一个订单上有 2 个事件。 11 月 2 日和 3 日,所有其他日子的员工对每个订单都有一个事件。所以我需要一个 MAP 函数,其结果如下所示:

{ orderId: 1, date: 1/1/2012, employee: "mick", orderEventsCount: 2 },
{ orderId: 1, date: 1/2/2012, employee: "rick", orderEventsCount: 1 },
{ orderId: 2, date: 1/2/2012, employee: "mick", orderEventsCount: 1 },
{ orderId: 2, date: 1/2/2012, employee: "rick", orderEventsCount: 1 },
{ orderId: 1, date: 1/3/2012, employee: "mick", orderEventsCount: 1 }

然后我需要一个 REDUCE 函数,它将获取这些结果并仅按日期分组,并返回每天在一个订单上处理多个事件的员工数量:

{ date: 1/1/2012, multipleEventsPerOrdercount: 1 },
{ date: 1/2/2012, multipleEventsPerOrdercount: 0 },
{ date: 1/3/2012, multipleEventsPerOrdercount: 0 }

由于 Mick 是唯一一个在一个订单的一个日期有多个事件的员工,因此结果只返回一个员工在一个订单的一个日期有多个事件的计数。

在 .NET 中使用 LINQ 编写此 map-reduce Raven 查询的最佳方法是什么?

谢谢

最佳答案

假设您的类如下所示:

public class Order
{
public string Id { get; set; }
public List<Event> Events { get; set; }
}

public class Event
{
public DateTime Timestamp { get; set; }
public string EmployeeName { get; set; }
}

那么您要的索引将如下所示:

public class Orders_EventCountsByDate : 
AbstractIndexCreationTask<Order, Orders_EventCountsByDate.Result>
{
public class Result
{
public DateTime Date { get; set; }
public double Count { get; set; }
}

public Orders_EventCountsByDate()
{
Map = orders => from order in orders
from evt in order.Events
let subtotal = order.Events.Count(x => x.EmployeeName == evt.EmployeeName && x.Timestamp == evt.Timestamp)
select new
{
evt.Timestamp.Date,
Count = subtotal > 1 ? (1.0 / subtotal) : 0
};

Reduce = results => from result in results
group result by result.Date
into g
select new
{
Date = g.Key,
Count = g.Sum(x => x.Count)
};
}
}

你会像这样使用它:

var counts = session.Query<Orders_EventCountsByDate.Result,
Orders_EventCountsByDate>();

这里的技巧是您在 map 中确定您希望每个事件对计数的贡献度。如果只有一个事件,你贡献零。当有多个事件时,每个事件只占总数的一小部分。这些分数稍后会在 reduce 中求和,使您返回接近整数。双 float 学应该让你回到整数,但为了安全起见,你仍然可能希望在客户端代码中四舍五入到最接近的整数。

这还假设所有事件都在同一时区并且您不关心夏令时的变化,或者时间是 UTC 时间。如果两者都不是,那么您应该使用 DateTimeOffset,并且在决定每个员工的“一天”概念时需要考虑更多。

关于.net - RavenDB - MapReduce 复杂聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13305443/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com