gpt4 book ai didi

c# - ( Entity Framework )分组依据 - 低性能

转载 作者:太空宇宙 更新时间:2023-11-03 17:00:34 25 4
gpt4 key购买 nike

我对 Entity Framework 的性能有一个非常特殊的问题。我将框架的版本 7 与 SQLite 提供程序(均来自 nuget)一起使用。数据库有大约 1000 万条记录,但将来会有大约 1 亿条记录。 db的构建非常简单:

public class Sample
{
public int SampleID { get; set; }
public long Time { get; set; }
public short Channel { get; set; } /* values from 0 to 8191, in the presented test 0-15 */
public byte Events { get; set; } /* 1-255 */
}

public class Channel
{
public int ChannelID { get; set; }
public short Ch { get; set; }
public int Es { get; set; }
}

public class MyContext : DbContext
{
// This property defines the table
public DbSet<Sample> Samples { get; set; }
public DbSet<Channel> Spectrum { get; set; }

// This method connects the context with the database
protected override void OnConfiguring(DbContextOptionsBuilder optionsBuilder)
{
var connectionStringBuilder = new SqliteConnectionStringBuilder { DataSource = "E://database.db" };
var connectionString = connectionStringBuilder.ToString();
var connection = new SqliteConnection(connectionString);

optionsBuilder.UseSqlite(connection);
}
}

我尝试按 channel 对事件进行分组,然后将它们汇总为类似频谱的内容。当我使用 linq2sql 时,我的性能非常低。对于 10m 的记录,查询大约需要 15 分钟并获得大约 1 GB 的 RAM,然后抛出 OutOfMemoryException - 我认为 Entity Framework 正在将所有记录作为对象加载到内存中 - 但为什么呢?另一方面,简单的 SQL 需要大约 3 秒,并且不会占用大量 RAM。

        using (var db = new MyContext())
{
var res1 = from sample in db.Samples
group sample by sample.Channel into g
select new { Channel=g.Key, Events = g.Sum(s => s.Events) };
res1.ToArray();

var res2 = db.Natas.FromSql("SELECT Channel as ChannelID, Channel as Ch, SUM(Events) as Es FROM Sample GROUP BY Channel");
var data = res2.ToArray();
}

有什么建议吗?感谢您的帮助;)

最佳答案

建议?忽略 Entity Framework 。

如:这完全不是 EF 问题,甚至都不好笑。

看EF发出的SQL,然后从那个层级优化。呵呵,你对SQL影响不大;但对于像这样的简单语句,SQL 将是最佳的。

什么不是最佳的 - 并且有一个暗示你从未看过 SQL - 是数据库。指数在那里?代码优先的惊人之处在于它对数据库的复杂性一无所知,您需要首先从“我的数据库是否最优”的角度来看待它。指数。而且 - 可悲的是 - 硬件。如果您达到 1 亿行,您需要在数据库中拥有处理这个问题的能力。

I think that Entity Framework is loading all records as objects into memory - but why?

性能调试的规则 1:不要思考 - 检查。查看生成的 SQL(日志,res1 变量可以向您显示)并查看提交到数据库的内容。

您可能只有那么多数据。您只字不提存在多少个 channel - 这很可能需要一台更大的机器。

检查它。

此外:除非您需要,否则将结果拉入数组并不明智。在这种情况下,数组存在内存问题(重新分配以获得大小),而 LIST 可能更好(使用更多内存但不需要重新分配)。不过,一般来说,您希望避免具体化结果集——即从可枚举的对象开始工作。并非总是如此,但是您的测试可能会简单地显示出那一侧的问题。结果数组可能很大。并且需要一 block 内存。

严肃地说,质疑您对数据库技术的选择。 SqlLite 很好——它很小,很轻。它在内存中。它不适合大量数据,它不是一个完整的数据库服务器。使用 Sql Express 可能会好得多(如果有的话:SQL Express 将使用不在您的进程中但独立的内存进行缓存)。我个人不会将 SqlLite 用于可能使用数亿条记录的东西。

另外:请注意您的 SQL 是不同的。 EF 部分有一个 OrderBy(不需要),而 SQL 则没有。订购可能很昂贵。这让我们回到“获取 Entity Framework 生成的 SQL”。

关于c# - ( Entity Framework )分组依据 - 低性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36234017/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com