- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个已导入 Power BI 桌面的 16GB CSV。我使用的工作站是运行 Windows Server 2016(64GB 内存)的 Azure VM。文件的导入需要几秒钟,但是,当我尝试将查询编辑器中的数据集过滤到特定日期范围时,需要相当长的时间(它仍在运行,到目前为止已经大约 30 分钟)。正在从 VM 上创建的 RAM 磁盘读取源文件 (16GB CSV)。
处理这种大小的数据集时,最好的方法/实践是什么?在 SQL Server 中导入 CSV 然后在将数据集过滤到日期范围时使用直接查询会获得更好的性能吗?我原以为它会在我当前的设置下运行得相当快,因为我在该 VM 上有 64GB 内存可用。
最佳答案
当数据量很大时,您还需要适当的计算能力来处理它。当你进口 Power BI 中的这些行,Power BI 本身就需要这种计算能力。如果您在 SQL Server(或 Analysis Services 或其他)中导入数据,并使用直接查询或实时连接,则可以将计算委托(delegate)给数据库引擎。使用 Live Connection,您的所有建模都在数据库引擎上完成,而在 Direct Query 中,建模也在 Power BI 中完成,您可以添加计算列和度量。因此,如果您使用 Direct Query,您仍然必须注意在哪里计算的内容。
你要求“最好的”,这总是有点模糊。您必须根据许多其他因素自行决定。 Power BI 本身就是 Analysis Services(当您运行 Power BI Desktop 时,您可以看到 Microsoft SQL Server Analysis Services 子进程正在运行),因此在 Power BI 中导入数据应该会提供与在 SSAS 中导入数据类似的性能。要在这种情况下提高性能,您需要调整模型。如果在 SQL Server 中导入数据,则需要调整数据库(适当的索引和建模)。
因此,要做出最终决定,您必须测试这些解决方案,考虑定价和硬件要求,并根据这些情况确定最适合您的情况。
最近,微软做了一个demo with 1 trillion行数据。你可能想看看它。我也建议看看aggregations ,这可以帮助您提高模型的性能。
关于sql-server - Power BI 处理 16gb CSV 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54191536/
#include typedef std::vector vc; typedef std::vector vvc; vvc f() { const int N = (1 不把它还给操作系统。 因
我正在尝试训练 Dlib's train_shape_predictor_ex.cpp与 Halen数据集。我在 Release模式 中使用 Visual Studio 将代码编译为 64 位平台 作
当我试图解决this 时想到了这个问题。问题。 我有一个容量为 120 GB 的硬盘,其中 100 GB 被一个巨大的文件占用。所以 20 GB 仍然是免费的。 我的问题是,我们如何将这个巨大的文件拆
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Can you allocate a very large single chunk of memory (
我有一台运行 Linux (3.19.5-200.fc21.x86_64) 的 128 GB RAM 的计算机。但是,我不能在单个进程中分配超过 ~30 GB 的 RAM。除此之外,malloc 失败
我需要为 808704000 个 float 分配内存,大约是 3085 MB。我的电脑有 32 GB 内存,运行 64 位 Linux (CentOS 6.6)。每次我尝试分配内存时,malloc
很抱歉这个愚蠢的问题,但是当reading about 32 bits limitation ,我发现由于 Memory-Mapped 方法,MongoDB 不能存储超过 2 GB,但是: 2^32
假设我们有一个 32 位地址,那么每一位可以是 1 或 0。 所以组合总数等于2^32。 所以我们可以表示 2^32 个地址(没有单位)。 但为什么人们说 32 位地址可以表示 2^32 字节地址(为
好吧,这个问题确实是一个挑战! 背景 我正在从事一个涉及比正常数字更大的基于算术的项目。我是新手,我打算使用 4 GB 文件大小的最坏情况(我什至希望将其扩展到 5GB 上限,因为我之前看到文件大小大
我在文件系统上有大约 12 个大小为 1 GB 到 10 GB 的存储库,我需要为所有这些存储库设置自动备份(我们的旧备份脚本在计算机出现故障时丢失了) XP 64 位机器。 看完this quest
我尝试调整 Linux VM 上的操作系统磁盘大小,该 VM 通常由 azure 自动创建。我无法创建自定义操作系统磁盘 - 请告知我该怎么做? enter image description her
我在 .NET 中遇到了一个问题,我的数组受到我拥有的 RAM 数量的限制,并且我需要可以容纳至少 40 GB 字节的数组。我正在考虑使用硬盘驱动器作为虚拟数组的想法不在乎它是否慢。 我正在研究这个想
我尝试调整 Linux VM 上的操作系统磁盘大小,该 VM 通常由 azure 自动创建。我无法创建自定义操作系统磁盘 - 请告知我该怎么做? enter image description her
我的目标是看看当使用比物理 GPU 内存所能容纳的更多纹理数据时会发生什么。我的第一次尝试是加载多达 40 个 DDS 纹理,导致内存占用比 GPU 内存高得多。但是,我的场景在 9500 GT 上仍
Windows 上的 JDK 最多需要 2 GB 左右的 RAM。即使我们为 JDK 分配更多 RAM;它不接受它。如果我需要在 Windows 上运行需要 8 GB RAM 的进程;我怎样才能实现它
我有一个程序需要分配2个15亿长度的整数数组。这是一个编码挑战( https://projecteuler.net/problem=282 ),并且没有办法使用如此大的数组(如果有,请不要告诉我;我应
假设我有一个 32 位内核。 4 Gb RAM,10 Gb 交换分区。 我有一个在无限循环中有 malloc 的进程。因此,最终系统的 OOM 将终止该进程。这里有两个论点。 参数 1:因为它是 32
我有一个可以大于 4GB 的文件。我正在使用 linux split 命令按行拆分它(这是要求)。但是拆分原始文件后,我希望拆分文件的大小始终小于 2GB。原始文件大小可能在 3-5 GB 之间。我想
我有一台带有 32GB RAM 的 Mac 服务器(雪豹)。当我尝试在 Perl (v 5.10.0) 中分配超过 1.1GB 的 RAM 时,出现内存不足错误。这是我使用的脚本: #!/usr/bi
我们正在尝试运行.NET 4 Web应用程序(在8 GB,8核心Windows 2008 R2 64位Webedition服务器上),该应用程序使用Spire.doc创建Word mailmerge文
我是一名优秀的程序员,十分优秀!