PowerShell : Divide Files by Line in Faster Way-6ren

PowerShell : Divide Files by Line in Faster Way

转载作者：行者123 更新时间：2023-12-04 16:37:12

25

4

我们正在考虑分割超过 25GB 的大文件并导入到 Redshift DWH 中。到目前为止，我们可以简单地将文件分成1000000行，但是分成111个文件花了将近两个小时。

$i=1; cat .\TRGET_FILE.csv -ReadCount 1000000 | % { $_ > TRGET_FILE_$i.csv;$i++ }

我们还想在每个文件中将单词“\”转义为“\\”，以免阻止 Redshift 数据加载。但是这样既费时又费资源。

如果您知道更好的解决方案，能否请您告诉我？谢谢。

最佳答案

cat 是 Get-Content 的别名，它读取文件的速度非常慢。我还怀疑使用重定向可能也不是编写目标文件的最佳方式。

让我们尝试使用一些 .Net 类和方法:

$bigfile = '.\TRGET_FILE.csv'
$outfile = '.\TRGET_FILE{0:d5}.csv'
$linecount = 1000000
$i = 0
$outstream = $null

foreach ($line in [System.IO.File]::ReadLines($bigfile)) {
    if (($i % $linecount) -eq 0) {
        if ($null -ne $outstream) { $outstream.Close() }
        $outstream = [System.IO.StreamWriter]::new(($outfile -f ($i/$linecount)))
    }

    $outstream.WriteLine($line.Replace('\', '\\'))

    $i++
}
$outstream.Close()

[System.IO.File]::ReadLines 方法非常快，我们可以使用 foreach 循环快速迭代它，而无需从中读取每一行首先是文件。

由于循环的每次迭代处理一行，我们将把它写到目标文件中。但是我们不想使用像 Out-File -Append 这样的东西，因为它每次都会重新打开和关闭文件。

因此，当我们计算出达到行数时(或在第一次迭代时)，我们可以打开一个新文件作为 [System.IO.File]::StreamWriter，这样我们就已经打开它了，并且可以写出每一行。

当我们编写该行时，我们还将单个反斜杠 \ 字符替换为两个反斜杠。

当我们达到所需的行数时，我们首先检查 $outstream 是否为 $null(它将是 $null第一次)，如果它不为空，我们将关闭流(以关闭输出文件)，然后使用新文件名创建一个新流。

输出文件名通过字符串模板模板化为 5 位数字。{0:d5} -- 0表示模板中的第一项，d代表一个数字，5 > 告诉它确保数字至少为 5 位数字，因此它将用零填充。这将有助于文件排序。

最后，在循环的末尾，循环将在达到所需的行数(文件的尾部)之前结束，我们关闭最后一个流。

頠弣っテね

关于PowerShell : Divide Files by Line in Faster Way，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68354389/

25

4

0

文章推荐：在 mutate 中减少分组列上的函数

文章推荐： postman - 通过 Postman 调用 Etsy OAuth2.0

文章推荐： android - 在 Text Jetpack compose 上实现长按

算法复杂度: Strassen's algorithm is polynomially faster than n-cubed regular matrix multiplication. "polynomially faster"是什么意思？
Strassen 的算法在多项式上比 n 次方正则矩阵乘法快。 “多项式更快”是什么意思？最佳答案您的问题与“复杂性”的理论概念有关。例如，据说正则矩阵乘法的复杂度为 O(n^3)。这意味着随着维
mysql加入: what is faster?
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
php - 连接字符串或使用多个回显参数 : which is faster?
假设我有两个 PHP 语句: echo "foo"."bar" echo "foo", "bar" 注意连接字符串的不同方式 - 使用 . 或 ,. 我意识到这两种方法之间的实际区别，使用 , 为关键
python - 在Python中更改像素颜色: How to do it faster?
我有一个 RGB 图像，并尝试将 RGB 上的每个像素设置为黑色，其中相应的 alpha 像素也为黑色。所以基本上我试图将 Alpha“烘焙”到我的 RGB 中。我已经尝试使用 PIL 像素访问对象、
c# - 哈希表与字典 : Faster?
可能这个问题以前已经以许多不同的方式回答过很多次了。然而，我一直在寻找更具体的东西。通用词典，我相信比哈希表更快，因为它们不需要经历装箱/拆箱的过程。但是，哈希表不是经过排序的，这意味着搜索可以更快
mysql - ON子句的两个位置: Which is faster?
以这种方式加入给定的选择会更快吗 select ... join table1 on condition1 join table2 on condition2 然后这个 select ... join
c++ - 可怕的元函数 : why are they faster?
我观看了演讲并阅读了博客文章，但我仍然不确定...这是为什么 template struct conditional { template using f = T; }; template<> str
c - 具有离散建模的图形 : faster?
我想知道用离散数据集编码的二维图形。对我来说，似乎由于计算机以离散集合运行，所以对图形做同样的事情也许更有意义。例如，与其让一条线由两个 vector 表示，让计算机整理出像素配置，然后必须用代数方
c++ - 写入单个大数据文件或多个较小文件: Which is faster?
我正在开发一个将大量数据写入磁盘的 C++ 程序。以下函数对数据进行 gzip 压缩并将其写入文件。压缩数据约为100GB。压缩并写出数据的函数如下: void constructSNVFastqD
MySQL连接比较: what's faster,什么是正确的？
我最近遇到了这段SQL: SELECT members.id FROM members, members_to_groups WHERE members.id = members_to_groups.
c - 线程矩阵乘法 : Why is it not faster?
所以我一直在研究 pthreads，特别是尝试计算两个矩阵的乘积。我的代码非常困惑，因为它本应是我自己的一个快速有趣的小项目，但我使用的线程理论非常类似于: #include #include #
c++ - 特殊情况: Is & faster than %?
我看到了被选中的answer对此post . 我很惊讶 (x & 255) == (x % 256) 如果 x 是无符号整数，我想知道总是替换 % 是否有意义& in x % n for n = 2^
从零在win10上测试whisper、faster-whisper、whisperx在CPU和GPU的各自表现情况
Anaconda是什么？ Anaconda 是一个开源的 Python 发行版本，主要面向数据科学、机器学习和数据分析等领域。它不仅包含了 Python 解释器本身，更重要的是集成了大量的用于科学计
ssh - 如何通过X11转发运行py-faster-rcnn
我正在使用Ubuntu 14.04操作系统的g2.8xlarge EC-2实例上启用cuDNN的情况下运行py-faster-rcnn。一切都已编译，似乎工作正常。我通过以下方式登录到远程实例: ss
java - 处理输入和输出时， "faster"会是什么？
要求用户输入的简单程序可以使用 datainputstream 或扫描仪。哪个会更快？ Datainputstream 是二进制的，所以它可能更快？有意见吗？我只是很好奇，因为我正在构建一个程序，我希
caffe - Faster-RCNN 评估
我正在 INRIA Person 数据集上训练 Faster-RCNN(VGG-16 架构)。我接受了 180,000 个训练步骤的训练。但是当我评估网络时，它会用相同的图像给出不同的结果。以下是图片
python - 如何让这个运行 'faster'？或者这是正确的术语吗？
我是 python 新手，我为 Hackerrank 问题提交了此代码 Arrays and Simple Queries ，但对于大量测试用例，程序“由于超时而终止”。我怎样才能提高效率？我已将主
c - 优化: Faster compilation
如果将程序分成头文件和源文件，如果提供给智能编译管理器，可能会受益于更快的编译，这就是我正在研究的内容。理论工作的意愿:为每个源文件创建一个线程并一次将每个源文件编译成目标文件。然后将这些目标文件链
MySQL 查询 : Which is Faster query
方法一: SELECT * FROM `wordpressusers` WHERE user_login='user10000001' PhpMyadmin 的结果: 方法2: SELECT user
Java Faster Equals 方法用于浮点类型
据我所知set.add使用FastFloat的equals方法对我来说重要的只是点后的前两位数(!!!)，所以在 equals 方法中我使用 Math.abs() >= 0.001 来使 equal

首页

博学

6Ren·AI

商城

PowerShell : Divide Files by Line in Faster Way