gpt4 book ai didi

performance - 斯卡拉 : Writing String Iterator to file in Efficient way

转载 作者:行者123 更新时间:2023-12-03 17:13:02 25 4
gpt4 key购买 nike

我有数千个文件 (50K),每个文件大约有 10K 行。我读取文件并进行一些处理,然后将这些行写回输出文件。虽然我的读取和处理速度更快,但将字符串迭代器转换回单个字符串并将其写入文件的最后一步需要很长时间(几乎一秒钟。我不会计算整个过程大约 50K 的文件数量)。我认为这是改进解析时间的瓶颈。

这是我的代码。

var processedLines = linesFromGzip(new File(fileName)).map(line => MyFunction(line))
var outFile = Resource.fromFile(outFileName)

outFile.write(processedLines.mkString("\n")) // severe overhead caused by this line-> processedLines.mkString("\n")

( 我在其他几个论坛/博客上读到 mkString 很多 better than other approaches. (例如)

有没有比 mkString("\n") 更好的选择?是否有一种完全不同的方法可以提高我处理文件的速度。 (请记住,我有 50K 个文件,每个文件接近 10K 行)。

最佳答案

好吧,您将重复该操作 2 次:一次遍历字符串和 mkString "\n",然后将这些行写入文件。相反,您可以一次性完成:

for(x <-processedLines){
outFile.write(x);
outFile.write("\n");
}

关于performance - 斯卡拉 : Writing String Iterator to file in Efficient way,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19804928/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com