gpt4 book ai didi

java - 使用 Spark java 从 Alluxio 读取多个文件很慢

转载 作者:行者123 更新时间:2023-12-02 03:25:32 24 4
gpt4 key购买 nike

我已经使用 Spark 在本地安装了 Alluxio,并且在 Alluxio 内存中插入了 1000 个文件。
然而读取文件的速度非常慢。从 Alluxio 内存读取文件的时间与从磁盘读取文件的时间相同。我不明白为什么。

File Name   Size    Block Size  In-Memory   Persistence State   Pin Creation Time   Modification Time
file1 54.73KB 512.00MB 100% NOT_PERSISTED NO 08-16-2016 12:52:31:278 08-16-2016 12:52:31:372
file2 54.73KB 512.00MB 100% NOT_PERSISTED NO 08-16-2016 12:52:31:377 08-16-2016 12:52:31:384
file3 54.72KB 512.00MB 100% NOT_PERSISTED NO 08-16-2016 12:52:31:386 08-16-2016 12:52:31:393
file4 54.71KB 512.00MB 100% NOT_PERSISTED NO 08-16-2016 12:52:31:394 08-16-2016 12:52:31:400
file5 54.72KB 512.00MB 100% NOT_PERSISTED NO 08-16-2016 12:52:31:401 08-16-2016 12:52:31:407
...

我使用文件 API 读取数据:

FileSystem fs = FileSystem.Factory.get();
AlluxioURI path = new AlluxioURI(/partition0);
List<URIStatus> status = fs.listStatus(path);
for (int i=0; i<status.size(); i++)
{
path = new AlluxioURI(status.get(i).getPath());
if(fs.exists(path)==true)
{
FileInStream in = fs.openFile(path);
String file = "";

InputStreamReader ipsr = new InputStreamReader(in);

BufferedReader br=new BufferedReader(ipsr);
String line;
line=br.readLine();
while (line != null){
//System.out.println(line);

file = file + line;
line=br.readLine();
}

byte[] cfv = file.getBytes();
br.close();
// Close file relinquishing the lock
in.close();
}
}

我现在不使用Spark,因为读取1000个文件的分区的测试非常慢...(我希望以后使用Spark按分区读取文件)。

为什么使用这个方法/库读取时间这么慢?

最佳答案

在您的示例中,有一些事情看起来有点不对劲。

首先,您在文件上显示的信息表明这些文件非常小,每个文件大约 50 kB,但您已将 Alluxio 配置为使用 512 MB block 。这可能意味着您传输的数据远多于实际需要的数据。因此需要考虑的一件事是,如果您打算主要拥有小文件,那么最好配置更小的 block 大小。

其次,您在测试用例中实际读取文件的方式效率非常低。您将作为字符串逐行读取,使用字符串连接来构建文件,然后将其转换回字节。因此,您将从内存中的字节转到字符串,然后再返回字节。另外,通过使用字符串连接,您可以强制将迄今为止读取的整个文件复制到您读取的内存技术附加行中。

通常,您可以将文件逐行读取到 StringBuilder/写入另一个 Writer,或者将文件作为字节读取到 byte[ ]/写入另一个 OutputStream 例如ByteArrayOutputStream 如果您想最终获得一个 byte[] 并且事先不知道大小。

第三个考虑因素是代码在集群中运行的位置。即使文件位于内存中,它们也可能并不位于集群中每个节点的内存中。如果您从尚未在内存中的节点读取文件,则必须通过网络读取它们,此时性能将会降低。

最后要考虑的是操作系统文件缓存。如果您生成了测试文件,然后立即运行测试,那么这些文件可能会被操作系统缓存在内存中。此时,您将获得与 Alluxio 一样好的性能,甚至更好,因为缓存是在操作系统级别的。如果您确实想进行有意义的比较,那么您需要确保在运行任何基于文件的测试之前刷新操作系统文件缓存。

关于java - 使用 Spark java 从 Alluxio 读取多个文件很慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38974674/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com