java - 在Java中使用byte[]数组将.gz文件分割成指定的文件大小-6ren

java - 在Java中使用byte[]数组将.gz文件分割成指定的文件大小

转载作者：行者123 更新时间：2023-12-03 03:22:44

27

4

我编写了一段代码，使用 byte[] 数组将 .gz 文件拆分为用户指定的部分。但 for 循环不会读取/写入小于数组大小的父文件的最后部分。你能帮我解决这个问题吗？

package com.bitsighttech.collection.packaging;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.DataInputStream;
import java.io.DataOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.log4j.Logger;

public class FileSplitterBytewise
{
private static Logger logger = Logger.getLogger(FileSplitterBytewise.class);
private static final long KB = 1024;
private static final long MB = KB * KB;

private FileInputStream fis;
private FileOutputStream fos;   
private DataInputStream dis;
private DataOutputStream dos;

public boolean split(File inputFile, String splitSize)  
{  

    int expectedNoOfFiles =0;       

    try  
    {  
        double parentFileSizeInB = inputFile.length();

        Pattern p = Pattern.compile("(\\d+)\\s([MmGgKk][Bb])");
        Matcher m = p.matcher(splitSize);
        m.matches();

        String FileSizeString = m.group(1);
        String unit = m.group(2);
        double FileSizeInMB = 0;

        try {
            if (unit.toLowerCase().equals("kb"))
                FileSizeInMB = Double.parseDouble(FileSizeString) / KB;         
            else if (unit.toLowerCase().equals("mb"))
                FileSizeInMB = Double.parseDouble(FileSizeString);          
            else if (unit.toLowerCase().equals("gb"))
                FileSizeInMB = Double.parseDouble(FileSizeString) * KB;         
        } catch (NumberFormatException e) {
            logger.error("invalid number [" + FileSizeInMB  + "] for expected file size");
        }

        double fileSize = FileSizeInMB * MB;
        int fileSizeInByte = (int) Math.ceil(fileSize);
        double noOFFiles = parentFileSizeInB/fileSizeInByte;            
        expectedNoOfFiles =  (int) Math.ceil(noOFFiles);                    
        int splinterCount = 1;
        fis = new FileInputStream(inputFile);
        dis = new DataInputStream(new BufferedInputStream(fis));
        fos = new FileOutputStream("F:\\ff\\" + "_part_" + splinterCount + "_of_" + expectedNoOfFiles);
        dos = new DataOutputStream(new BufferedOutputStream(fos));  

        byte[] data = new byte[(int) fileSizeInByte];

        while ( splinterCount <= expectedNoOfFiles ) {                  

            int i;          
            for(i = 0; i<data.length-1; i++)
            {
                data[i] = s.readByte();             
            }               
            dos.write(data);
            splinterCount ++; 
            }
    }       
    catch(Exception e)  
    {  
        logger.error("Unable to split the file " + inputFile.getName() + " in to " + expectedNoOfFiles);
        return false;
    }  


    logger.debug("Successfully split the file [" + inputFile.getName() + "] in to " + expectedNoOfFiles + " files");
    return true;
}    

public static void main(String args[]) 
{
    String FilePath1 = "F:\\az.gz";     
    File  file= new File(FilePath1);
    FileSplitterBytewise fileSplitter = new FileSplitterBytewise();
    String splitlen = "1 MB";

    fileSplitter.split(file, splitlen);

}
  }

最佳答案

我建议制定更多方法。 split() 中有一段复杂的字符串处理代码；最好创建一种方法，将人类友好的字符串作为输入并返回您要查找的数字。 (这也将使您更容易测试例程的这一部分；您现在无法测试它。)

一旦它被拆分并且您正在编写测试用例，您可能会发现如果字符串不包含 kb, mb 或 gb 非常令人困惑 - 它会将错误归咎于数字 0，而不是指出该字符串没有预期的单位。

使用 int 来存储文件大小意味着您的程序永远不会处理文件 larger than two gigabytes 。您应该坚持使用long 或double。 (对于实际上仅限于整数值的东西，double 感觉是错误的，但我无法很快想到为什么它会失败。)

byte[] data = new byte[(int) fileSizeInByte];

像这样分配几GB会破坏你的性能——这可能是一个巨大的内存分配(并且可能被认为处于对手的控制之下；根据你的安全模型，这可能会或者可能没什么大不了的)。不要尝试将整个文件作为一个整体进行处理。

您似乎一次读取和写入一个字节的文件。这保证了性能非常慢。今天早些时候对另一个问题进行了一些性能测试，我发现我的机器使用 131kb block (从热缓存)读取的速度比使用 2 字节 block 快 2000 倍。一字节 block 会更糟。对于如此小的尺寸，冷缓存的情况会明显更糟。

        fos = new FileOutputStream("F:\\ff\\" + "_part_" + splinterCount + "_of_" + expectedNoOfFiles);

您似乎只打开过一个文件输出流。您的帖子可能应该说“只有第一个作品”，因为看起来您还没有在创建三个或更多部分的文件上尝试过它。

catch(Exception e)

此时，您已经能够发现程序中的错误；你选择完全忽略它们。当然，您记录了错误消息，但您无法使用记录的数据实际调试程序。您应该至少记录异常类型、消息，甚至可能是完整的堆栈跟踪。这种数据组合在尝试解决问题时非常有用，尤其是在您忘记其工作细节的几个月内。

关于java - 在Java中使用byte[]数组将.gz文件分割成指定的文件大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9698965/

27

4

0

文章推荐： r - R 中的 For 循环是邪恶的吗？

文章推荐： ansible - 将变量传递给 ansible 角色

文章推荐： javascript - 带图像的 Angular 选择

文章推荐： wpf - 数学运算符可以应用于绑定(bind)路径吗？

java正则表达式字符串被 "not\"分割
实际上我只需要用JAVA编写一个简单的程序来将MySQL INSERTS行转换为CSV文件(每个mysql表等于一个CSV文件) 在JAVA中使用正则表达式是最好的解决方案吗？我的主要问题是如何正确
Java读取txt文件到hashmap，按 ":"分割
我有一个 txt 文件，其格式为: Key:value Key:value Key:value ... 我想将所有键及其值放入我创建的 hashMap 中。如何让 FileReader(file) 或
使用正则表达式进行 Java 分割
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度的了解。包括尝试的解决方案、为什么它们不起作用以及预期结果
mysql - 分割.sql备份文件
我每周都会从我的主机下载数据库的备份。它生成一个 .sql 文件，当前大小约为 800mb。此 .sql 文件包含 44 个表。有什么方法可以通过某些软件将 .sql 文件与所有表分开，以便单独导出
iphone - 分割 CGImage
在 iOS 4.0 及更高版本中，有没有一种方法可以在不将整个图像加载到内存的情况下对 CGImage 进行分割？我试图做的是*以编程方式*分割图像，以便在使用大图像的 CATiledLayer 应用
javascript - 用这个字符: "\"分割
我的 .split() 函数有问题，我有以下字符串: var imageUrl = "Images\Products\randomImage.jpg"; 我想用字符“\”分割，但是，这种情况发生了:
javascript 正则表达式分割
是否可以使用正则表达式将字符串拆分两次？例如，假设我有字符串: example=email@address.com|fname|lname 如何拆分结果为: email@address.com,fna
Java 数组上的多线程(分割)
我正在寻找一种在线程系统(主从)中使用数组的解决方案，它允许我通过用户输入在多个线程上划分矩阵的计算，并将其通过 1 个主线程引导到多个从属线程，这些从属线程计算矩阵的 1 个字段。我尝试运用我的知
opencv - 分割 - 分离接触对象
我建立了一个系统来分割包含手写符号的二值图像并对它们进行分类(专门用于音乐)。我知道有商业应用程序可以执行此操作，但这是我尝试将其作为一个项目从头开始。为了简单起见，假设我的整个图像中有两个元素:
image - 物体检测+分割
我正在尝试找到一种可接受的复杂性的有效方法检测图像中的对象，以便将其与周围环境隔离将该对象分割成它的子部分并标记它们，这样我就可以随意获取它们我进入图像处理世界已经 3 周了，我已经阅读了很多算
algorithm - 3D 分割
我有一组3D 空间中的点。下图是一个示例: 我想把这些点变成一个面。我只知道点的 X、Y 和 Z 值。例如，查看下图，它显示了从 3D 空间中的点生成的人脸网格。我在谷歌上搜索了很多，但我找到的是一
java - 在字符串java中用字符*分割
我有一个字符串 String placeStr="place1*place2*place3"我想获取包含 place1、place2、place3 的数组，如下所示: String[] places=
Python URL 分割
我在 Python 中有一个类似于 google.com 的字符串，我想将其分成两部分:google 和 .com。问题是我有一个 URL，例如 subdomain.google.com，我想将其拆分
Python中使用pypdf2合并、分割、加密pdf文件的代码详解
朋友需要对一个pdf文件进行分割，在网上查了查发现这个pypdf2可以完成这些操作，所以就研究了下这个库，并做一些记录。首先pypdf2是python3版本的，在之前的2版本有一个对应pypdf库。
assembly - 8086 无操作系统编程；分割
伙计们，这是一个难以解决的问题，因为它涉及很多硬件细节，所以我想把它放到 EE.SE，但它的主要重点是编程，所以我决定坚持在这里。我最近怀旧(以及渴望回到 CPU 内在函数)，所以我决定自制一个 8
list - 分割 Haskell 列表
给定 haskell 中的排序列表，我如何获得分段列表，其中连续数字位于同一列表中。例如，如果我有一个排序列表 [1,2,3,4,7,8,10,12,13,15] 结果将是 [[1,2,3 ,4],[
cocoa :分割 View 的奇怪紫色约束
如果我添加三个分割 View ，如下图所示，第三个分割 View (称为 splitView-3)将自动为该分割 View 中的自定义 View 生成约束，例如 customview1 的 Heigh
javascript - 如果我取消选中该复选框以及如果我选中按 (", "分割，如何打印空白)
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 6 年前。 Improve th
java - 提供具有相同文件分割的 map 分割
如何为馈送给映射器的文件的每一行提供相同文件的拆分？基本上我想做的是 for each line in file-split { for each line in file{
hadoop - 带有Snappy压缩的ORC文件是否可在 strip 分割？
带有Snappy压缩功能的ORC文件是否可拆分成条形？据我所知，Snappy Compressed File是不可拆分的。但我在博客中读到，快速压缩的文件可以在 strip 上拆分。真的吗？最

首页

博学

6Ren·AI

商城

java - 在Java中使用byte[]数组将.gz文件分割成指定的文件大小