gpt4 book ai didi

java - 在java中读/写一个大文件

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:52:18 26 4
gpt4 key购买 nike

我有一个二进制文件,格式如下:

[N bytes identifier & record length] [n1 bytes data] 
[N bytes identifier & record length] [n2 bytes data]
[N bytes identifier & record length] [n3 bytes data]

如你所见,我有不同长度的记录。在每条记录中,我固定了 N 个字节,其中包含 ID 和记录中数据的长度

这个文件很大,可以包含300万条记录。

我想用应用程序打开这个文件,让用户浏览和编辑记录。(插入/更新/删除记录)

我最初的计划是从原始文件创建文件和索引文件,并为每条记录保留下一条和上一条记录地址,以便轻松向前和向后导航。 (某种链表,但在文件中而不是在内存中)

  • 有库(java库)可以帮我实现这个需求吗?

  • 有什么您认为有用的建议或经验?

---------------- 编辑---------------------------- ------------------

感谢指导和建议,

更多信息:

原始文件及其格式不受我控制(它是第三方文件),我无法更改文件格式。但我必须阅读它,让用户浏览记录并编辑其中的一些(插入新记录/更新现有记录/删除记录)并在最后将其保存回原始文件格式 .

你还推荐数据库而不是普通的索引文件吗?

---------------- 第二次编辑---------------------------- ------------------

更新模式下的记录大小是固定的。这意味着更新(编辑)的记录与原始记录的长度相同,除非用户删除该记录并创建另一个具有不同格式的记录。

非常感谢

最佳答案

说真的,你不应该为此使用二进制文件。您应该使用数据库。

尝试将其实现为常规文件的问题源于操作系统不允许您将额外字节插入现有文件的中间这一事实。因此,如果您需要插入一条记录(除末尾以外的任何地方)、更新一条记录(具有不同大小)或删除一条记录,您需要:

  • 重写其他记录(在插入/更新/删除点之后)以腾出或回收空间,或者
  • 在文件中实现某种可用空间管理。

所有这些都很复杂和/或昂贵。

幸运的是,有一类软件可以实现这种东西。它被称为数据库软件。有多种选择,从使用全面的 RDBMS 到 BerkeleyDB 文件等轻量级解决方案。


作为对您的第一次和第二次编辑的回应,数据库仍然会更简单。

但是,对于此用例,这里有一个替代方案可能比使用数据库表现得更好...无需进行复杂的空闲空间管理。

  1. 读取文件并构建一个内存索引,将 ID 映射到文件位置。

  2. 创建第二个文件来保存新的和更新的记录。

  3. 执行记录添加/更新/删除:

    1. 添加是通过将新记录写入第二个文件的末尾并为其添加索引条目来处理的。

    2. 通过将更新的记录写入第二个文件的末尾并更改现有索引条目以指向它来处理更新。

    3. 删除是通过删除记录键的索引条目来处理的。

  4. 压缩文件如下:

    1. 创建一个新文件。

    2. 按顺序读取旧文件中的每条记录,并检查记录键的索引。如果条目仍然指向记录的位置,则将记录复制到新文件。否则跳过它。

    3. 对第二个文件重复步骤 4.2。

  5. 如果我们成功完成了上述所有操作,请删除旧文件和第二个文件。

请注意,这依赖于能够将索引保存在内存中。如果这不可行,那么实现将更加复杂……并且更像数据库。

关于java - 在java中读/写一个大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5512587/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com