gpt4 book ai didi

go - 为什么在逐行读取文件时缓冲区大小不总是 4096 的整数倍?

转载 作者:IT王子 更新时间:2023-10-29 00:45:33 26 4
gpt4 key购买 nike

示例代码是,

// test.go
package main

import (
"bufio"
"os"
)

func main() {
if len(os.Args) != 2 {
println("Usage:", os.Args[0], "")
os.Exit(1)
}
fileName := os.Args[1]
fp, err := os.Open(fileName)
if err != nil {
println(err.Error())
os.Exit(2)
}
defer fp.Close()
r := bufio.NewScanner(fp)
var lines []string
for r.Scan() {
lines = append(lines, r.Text())
}
}

c:\>去构建test.go

c:\>test.exe 测试.txt

然后我在执行的时候用process monitor监控了它的进程,部分输出是:

test.exe  ReadFile  SUCCESS      Offset: 4,692,375, Length: 8,056
test.exe ReadFile SUCCESS Offset: 4,700,431, Length: 7,198
test.exe ReadFile SUCCESS Offset: 4,707,629, Length: 8,134
test.exe ReadFile SUCCESS Offset: 4,715,763, Length: 7,361
test.exe ReadFile SUCCESS Offset: 4,723,124, Length: 8,056
test.exe ReadFile SUCCESS Offset: 4,731,180, Length: 4,322
test.exe ReadFile END OF FILE Offset: 4,735,502, Length: 8,192

等效的java代码是,

//Test.java
import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.InputStreamReader;

public class Test{
public static void main(String[] args) {
try
{
FileInputStream in = new FileInputStream("test.txt");
BufferedReader br = new BufferedReader(new InputStreamReader(in));
String strLine;
while((strLine = br.readLine())!= null)
{
;
}
}catch(Exception e){
System.out.println(e);
}
}
}

c:\>javac 测试.java

c:\>java 测试

那么部分监控输出为:

java.exe  ReadFile  SUCCESS       Offset: 4,694,016, Length: 8,192
java.exe ReadFile SUCCESS Offset: 4,702,208, Length: 8,192
java.exe ReadFile SUCCESS Offset: 4,710,400, Length: 8,192
java.exe ReadFile SUCCESS Offset: 4,718,592, Length: 8,192
java.exe ReadFile SUCCESS Offset: 4,726,784, Length: 8,192
java.exe ReadFile SUCCESS Offset: 4,734,976, Length: 526
java.exe ReadFile END OF FILE Offset: 4,735,502, Length: 8,192

如你所见,java中的缓冲区大小为8192,每次读取8192字节。为什么每次读取文件时Go中的长度都在变化?

我试过了bufio.ReadString('\n') , bufio.ReadBytes('\n')他们都有同样的问题。

[更新]我已经在 C 中测试了示例,

//test.c
#define _GNU_SOURCE
#include <stdio.h>
#include <stdlib.h>

int main(void)
{
FILE * fp;
char * line = NULL;
size_t len = 0;
ssize_t read;
fp = fopen("test.txt", "r");
if (fp == NULL)
exit(EXIT_FAILURE);
while ((read = getline(&line, &len, fp)) != -1) {
printf("Retrieved line of length %zu :\n", read);
}
if (line)
free(line);
return EXIT_SUCCESS;
}

输出与 java 代码相似(缓冲区大小在我的系统上为 65536)。那么为什么 Go 在这里如此不同?

最佳答案

读取 bufio.Scansource显示虽然缓冲区大小为 4096,但它的读取取决于其中剩余多少“空白”空间,特别是这部分:

n, err := s.r.Read(s.buf[s.end:len(s.buf)])

现在在性能方面,我几乎肯定您使用的任何文件系统都足够智能以预读和缓存数据,因此缓冲区大小应该不会产生太大的差异。

关于go - 为什么在逐行读取文件时缓冲区大小不总是 4096 的整数倍?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24597157/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com