Clock() 没有按预期工作；避免IO-6ren

Clock() 没有按预期工作；避免IO

转载作者：太空宇宙更新时间：2023-11-04 08:38:26

25

4

我正在编写一个程序，一次读取 1MB 的大文件 (44GB - 63GB)，然后我对这 1MB 进行哈希处理。但是，我想看看执行这些哈希需要多长时间

我对一次读入一个 1MB 的文件需要多长时间不感兴趣，只关心哈希性能时间。目前我正在使用一个非常基本/通用的哈希函数

关于时钟开始和结束时间的任何想法？

这是我目前所拥有的:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <time.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#define HASH_PRIME 65551// prime number for hash table

// generic hash function
static unsigned short hash_Function(char *hash_1MB)
{
    unsigned short hash;
    int i = 0;
    while(hash_1MB[i]!='\0')//each char of the file name
    {
        hash += (unsigned short)hash_1MB[i];//add it to hash
        i++;
    }
    return hash%HASH_PRIME;//mod hash by table size
}

int main()
{
    struct stat fileSize;
    char *buffer;

    FILE *fp;
    clock_t start, stop;
    double duration;
    char fname[40];

    printf("Enter name of file:");
    fgets(fname, 40, stdin);
    while (fname[strlen(fname) - 1] == '\n')
    {
        fname[strlen(fname) - 1] = '\0';
    }

    // handle file, open file, and read in binary form
    fp = fopen(fname, "rb");
    if (fp == NULL)
    {
        printf("Cannot open %s for reading\n", fname);
        exit(1);
    }

    stat(fname, &fileSize);
    size_t size = fileSize.st_size;
    printf("Size of file: %zd\n", size);

    buffer = (char*) malloc(sizeof(*buffer)*1000*1000);

    unsigned long long counter = 0;
    // read in 1MB at a time // & start timing how long it takes to perform the hash
    start = clock();
    clock_t total = 0;
    while (fread(buffer, sizeof(*buffer), (1<<20), fp) == (1<<20)) 
    {
    start = clock();
    hash_Function(buffer);  
    counter++;
    total += (clock() - start);
    }

    //free(buffer);

     fclose (fp); // close files

     duration = (double)((stop - start)/CLOCKS_PER_SEC);

     printf("Counter: %llu\n", counter); // how many MB were hashed
     printf("Hashing took %.2f seconds\n", (float)duration);
     return 0;
}

我的结果也没有像预期的那样出来，我分析的第一个文件有 1,961,893,364 字节大，所以应该至少有 1,961MB 被散列

但是当我打印出我的计数器来检查正确数量的 MB 被散列时，我只得到 1871

这是我的结果:

$ gcc one_mb.c
$ ./a.out
Enter name of file:v.10.nc
Size of file: 1961893364
Counter: 1871
Hashing took 0.00 seconds

提前感谢您的帮助!

/////结果为 (1000*1000)

Enter name of file:v.13.nc
Size of file: 15695146912
Counter: 15695
Hashing took 18446744.00 seconds

//////1 << 20

结果

Enter name of file:v.13.nc
Size of file: 15695146912
Counter: 14968
Hashing took 18446744.00 seconds // why this long?!?!? It didn't take 30mins

/////用for循环替换while循环

// generic hash function
static unsigned short hash_Function(char *hash_1MB)
{
    unsigned short hash;
    int i;

    for(i = 0; i < (1 << 20); i++)
    {
        hash += (unsigned short)hash_1MB[i];//add it to hash
    }

    return hash%HASH_PRIME;//mod hash by table size
}

最佳答案

您需要在 while 循环中获取时间戳并保留它们的总和以避免对文件 IO 计时。

start = clock();
clock_t total = 0;
while (fread(buffer, 1<<20, (1<<20), fp) == (1<<20)) 
{
    start = clock();
    hash_Function(buffer);  
    counter++;
    total += (clock() - start);
}

请注意，我将 1000*1000 更改为 1<<20，因此它实际上是一个 MB 的大小。

还要确保至少为 1 MB 正确分配缓冲区。

buffer = (char*) malloc(1<<20);

以下计算结果为(字符大小)* 1000 * 1000 = 1000 * 1000，这是行不通的。

buffer = (char*) malloc(sizeof(*buffer)*1000*1000);

此外，当您执行 sizeof(*buffer) 时，这也会返回 char 的大小(1 字节)。查看更新后的恐惧。

关于Clock() 没有按预期工作；避免IO，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25064111/

25

4

0

文章推荐： C:函数调用后的指针

文章推荐： python - 如何使用继承在python中定义父对象？

文章推荐： jquery - 我可以有两个处理程序的 url 吗？

perl - 避免 Mojolicious 异步行为？避免 "AnyEvent::CondVar: recursive blocking wait attempted"
我们已经有一个使用 AnyEvent 的库。它在内部使用 AnyEvent，并最终返回一个值(同步 - 不使用回调)。有什么方法可以将这个库与 Mojolicious 一起使用吗？它的作用如下: #
JAXB 避免 JAXBElement
我想从 XSD 文件生成带有 JAXB 的 Java 类。问题是，我总是得到一些像这样的类(删除了命名空间): public static class Action { @X
javascript - 避免/禁用自动跳转到输入字段
我有一个关于 html 输入标签或 primefaces p:input 的问题。为什么光标总是自动跳转到输入字段。我的页面高度很高，因此您需要向下滚动。输入字段位于页面末尾，光标自动跳转(加载)到页
oop - 避免 if 语句
我今天在考虑面向对象设计，我想知道是否应该避免 if 语句。我的想法是，在任何需要 if 语句的情况下，您都可以简单地创建两个实现相同方法的对象。这两个方法实现只是原始 if 语句的两个可能的分支。
java - 避免 NullPointerException
String graphNameUsed = graphName.getName(); if (graphType.equals("All") || graphType.equals(
mysql - 避免/删除表中的重复行
我有一张友谊 table CREATE TABLE IF NOT EXISTS `friendList` ( `id` int(10) NOT NULL, `id_friend` int(10
c - 避免 if in 循环
上下文 Debian 64。Core 2 二人组。摆弄循环。我使用了同一循环的不同变体，但我希望尽可能避免条件分支。但是，即使我认为它也很难被击败。我考虑过 SSE 或位移位，但它仍然需要跳转(
java - 避免 OutOfMemoryError
我最近在 Java 中创建了一个方法来获取字符串的排列，但是当字符串太长时它会抛出这个错误:java.lang.OutOfMemoryError: Java heap space我确信该方法是有效的，
c++ - 避免 while (!is_eof)
我正在使用 (C++) 库，其中需要使用流初始化对象。库提供的示例代码使用此代码: // Declare the input stream HfstInputStream *in = NULL; tr
MySQL 避免 WHERE/AND 中的子查询重复
我有一个 SQL 查询，我在 WHERE 子句中使用子查询。然后我需要再次使用相同的子查询将其与不同的列进行比较。我假设没有办法在子查询之外访问“emp_education_list li”？我猜
android - 避免 NetworkOnMainThreadException
我了解到在 GUI 线程上不允许进行网络操作。对我来说还可以。但是为什么在 Dialog 按钮点击回调上使用这段代码仍然会产生 NetworkOnMainThreadException ？ new T
C++ 避免 if & 硬编码字符串
有没有办法避免在函数重定向中使用 if 和硬编码字符串，想法是接收一个字符串并调用适当的函数，可能使用模板/元编程.. #include #include void account() {
c - 避免 TIME_WAIT
我正在尝试避免客户端出现 TIME_WAIT。我连接然后设置 O_NONBLOCK 和 SO_REUSEADDR。我调用 read 直到它返回 0。当 read 返回 0 时，errno 也为 0。我
c++ - 避免/检测对导出文件的操纵
我正在开发 C++ Qt 应用程序。为了在应用程序或其连接的设备出现故障时帮助用户，程序导出所有内部设置并将它们存储在一个普通文件(目前为 csv)中。然后将此文件发送到公司(例如通过邮件)。为避免
java - 避免 instanceof
我有一组具有公共(public)父类(super class)的 POJO。这些存储在 superclass 类型的二维数组中。现在，我想从数组中获取一个对象并使用子类的方法。这意味着我必须将它们转
java - 避免 "for"语句中的空指针异常
在我的代码中，当 List 为 null 时，我通常使用这种方法来避免 for 语句中的 NullPointerException: if (myList != null && myList.size
c - 避免 TIME_WAIT
我正在尝试避免客户端出现 TIME_WAIT。我连接然后设置 O_NONBLOCK 和 SO_REUSEADDR。我调用 read 直到它返回 0。当 read 返回 0 时，errno 也为 0。我
c - 避免/减轻每次函数调用后返回值检查的痛苦的方法？
在不支持异常的语言和/或库中，许多/几乎所有函数都会返回一个值，指示其操作成功或失败 - 最著名的例子可能是 UN*X 系统调用，例如 open( ) 或 chdir()，或一些 libc 函数。无
R 按值选择，避免 NA
我尝试按值提取行。 col1 df$col1[col1 == "A"] [1] "A" NA 当然我只想要“A”。如何避免 R 选择 NA 值？顺便说一句，我认为这种行为非常危险，因为很多人都会陷入
R 避免 rowwise() 并寻找更快的替代方案
我想将两个向量合并到一个数据集中，并将其与函数 mutate 集成为 5 个新列到现有数据集中。这是我的示例代码: vector1% rowwise()%>% mutate(vector2|>

首页

博学

6Ren·AI

商城

Clock() 没有按预期工作；避免IO