- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在编写一个程序,一次读取 1MB 的大文件 (44GB - 63GB),然后我对这 1MB 进行哈希处理。但是,我想看看执行这些哈希需要多长时间
我对一次读入一个 1MB 的文件需要多长时间不感兴趣,只关心哈希性能时间。目前我正在使用一个非常基本/通用的哈希函数
关于时钟开始和结束时间的任何想法?
这是我目前所拥有的:
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <time.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#define HASH_PRIME 65551// prime number for hash table
// generic hash function
static unsigned short hash_Function(char *hash_1MB)
{
unsigned short hash;
int i = 0;
while(hash_1MB[i]!='\0')//each char of the file name
{
hash += (unsigned short)hash_1MB[i];//add it to hash
i++;
}
return hash%HASH_PRIME;//mod hash by table size
}
int main()
{
struct stat fileSize;
char *buffer;
FILE *fp;
clock_t start, stop;
double duration;
char fname[40];
printf("Enter name of file:");
fgets(fname, 40, stdin);
while (fname[strlen(fname) - 1] == '\n')
{
fname[strlen(fname) - 1] = '\0';
}
// handle file, open file, and read in binary form
fp = fopen(fname, "rb");
if (fp == NULL)
{
printf("Cannot open %s for reading\n", fname);
exit(1);
}
stat(fname, &fileSize);
size_t size = fileSize.st_size;
printf("Size of file: %zd\n", size);
buffer = (char*) malloc(sizeof(*buffer)*1000*1000);
unsigned long long counter = 0;
// read in 1MB at a time // & start timing how long it takes to perform the hash
start = clock();
clock_t total = 0;
while (fread(buffer, sizeof(*buffer), (1<<20), fp) == (1<<20))
{
start = clock();
hash_Function(buffer);
counter++;
total += (clock() - start);
}
//free(buffer);
fclose (fp); // close files
duration = (double)((stop - start)/CLOCKS_PER_SEC);
printf("Counter: %llu\n", counter); // how many MB were hashed
printf("Hashing took %.2f seconds\n", (float)duration);
return 0;
}
我的结果也没有像预期的那样出来,我分析的第一个文件有 1,961,893,364 字节大,所以应该至少有 1,961MB 被散列
但是当我打印出我的计数器来检查正确数量的 MB 被散列时,我只得到 1871
这是我的结果:
$ gcc one_mb.c
$ ./a.out
Enter name of file:v.10.nc
Size of file: 1961893364
Counter: 1871
Hashing took 0.00 seconds
提前感谢您的帮助!
/////结果为 (1000*1000)
Enter name of file:v.13.nc
Size of file: 15695146912
Counter: 15695
Hashing took 18446744.00 seconds
//////1 << 20
结果Enter name of file:v.13.nc
Size of file: 15695146912
Counter: 14968
Hashing took 18446744.00 seconds // why this long?!?!? It didn't take 30mins
/////用for循环替换while循环
// generic hash function
static unsigned short hash_Function(char *hash_1MB)
{
unsigned short hash;
int i;
for(i = 0; i < (1 << 20); i++)
{
hash += (unsigned short)hash_1MB[i];//add it to hash
}
return hash%HASH_PRIME;//mod hash by table size
}
最佳答案
您需要在 while 循环中获取时间戳并保留它们的总和以避免对文件 IO 计时。
start = clock();
clock_t total = 0;
while (fread(buffer, 1<<20, (1<<20), fp) == (1<<20))
{
start = clock();
hash_Function(buffer);
counter++;
total += (clock() - start);
}
请注意,我将 1000*1000 更改为 1<<20,因此它实际上是一个 MB 的大小。
还要确保至少为 1 MB 正确分配缓冲区。
buffer = (char*) malloc(1<<20);
以下计算结果为(字符大小)* 1000 * 1000 = 1000 * 1000,这是行不通的。
buffer = (char*) malloc(sizeof(*buffer)*1000*1000);
此外,当您执行 sizeof(*buffer) 时,这也会返回 char 的大小(1 字节)。查看更新后的恐惧。
关于Clock() 没有按预期工作;避免IO,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25064111/
我们已经有一个使用 AnyEvent 的库。它在内部使用 AnyEvent,并最终返回一个值(同步 - 不使用回调)。有什么方法可以将这个库与 Mojolicious 一起使用吗? 它的作用如下: #
我想从 XSD 文件生成带有 JAXB 的 Java 类。 问题是,我总是得到一些像这样的类(删除了命名空间): public static class Action { @X
我有一个关于 html 输入标签或 primefaces p:input 的问题。为什么光标总是自动跳转到输入字段。我的页面高度很高,因此您需要向下滚动。输入字段位于页面末尾,光标自动跳转(加载)到页
我今天在考虑面向对象设计,我想知道是否应该避免 if 语句。我的想法是,在任何需要 if 语句的情况下,您都可以简单地创建两个实现相同方法的对象。这两个方法实现只是原始 if 语句的两个可能的分支。
String graphNameUsed = graphName.getName(); if (graphType.equals("All") || graphType.equals(
我有一张友谊 table CREATE TABLE IF NOT EXISTS `friendList` ( `id` int(10) NOT NULL, `id_friend` int(10
上下文 Debian 64。Core 2 二人组。 摆弄循环。我使用了同一循环的不同变体,但我希望尽可能避免条件分支。 但是,即使我认为它也很难被击败。 我考虑过 SSE 或位移位,但它仍然需要跳转(
我最近在 Java 中创建了一个方法来获取字符串的排列,但是当字符串太长时它会抛出这个错误:java.lang.OutOfMemoryError: Java heap space我确信该方法是有效的,
我正在使用 (C++) 库,其中需要使用流初始化对象。库提供的示例代码使用此代码: // Declare the input stream HfstInputStream *in = NULL; tr
我有一个 SQL 查询,我在 WHERE 子句中使用子查询。然后我需要再次使用相同的子查询将其与不同的列进行比较。 我假设没有办法在子查询之外访问“emp_education_list li”? 我猜
我了解到在 GUI 线程上不允许进行网络操作。对我来说还可以。但是为什么在 Dialog 按钮点击回调上使用这段代码仍然会产生 NetworkOnMainThreadException ? new T
有没有办法避免在函数重定向中使用 if 和硬编码字符串,想法是接收一个字符串并调用适当的函数,可能使用模板/元编程.. #include #include void account() {
我正在尝试避免客户端出现 TIME_WAIT。我连接然后设置 O_NONBLOCK 和 SO_REUSEADDR。我调用 read 直到它返回 0。当 read 返回 0 时,errno 也为 0。我
我正在开发 C++ Qt 应用程序。为了在应用程序或其连接的设备出现故障时帮助用户,程序导出所有内部设置并将它们存储在一个普通文件(目前为 csv)中。然后将此文件发送到公司(例如通过邮件)。 为避免
我有一组具有公共(public)父类(super class)的 POJO。这些存储在 superclass 类型的二维数组中。现在,我想从数组中获取一个对象并使用子类 的方法。这意味着我必须将它们转
在我的代码中,当 List 为 null 时,我通常使用这种方法来避免 for 语句中的 NullPointerException: if (myList != null && myList.size
我正在尝试避免客户端出现 TIME_WAIT。我连接然后设置 O_NONBLOCK 和 SO_REUSEADDR。我调用 read 直到它返回 0。当 read 返回 0 时,errno 也为 0。我
在不支持异常的语言和/或库中,许多/几乎所有函数都会返回一个值,指示其操作成功或失败 - 最著名的例子可能是 UN*X 系统调用,例如 open( ) 或 chdir(),或一些 libc 函数。 无
我尝试按值提取行。 col1 df$col1[col1 == "A"] [1] "A" NA 当然我只想要“A”。如何避免 R 选择 NA 值?顺便说一句,我认为这种行为非常危险,因为很多人都会陷入
我想将两个向量合并到一个数据集中,并将其与函数 mutate 集成为 5 个新列到现有数据集中。这是我的示例代码: vector1% rowwise()%>% mutate(vector2|>
我是一名优秀的程序员,十分优秀!