gpt4 book ai didi

c - 奇怪的内存行为处理 TSV

转载 作者:太空宇宙 更新时间:2023-11-04 08:10:31 27 4
gpt4 key购买 nike

我有一个 .tsv,我需要找出特定列中的频率变量并按降序排列该数据。我在 c 中运行一个脚本,该脚本下载一个缓冲区并将其保存到一个 .tsv 文件中,该文件带有一个名称的日期戳,位于与我的代码相同的目录中。然后我打开我的终端并根据 this awesome SO answer 运行以下命令:

cat 2016-09-06T10:15:35Z.tsv | awk -F '\t' '{print $1}' * | LC_ALL=C sort | LC_ALL=C uniq -c | LC_ALL=C sort -nr > tst.tsv

为了通过管道将其分开,它所做的是:

  1. cat .tsv 文件以将其内容放入管道

  2. awk -F '\t' '{print $1}' * 按制表符拆分文件内容并将第一列的内容插入管道

  3. LC_ALL=C sort 获取管道的内容并将它们排序以使彼此具有相似的值,然后将其推回管道

  4. LC_ALL=C uniq -c 获取管道中的内容并计算出每个值出现的次数,然后将其推回管道(例如,Max 3,如果姓名 Max 出现了 3 次)

  5. 最后,LC_ALL=C sort -nr 再次对管道中的内容进行降序排序,然后将其打印到 stdout,我通过管道传输到文件中。

这里是事情变得有趣的地方。如果我在与开始下载我的 .tsv 文件的 c 代码相同的目录中执行所有这些操作,我会得到 super 古怪的结果,这似乎是我实际 .tsv 的混合 文件,一些随机损坏的垃圾,以及首先得到它的 c 代码的内容。这是一个例子:

(计数)(值)

 1     fprintf(f, " %s; out meta qt; rel %s; out meta qt; way %s; out meta qt; >; out meta qt;", box_line, box_line, box_line);
1 fclose(f);
1 char* out_file = request_osm("cmd_tmp.txt", true);
1 bag_delete(lines_of_request);
1
1
1
1

1

1??g?
1??g?
1?
1?LXg$E

...等等。现在,如果您向上滚动,您还会从我正在解析的 .tsv 中找到一些正确的值:

(计数)(值)

   1 312639
1 3065411
1 3065376
1 300459
1 2946076

...等等。如果我将我的 .tsv 移动到它自己的文件夹中,然后 cd 进入该文件夹并再次运行相同的命令,它会完美地工作。

(计数)(值)

419362 452999
115770 136420
114149 1380953
72850 93290
51180 587015
45833 209668
31973 64756
31216 97928
30586 1812906

显然,我对我的问题有一个实用的答案 - 只需在解析之前将文件放在它自己的文件夹中即可。但我认为这种内存损坏表明手头可能存在一些更大的问题,我应该现在修复,我宁愿用一个临时的症状补丁来解决它,可以这么说。

我应该提一下,我的 C 代码有时会使用 system(cmd)

最佳答案

第二个命令是问题所在:

awk -F '\t' '{print $1}' *

看到末尾的星号了吗?它告诉 awk 处理当前目录中的所有文件。相反,您只想处理标准输入(管道输出)。

只需删除星号即可。

关于c - 奇怪的内存行为处理 TSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39888671/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com