linux - 比较数十万个文件并在 bash 中创建输出结果文件的最快方法-6ren

linux - 比较数十万个文件并在 bash 中创建输出结果文件的最快方法

转载作者：太空狗更新时间：2023-10-29 12:22:24

26

4

我有以下内容:

-值文件，values.txt

-目录结构:./dataset/label/author/files.txt

-数以万计的files.txt的

-一个名为targets.txt的文件，其中包含每个files.txt的位置

示例 targets.txt

./dataset/tallperson/Jabba/awesome.txt
./dataset/fatperson/Detox/toxic.txt

我有一个名为 values.txt 的文件，其中包含数十万行值。这些值是“aef”、“; i”、“jfk”等。随机的 3 字符行。

我还有几万个文件，每个文件也有几百到几千行。每行还包含随机 3 字符行。

values.txt 是使用每个 files.txt 的值创建的。因此，任何不包含在 values.txt 中的 file.txt 文件都没有值。 values.txt 不包含重复值。

例子:

./dataset/weirdperson/Crooked/file1.txt

LOL
hel
lo 
how
are
you
on 
thi
s f
ine
day

./dataset/awesomeperson/Mild/file2.txt

I a
m v
ery
goo
d. 
Tha
nks
LOL

值.txt

are
you
on 
thi
s f
ine
day
goo
d. 
Tha
hel
lo 
how
I a
m v
ery
nks
LOL

以上只是示例数据。每个文件将包含数百行。而 values.txt 将包含数十万行。

我的目标是制作一个文件，其中每一行都是一个文件。每行将包含 N 个值，其中每个值对应于 values.txt 中的行。每个值将用逗号分隔。每个值都是根据每个文件包含 values.txt 中每一行的值的次数简单计算的。

结果应该是这样的。第 1 行是 file1.txt，第 2 行是 file2.txt。

结果.txt

1,1,1,1,1,1,1,0,0,0,1,1,1,0,0,0,0,1,
0,0,0,0,0,0,0,1,1,1,0,0,0,1,1,1,1,1,

现在。最后一件事是，在得到这个结果后我想添加一个标签。标签相当于文件的第 N 个父目录。对于这个例子，假设是第二个父目录。因此标签将是“高个子”或“矮个子”。因此，新的 Results.txt 文件将如下所示。

结果.txt

1,1,1,1,1,1,1,0,0,0,1,1,1,0,0,0,0,1,weirdperson
0,0,0,0,0,0,0,1,1,1,0,0,0,1,1,1,1,1,awesomeperson

我想要一种方法来完成所有这些，但我需要它快速，因为我正在处理一个非常大规模的数据集。

这是我当前的代码，但它太慢了。瓶颈在第 2 行。

脚本。每个文件位于“./dataset/label/author/file.java”

1  while IFS= read file_name; do
2      cat values.txt | xargs -d '\n' -I {} grep -Fc -- "{}" "$file_name" | xargs printf "%d," >> Results.txt;
3      label=$(echo "$file_name" | cut -d '/' -f 3);
4      printf "$label\n" >> Results.txt;
5  done < targets.txt

-----------< em>-

重现这个问题。执行以下操作:

mkdir -p dataset/{label1,label2}
touch file1.txt; chmod 777 file1.txt
touch file2.txt; chmod 777 file2.txt
echo "Enter anything here" > file1.txt
echo "Enter something here too" > file2.txt
mv file1.txt ./dataset/label1
mv file2.txt ./dataset/label2
find ./dataset/ -type f -name "*.txt" | while IFS= read file_name; do cat $file_name | sed -e "s/.\{3\}/&\n/g" | sort -u > $modified-file_name; done
find ./dataset/ -type f -name "modified-*.txt" | xargs -d '\n' -I {} echo {} >> targets.txt
xargs cat < targets.txt | sort -u > values.txt

在上面的内容不变的情况下，你应该得到一个 values.txt，其中包含类似于下面的内容。如果由于某种原因有任何行少于或多于 3 个字符，请删除该行。

any
e
Ent
er 
eth
he
her
ing
ng 
re 
som
thi
too

你应该得到一个 targets.txt 文件

./dataset/label2/modified-file2.txt
./dataset/label1/modified-file1.txt

从这里开始。目标是检查 targets.txt 中的每个文件，并计算该文件在 values.txt 中包含了多少个值。并将带有标签的结果输出到Results.txt

以下脚本适用于此示例，但我需要它能够更快地进行大规模操作。

while IFS= read file_name; do
  cat values.txt | xargs -d '\n' -I {} grep -Fc -- "{}" $file_name | xargs printf "%d," >> Results.txt;
  label=$(echo "$file_name" | cut -d '/' -f 3);
  printf "$label\n" >> Results.txt;
done < targets.txt

还有一个例子

示例 2:

./dataset/weirdperson/Crooked/file1.txt

LOL
LOL
HAHA

./dataset/awesomeperson/Mild/file2.txt

LOL
LOL
LOL

值.txt

LOL
HAHA

结果.txt

2,1,weirdperson
3,0,awesomeperson

最佳答案

这是 Python 中的解决方案，使用其有序字典数据类型。

import os
from collections import OrderedDict

# read samples from values.txt into an Ordered Dict.
# each dict key is a line from the file
# (including the trailing newline, but that doesn't matter)
# each dict value is 0

with open('values.txt', 'r') as f:
  samplecount0=OrderedDict((sample, 0) for sample in f.readlines())

# get list of filenames from targets.txt

with open('targets.txt', 'r') as f:
  targets=[t.rstrip('\n') for t in f.readlines()]

# for each target,
# read its lines of samples
# increment the corresponding count in samplecount
# print out samplecount in a single line separated by commas
# each line also has the 2nd-to-last directory component of the target's pathname

for target in targets:
  with open(target, 'r') as f:
    # copy samplecount0 to samplecount so we don't have to read the values.txt file again
    samplecount=samplecount0.copy()
    # for each sample in the target file, increment the samplecount dict entry
    for tsample in f.readlines():
      samplecount[tsample] += 1
    output = ','.join(str(v) for v in samplecount.values())
    output += ',' + os.path.basename(os.path.dirname(os.path.dirname(target)))
    print(output)

输出:

$ python3  doit.py
1,1,1,1,1,1,1,0,0,0,1,1,1,0,0,0,0,1,weirdperson
0,0,0,0,0,0,0,1,1,1,0,0,0,1,1,1,1,1,awesomeperson

关于linux - 比较数十万个文件并在 bash 中创建输出结果文件的最快方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56976664/

26

4

0

文章推荐： html - Angular 5 无法调整 html 表格上的单元格高度

文章推荐： css - 为什么 gnome 应用程序会忽略部分 gtk 3 主题？

文章推荐： css - 设置 Angular Material Slider 的样式，使其更厚/更高

文章推荐： linux - 用perf记录缺页的指令地址

python - NetworkX Graph 对象的“同构”比较，而不是默认的 'address' 比较
我想使用 NetworkX Graph 对象作为 Python dict 中的键。但是，我不希望默认的比较行为(即通过对象的地址)。相反，我希望同构图是 dict 中相同元素的键。此行为是否已在某处
比较 float
这个问题已经有答案了: What is the most effective way for float and double comparison? (33 个回答) 已关闭 7 年前。在您认为我
C字符串与字符的输入、比较
我正在学习 C 编程，为了练习，我找到了一个需要解决的任务。这有点像一个游戏，有人选择一个单词，其他人猜测字母。我必须检查有多少给定的单词可能是所选单词的正确答案。输入: 3 3//数字 n 和 m
比较 If 语句中的字符
我两天前开始学习C，在做作业时遇到了问题。我们的目的是从字符数组中获取字符列表，并通过计算连续字符并将其替换为数字来缩短它。对“a4b5c5”说“aaaabbbbbccccc”。这是我到目前为止的代码
比较 if 语句中的指针值
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
JavaScript 比较
为什么我在 if 中的比较不起作用？答案应该是 8 但它返回 0。 function findMissing(missingArray){ var getArray = missing
JavaScript 比较
我想知道为什么以下 JavaScript 比较会给出不同的结果。 (1==true==1) true (2==true==2) false (0==false==0) false (0==false)
比较、组合和确定字符串的长度？
我想知道是否有人可以帮助我完成这个程序。编写一个接受两个字符串的函数。该函数应该将这两个字符串与字典顺序上排在第一位的字符串组合起来。两个字符串之间应该有一个空格。在一行上打印结果字符串。在一行上打印
JavaBeans 比较
有谁知道一个免费的开源库(实用程序类)，它允许您比较一个 Java bean 的两个实例并返回一个属性列表/数组，这两个实例的值不同？请发布一个小样本。干杯托马斯最佳答案 BeanCompara
Java - 比较
我是java新手。任何人都可以给出以下类声明的含义 public class ListNode, V> { K key; V value; ListNode next;
比较 C 中不同大小的矩阵乘法执行时间
我需要用 C 语言计算和比较 3 种不同大小(100 * 100、1000 * 1000 和 10000 * 10000)的 2 个矩阵相乘的执行时间。我编写了以下简单代码来为 1000 * 1000
聚合函数上的 SQL 比较
当我在 ACCESS 2007 中运行以下 SQL 时 Select Location, COUNT(ApartmentBuildings) AS TotalIBuildingsManaged Fro
multithreading - 互斥体与监视器——比较
根据我对互斥锁的了解——它们通常提供对共享资源的锁定功能。因此，如果一个新线程想要访问这个锁定的共享资源——它要么退出，要么必须不断轮询锁(并在等待锁时浪费处理器周期)。但是，监视器具有条件变量，它
Oracle NUMBER 比较
通常在编程中，不应该比较浮点数据类型是否相等，因为存储的值通常是近似值。由于两个非整数 Oracle NUMBER 值的存储方式不同(以 10 为基数)，是否可以可靠地比较它们是否相等？最佳答案
powershell - 没有隐式类型转换的身份运算符/比较
使用 PowerShell 时，我们偶尔会比较不同类型的对象。一个常见的场景是 $int -eq $bool (即其中 0 -eq $false 、 0 -ne $true 和任何非零值仅等于真，但不
比较 2 个字符串并保存结果
#include #define MAX 1000 void any(char s1[], char s2[], char s3[]); int main() { char string1[
c# - 比较.net中的日期
我想比较两个日期。从这两个日期中，我只使用 ToShortDateString() 获取日期组件，如下所示。现在的问题是当我比较两个日期时。它的 throw 错误—— "Operator >= c
iphone - 比较 NSNumber
用户输入一个数字( float 或整数)，并且它必须大于下限。这是从 UITextField 获取数字的代码: NSNumberFormatter * f = [[NSNumberFormatter
Javascript 子字符串验证/比较
我已经摆弄这段代码大约一个小时了，它让我难以置信。我认为解决方案相当简单，但我似乎无法弄清楚。无论如何，这里去。我制作了一个 javascript 函数来检查用户输入的字符，以便它只能接受 7 个字符
Scala 类和案例类 == 比较
我不太明白为什么当我们在不覆盖 equals 的情况下比较具有相同类属性的两个实例时方法，它将给出 false .但它会给出 true当我们比较一个案例类的两个实例时。例如 class A(val

首页

博学

6Ren·AI

商城

linux - 比较数十万个文件并在 bash 中创建输出结果文件的最快方法