python - 使用 python 基于公共(public)字段合并多个 *.csv、*.txt 或 *.ascii 文件-6ren

python - 使用 python 基于公共(public)字段合并多个 .csv、.txt 或 *.ascii 文件

转载作者：太空宇宙更新时间：2023-11-03 14:32:55

25

4

我想将大约 8 个 *.csv 文件合并为一个。

示例文件:

ID, Average
34, 4.5
35, 5.6
36, 3.4

另一个文件可能是:

ID, Max
34, 6
35, 7
36, 4

我需要的输出是:

ID, Average, Max
34, 4.5, 6
35, 5.6, 7
36, 3.4, 4

这只成功了一半......它将所有数据附加到相同的两列中。

import glob, string

outfile = open('<directory>/<fileName>.csv','a')    
files = glob.glob(r"<directory>/*.csv")

for y in files:
    newfile = open(y,'r+')       
    data = newfile.read()
    newfile.close()
    outfile.writerow(y)

如何将数据附加到新列，而不是重复“ID”字段？

最佳答案

你在这里遇到了三个问题。

读入每个csv文件
在公共(public)领域合并
将合并后的数据写入一个新的csv文件

代码

#!/usr/bin/env python
import argparse, csv
if __name__ == '__main__':

    parser = argparse.ArgumentParser(description='merge csv files on field', version='%(prog)s 1.0')
    parser.add_argument('infile', nargs='+', type=str, help='list of input files')
    parser.add_argument('--out', type=str, default='temp.csv', help='name of output file')
    args = parser.parse_args()
    data = {}
    fields = []

    for fname in args.infile:
        with open(fname, 'rb') as df:
            reader = csv.DictReader(df)
            for line in reader:
                # assuming the field is called ID
                if line['ID'] not in data:
                    data[line['ID']] = line
                else:
                    for k,v in line.iteritems():
                        if k not in data[line['ID']]:
                            data[line['ID']][k] = v
                for k in line.iterkeys():
                    if k not in fields:
                        fields.append(k)
            del reader

    writer = csv.DictWriter(open(args.out, "wb"), fields, dialect='excel')
    # write the header at the top of the file
    writer.writeheader()
    writer.writerows(data)
    del writer

请注意，这将忽略具有相同字段名称的数据。

解析器部分的替代方法是:

#!/usr/bin/env python
import glob, csv
if __name__ == '__main__':

    infiles = glob.glob('./*.csv')
    out = 'temp.csv'
    data = {}
    fields = []

    for fname in infiles:
        df = open(fname, 'rb')
        reader = csv.DictReader(df)
        for line in reader:
            # assuming the field is called ID
            if line['ID'] not in data:
                data[line['ID']] = line
            else:
                for k,v in line.iteritems():
                    if k not in data[line['ID']]:
                        data[line['ID']][k] = v
            for k in line.iterkeys():
                if k not in fields:
                    fields.append(k)
        del reader
        df.close()

    writer = csv.DictWriter(open(out, "wb"), fields, dialect='excel')
    # write the header at the top of the file
    writer.writeheader()
    writer.writerows(data)
    del writer

关于python - 使用 python 基于公共(public)字段合并多个 *.csv、*.txt 或 *.ascii 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7519412/

25

4

0

文章推荐： c# - 在 RhinoMocks 中动态订阅事件

c# - 如何拥有 "public public"v/s "internal public"？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: When should [assembly: InternalsVisibleTo()] be used?
microservices - 在微服务架构中，一个针对公共(public)特性的服务应该是公共(public)的还是不公共(public)的
问题与微服务有关，当我有多个微服务提供将被订购和计费的功能/服务时。我正在确定采用哪种方法， a) 每个可计费微服务有一个订单和一个计费服务，有各自的数据库。b) 跨所有微服务的通用订单管理和计费服
clojure - 无法调用非公共(public)类的公共(public)方法: public (Google gcloud library)
我正在尝试使用 gcloud图书馆。 (ns firengine.state (:import [com.google.cloud AuthCredentials] [com.goog
Java 公共(public)类，具有带有非公共(public)参数的公共(public)构造函数。为什么？
Java 允许定义以下一对类。 class Class1 { ... } public Class2 { public Class2(Class1 c1) { ... } } 如果因为 Class1
python - 查找2个文件中的公共(public)行，从文件1写入公共(public)行，从文件2写入非公共(public)行
我正在尝试查找文件 1 和文件 2 中的共同行。如果公共(public)行存在，我想写入文件 2 中的行，否则打印文件 1 中的非公共(public)行。fin1 和 fin2 是这里的文件句柄。它读
java - 无法访问公共(public)类中公共(public)静态类的公共(public)成员(全部在单独的 jar 中)
好吧，这是一个满口的标题。不过，这让我明白了。这是我的代码的要点，在 jar 里: public class NetworkShared { public static class Login
php - 未定义函数 : 7 ERROR: operator does not exist: public. ltree public.< public.ltree[]
我在使用 ltree 时遇到 PHP 问题来自 PostgreSQL .我在 SQL 中这样做: SELECT * FROM tabla t WHERE t.parent_path " for "OP
java - 有没有办法为公共(public)方法的子集生成 Javadoc？例如通过将公共(public)方法注释为 "not part of the public API"
我知道如何为类/接口(interface)/包的子集生成 Javadoc。但是有没有办法只为公共(public)方法的一个子集生成 Javadoc？我更喜欢能够将方法(Javadoc 标记或注释)标
c# - public int i 和 public int i {get; 之间有什么区别？ set;}(自动属性和公共(public)成员有什么区别？)
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicates: c#: why have empty get set properties instead of usin
c# - 声明字符串 public static readonly 与 public const 与 public static const
在我们的每个项目中，都有一个文件用于存储该项目中使用的各种SQL 语句。类的声明方式和字符串的声明方式有一些变化。示例类声明: internal sealed class ClassName int
jquery插件在其他公共(public)函数中调用公共(public)函数
我根据 http://docs.jquery.com/Plugins/Authoring 定义了我的插件 (function( $ ){ var methods = { init : fu
inno-setup - Inno Setup 不会在 C :\Users\Public - will instead do C:\Users\Public\Public Documents 下创建文件夹
我正在使用 Inno Setup 来构建我的安装程序，我有 C:\Users\Public文件夹硬编码在我的 [Files] 中放置一些文件的部分(Inno Setup 没有此文件夹的常量) 我的目标
python - 通过保持一个公共(public)列完整来从两个数据框中删除公共(public)列
我有一个 dataframe1 包含像 'ID', 'A', 'B', 'C', 'D', 'E', 'F', 'G' 这样的列. 现在，我创建了两个数据框， dataframe2 包含 'ID',
java - 在公共(public)抽象方法的所有子类中提取公共(public)实现的最佳方法
我有一个抽象类，不幸的是我无法更改它的定义，它基本上提供了一个抽象方法，有点像。 public abstract void do(Data someData, BaseInterface interf
java - 当公共(public)代码有多个不兼容的返回类型时分解公共(public)代码
我刚刚在重构时偶然发现了一段奇怪的代码。它看起来像是分解出两个 readString() 方法的共同部分的候选者，只是它似乎是不可能的(这对我来说是一个令人毛骨悚然的脑筋急转弯): private f
properties - 如何指定c :\users\public (%PUBLIC%) in WiX?
是否有解析为公用文件夹的属性？显然，我不想在目录结构中对“c:\users\public”进行硬编码，但我找不到预定义的 Property解决这个问题。是否有一种可接受的方式来指定要在此处安装和/或在
java - 如何将值从公共(public)类传递到另一个公共(public)类？
我试图将值从一个类传递到另一个类。 subPanel1 类读取全局变量，但当我通过调整监听器更新这些变量时，它不会更改值。我试图将 rc、gc 和 bc 变量从 subPanel2 类传递到 subP
c# - 将公共(public)属性用于内部和公共(public)使用还是分开使用？
我想使用具有自动属性的干净且编码较少的类。所有属性(property)都是公共(public)的。在同一类的方法中我也使用了该属性。因此，我认为这种方法是可混搭的，因为我将公共(public)属性用于
java - 我可以在Java中的嵌套公共(public)静态抽象类中读取公共(public)静态最终字段吗
不久前，我在 Android 应用程序中创建了一个 SQLiteHelper 类。我不是 100% 确定原因，但表名和列名是嵌套公共(public)静态抽象类中的公共(public)静态最终字段。我记
java - 如何从另一个类中的另一个公共(public)整数调用公共(public)整数？
这个问题已经有答案了: Cannot make a static reference to the non-static method (8 个回答) 已关闭 3 年前。我正在为类(class)做一

首页

博学

6Ren·AI

商城

python - 使用 python 基于公共(public)字段合并多个 .csv、.txt 或 *.ascii 文件