gpt4 book ai didi

python - 带双引号的 Pandas 数据

转载 作者:行者123 更新时间:2023-12-03 23:37:01 28 4
gpt4 key购买 nike

我正在尝试读取 .csv 格式的大型数据集,该数据集使用 Pandas 库自动更新。
问题是在我的数据中,第一行是没有双引号的字符串,其他列是有双引号的字符串。我无法手动调整 .csv 文件。

一个简化的数据集看起来像这样

  • A,"B","C","D"
  • comp_a、“树”、“房子”、“门”
  • comp_b,“卡车”,“红色”,“蓝色”

  • 我需要将数据存储为不带引号的单独列,如下所示:
  • A B C D
  • comp_a 树屋门
  • comp_b 卡车红蓝

  • 我尝试使用
    import pandas as pd
    df_csv = pd.read(path_to_file,delimiter=',')

    这给了我完整的标题作为最后一列的单个变量
  • A,"B","C","D"
  • comp_a“树”“房子”“门”
  • comp_b“卡车”“红色”“蓝色”

  • 最接近我需要的结果是使用以下
    df_csv = pd.read(path_to_file,delimiter=',',quoting=3)

    它正确识别每一列,但添加了一堆额外的双引号。
  • "A ""B""""C""""D"""
  • “comp_a”“树”““房子”““门”“”
  • "comp_b""卡车""""红色""""蓝色"""

  • 将引用设置为 0 到 2 之间的值只会将整行作为单列读取。

    有谁知道如何在阅读 .csv 文件时删除所有引号?

    最佳答案

    只需使用 pd.read_csv() 加载数据然后使用 .replace('"','', regex=True)
    在一行中,它将是:

    df = pd.read_csv(filename, sep=',').replace('"','', regex=True)

    要设置列名称:
    df.columns = df.iloc[0]

    并删除第 0 行:
    df = df.drop(index=0).reset_index(drop=True)

    关于python - 带双引号的 Pandas 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51359010/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com