Pandas的read_csv函数参数分析详解-6ren

Pandas的read_csv函数参数分析详解

转载作者：qq735679552 更新时间：2022-09-28 22:32:09

30

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Pandas的read_csv函数参数分析详解由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

函数原型。

。

复制代码代码如下:

  pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None) 

。

必填参数。

 
    ? 
   
         filepath_or_buffer :  
         str 
         ，pathlib。 
         str 
         , pathlib.Path, 
        
         py._path.local.LocalPath  
         or 
         any 
         object 
         with a read() method  
        
         (such as a  
         file 
         handle  
         or 
         StringIO)

读取文件路径，可以是URL，可用URL类型包括：http, ftp, s3和文件.

常用参数。

sep :str, default ‘,' 指定分隔符。如果不指定参数，则会尝试使用逗号分隔。csv文件一般为逗号分隔符.

delimiter ： str, default None 定界符，备选分隔符（如果指定该参数，则sep参数失效）。

delim_whitespace :boolean, default False. 指定空格(例如' ‘或者' ‘)是否作为分隔符使用，等效于设定sep='\s+'。如果这个参数设定为Ture那么delimiter 参数失效.

header :int or list of ints, default ‘infer' 指定行数用来作为列名，数据开始行数。如果文件中没有列名，则默认为0，否则设置为None。对于数据读取有表头和没表头的情况很实用。

header :int or list of ints, default ‘infer' 指定行数用来作为列名，数据开始行数。如果文件中没有列名，则默认为0，否则设置为None.

names : array-like, default None 用于结果的列名列表，对各列重命名，即添加表头。如数据有表头，但想用新的表头，可以设置header=0,names=['a','b']实现表头定制.

index_col : int or sequence or False, default None 用作行索引的列编号或者列名，如果给定一个序列则有多个行索引。可使用index_col=[0,1]来指定文件中的第1和2列为索引列.

usecols : array-like, default None 返回一个数据子集，即选取某几列，不读取整个文件的内容，有助于加快速度和降低内存。 usecols=[1,2]或usercols=['a','b'] 。

squeeze : boolean, default False 如果文件只包含一列，则返回一个Series 。

prefix : str, default None 在没有列标题时，给列添加前缀。例如：添加‘X' 成为 X0, X1, ... 。

mangle_dupe_cols : boolean, default True 重复的列，将‘X'...'X'表示为‘X.0'...'X.N'。如果设定为False则会将所有重名列覆盖.

不太常用参数。

dtype : Type name or dict of column -> type, default None 每列数据的数据类型。例如 {‘a': np.float64, ‘b': np.int32} 。

engine : {‘c', ‘python'}, optional 使用的分析引擎。可以选择C或者是python。C引擎快但是Python引擎功能更加完备.

converters : dict, default None 列转换函数的字典。key可以是列名或者列的序号.

true_values和false_values : list, default None Values to consider as True or False 。

skipinitialspace :boolean, default False 忽略分隔符后的空白（默认为False，即不忽略）。

skiprows : list-like or integer, default None 需要忽略的行数（从文件开始处算起），或需要跳过的行号列表（从0开始）.

skipfooter : int, default 0 从文件尾部开始忽略。 (c引擎不支持) 。

nrows : int, default None 需要读取的行数（从文件头开始算起）.

na_values : scalar, str, list-like, or dict, default None 一组用于替换NA/NaN的值。如果传参，需要制定特定列的空值。默认为‘1.#IND', ‘1.#QNAN', ‘N/A', ‘NA', ‘NULL', ‘NaN', ‘nan'`. 。

keep_default_na : bool, default True 如果指定na_values参数，并且keep_default_na=False，那么默认的NaN将被覆盖，否则添加.

na_filter : boolean, default True 是否检查丢失值（空字符串或者是空值）。对于大文件来说数据集中没有空值，设定na_filter=False可以提升读取速度.

verbose :boolean, default False 是否打印各种解析器的输出信息，例如：“非数值列中缺失值的数量”等.

skip_blank_lines :boolean, default True 如果为True，则跳过空行；否则记为NaN.

encoding : str, default None 指定字符集类型，通常指定为'utf-8'. List of Python standard encodings 。

dialect : str or csv.Dialect instance, default None 如果没有指定特定的语言，如果sep大于一个字符则忽略。具体查看csv.Dialect 文档。

tupleize_cols : boolean, default False Leave a list of tuples on columns as is (default is to convert to a Multi Index on the columns) 。

error_bad_lines : boolean, default True 如果一行包含太多的列，那么默认不会返回DataFrame ，如果设置成false，那么会将改行剔除（只能在C解析器下使用）.

warn_bad_lines : boolean, default True 如果error_bad_lines =False，并且warn_bad_lines =True 那么所有的“bad lines”将会被输出（只能在C解析器下使用）.

low_memory : boolean, default True 分块加载到内存，在低内存消耗中解析。但是可能出现类型混淆。确保类型不被混淆需要设置为False。或者使用dtype 参数指定类型。注意使用chunksize 或者iterator 参数分块读入会将整个文件读入到一个Dataframe，而忽略类型（只能在C解析器中有效）。

日期类型相关参数。

parse_dates : boolean or list of ints or names or list of lists or dict, default False 。

boolean. True -> 解析索引 list of ints or names. e.g. If [1, 2, 3] -> 解析1,2,3列的值作为独立的日期列； list of lists. e.g. If [[1, 3]] -> 合并1,3列作为一个日期列使用 dict, e.g. {‘foo' : [1, 3]} -> 将1,3列合并，并给合并后的列起名为"foo" 。

示例：df=pd.read_csv(file_path,parse_dates=['time1','time2'])，把time1和time2两列解析为日期格式。这里不得不说，很遗憾中文不行，比如‘4月5日'这种格式就不能解析.

infer_datetime_format :boolean, default False 如果设定为True并且parse_dates 可用，那么pandas将尝试转换为日期类型，如果可以转换，转换方法并解析。在某些情况下会快5~10倍.

keep_date_col : boolean, default False 如果连接多列解析日期，则保持参与连接的列。默认为False.

date_parser : function, default None 于解析日期的函数，默认使用dateutil.parser.parser来做转换。 Pandas尝试使用三种不同的方式解析，如果遇到问题则使用下一种方式。 1.使用一个或者多个arrays（由parse_dates指定）作为参数； 2.连接指定多列字符串作为一个列作为参数； 3.每行调用一次date_parser函数来解析一个或者多个字符串（由parse_dates指定）作为参数.

dayfirst : boolean, default False DD/MM格式的日期类型。

大文件常用参数。

iterator : boolean, default False 返回一个TextFileReader 对象，以便逐块处理文件.

chunksize : int, default None 文件块的大小， See IO Tools docs for more informationon iterator and chunksize. 。

decimal : str, default ‘.' 字符中的小数点 (例如：欧洲数据使用'，‘). 。

float_precision : string, default None Specifies which converter the C engine should use for floating-point values. The options are None for the ordinary converter, high for the high-precision converter, and round_trip for the round-trip converter. 。

lineterminator : str (length 1), default None 行分割符，只在C解析器下使用.

quotechar : str (length 1), optional 引号，用作标识开始和解释的字符，引号内的分割符将被忽略.

quoting : int or csv.QUOTE_* instance, default 0 控制csv中的引号常量。可选 QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3) 。

doublequote : boolean, default True 双引号，当单引号已经被定义，并且quoting 参数不是QUOTE_NONE的时候，使用双引号表示引号内的元素作为一个元素使用.

escapechar : str (length 1), default None 当quoting 为QUOTE_NONE时，指定一个字符使的不受分隔符限值.

comment : str, default None 标识着多余的行不被解析。如果该字符出现在行首，这一行将被全部忽略。这个参数只能是一个字符，空行（就像skip_blank_lines=True）注释行被header和skiprows忽略一样。例如如果指定comment='#' 解析‘#empty\na,b,c\n1,2,3' 以header=0 那么返回结果将是以'a,b,c'作为header.

读取多个文件。

 
    ? 
   
         #读取多个文件 
        
         import 
         pandas 
        
         import 
         glob 
        
         for 
         r  
         in 
         glob.glob( 
         "test*.csv" 
         ): 
        
         csv 
         = 
         pandas.read_csv(r) 
        
         csv.to_csv( 
         "test.txt" 
         ,mode 
         = 
         "a+" 
         )

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我.

原文链接：https://blog.csdn.net/liuweiyuxiang/article/details/78471036 。

最后此篇关于Pandas的read_csv函数参数分析详解的文章就讲到这里了,如果你想了解更多关于Pandas的read_csv函数参数分析详解的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

30

4

0

文章推荐： Pycharm连接远程服务器并实现远程调试的实现

文章推荐： js操作两个json数组合并、去重，以及删除某一项元素

文章推荐： python聊天室(虽然很简洁,但是可以用)

文章推荐：如何使用Python实现斐波那契数列

pandas - Pandas 交叉表与 Pandas 数据透视表有何不同？
pandas.crosstab 和 Pandas 数据透视表似乎都提供了完全相同的功能。有什么不同吗？最佳答案 pivot_table没有 normalize争论，不幸的是。在 crosstab
pandas - 从 pandas 值序列创建 pandas 区间序列
我能找到的最接近的答案似乎太复杂:How I can create an interval column in pandas? 如果我有一个如下所示的 pandas 数据框: +-------+ |
pandas - 将一列值移动到另一列 - Pandas
这是我用来将某一行的一列值移动到同一行的另一列的当前代码: #Move 2014/15 column ValB to column ValA df.loc[(df.Survey_year == 201
pandas - 如何将包含 bins 的 pandas 数据框写入文件以便将其读回 pandas？
我有一个以下格式的 Pandas 数据框: df = pd.DataFrame({'a' : [0,1,2,3,4,5,6], 'b' : [-0.5, 0.0, 1.0, 1.2, 1.4,
pandas - Pandas 数据框行上的克罗内克积
所以我有这两个数据框，我想得到一个新的数据框，它由两个数据框的行的克罗内克积组成。正确的做法是什么？举个例子:数据框1 c1 c2 0 10 100 1 11 110 2 12
pandas - Pandas 条形图中的刻度标签重叠
TL;DR:在 pandas 中，如何绘制条形图以使其 x 轴刻度标签看起来像折线图？我制作了一个间隔均匀的时间序列(每天一个项目)，并且可以像这样很好地绘制它: intensity[350:450
pandas - Pandas 中两个时间戳之间的差异
我有以下两个时间列，“Time1”和“Time2”。我必须计算 Pandas 中的“差异”列，即 (Time2-Time1): Time1 Time2
pandas - ( Pandas )根据顺序无关紧要的子集删除重复项
从这个 df 去的正确方法是什么: >>> df=pd.DataFrame({'a':['jeff','bob','jill'], 'b':['bob','jeff','mike']}) >>> df
pandas - Pandas 中唯一值的累积计数
我想按周从 Pandas 框架中的列中累积计算唯一值。例如，假设我有这样的数据: df = pd.DataFrame({'user_id':[1,1,1,2,2,2],'week':[1,1,2,1,
pandas - Pandas 更改数据透视表中列的顺序
数据透视表的表示形式看起来不像我在寻找的东西，更具体地说，结果行的顺序。我不知道如何以正确的方式进行更改。 df示例: test_df = pd.DataFrame({'name':['name_1
pandas - Pandas 中的分组召回
我有一个数据框，如下所示。 Category Actual Predicted 1 1 1 1 0
pandas - 计算从日期时间列到特定日期的天数 - pandas
我有一个 df，如下所示。 df: ID open_date limit 1 2020-06-03 100 1 2020-06-23 500
pandas - 删除不等于唯一项目值的行 - Pandas
我有一个 df ，其中包含与唯一值关联的各种字符串。对于这些唯一值，我想删除不等于单独列表的行，最后一行除外。下面使用 Label 中的各种字符串值与 Item 相关联.所以对于每个唯一的 Item
pandas - Pandas 按索引删除列会删除所有具有相同名称的列
考虑以下具有相同名称的列的数据框（显然，这确实发生了，目前我有一个像这样的数据集！:(） >>> df = pd.DataFrame({"a":range(10,15),"b":range(5,10)
pandas - Pandas DF中的重复行
我在 Pandas 中有一个 DF，它看起来像: Letters Numbers A 1 A 3 A 2 A 1 B 1 B 2
pandas - Pandas 两列之间的时差
如何减去两列之间的时间并将其转换为分钟 Date Time Ordered Time Delivered 0 1/11/19 9:25:00 am 10:58:00 am
pandas - pandas 使用哪种方法计算百分位数？
我试图理解 pandas 中的下/上百分位数计算，但有点困惑。这是它的示例代码和输出。 test = pd.Series([7, 15, 36, 39, 40, 41]) test.describe(
pandas - 如何提取多索引数据帧的索引名称，pandas
我有一个多索引数据框，如下所示: TQ bought HT Detailed Instru
pandas - Pandas :根据字符串计数创建直方图
我需要从包含值“低”，“中”或“高”的数据框列创建直方图。当我尝试执行通常的df.column.hist（）时，出现以下错误。 ex3.Severity.value_counts() Out[85]:
pandas - Pandas 中的子字符串列基于另一列
我试图根据另一列的长度对一列进行子串，但结果集是 NaN .我究竟做错了什么？ import pandas as pd df = pd.DataFrame([['abcdefghi','xyz'],

首页

博学

6Ren·AI

商城

Pandas的read_csv函数参数分析详解