python中pandas.read_csv()函数的深入讲解-6ren

python中pandas.read_csv()函数的深入讲解

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

40

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章python中pandas.read_csv()函数的深入讲解由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

这里将更新最新的最全面的read_csv()函数功能以及参数介绍，参考资料来源于官网.

pandas库简介

官方网站里详细说明了pandas库的安装以及使用方法，在这里获取最新的pandas库信息，不过官网仅支持英文.

pandas是一个Python包，并且它提供快速，灵活和富有表现力的数据结构。这样当我们处理"关系"或"标记"的数据（一维和二维数据结构）时既容易又直观.

pandas是我们运用Python进行实际、真实数据分析的基础，同时它是建立在NumPy之上的.

csv文件格式简介

函数介绍。

pandas.csv() 函数将逗号分离的值（csv）文件读入数据框架。还支持可选地将文件读入块或将其分解.

函数原型。

源文件。

pandas.read_csv(filepath_or_buffer, sep=, delimiter=None, header=‘infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression=‘infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None, storage_options=None 。

函数参数以及含义。

输入。

参数名	功能以及含义
filepath_or_buffer	字符串。任何有效的字符串路径都可以，网址也行。
sep	字符串，表示分隔符，默认为',' .。一个字符及以上都可以，注意如果是转义字符要加''
delimiter	字符串，sep的别名，默认None
header	int或者int列表，默认由推断出来。这是用于规定列名的行号。
names	类似于数组结构，选择性使用。这是要使用的列名称列表，与header共同使用。
index_col	整数或者字符串或者整数/字符串列表。指定用作的行标签的列。
usecols	列表，可用可不用。功能是返回列的子集。
squeeze	布尔值，默认为False。如果解析的数据仅包含一列，则返回一个Series
prefix	字符串，选择性使用。没有标题时要添加到列号的前缀
mangle_dupe_cols	布尔值，默认为True。重复的列将被指定为“ X”，“ X.1”，……“ X.N”，而不是“ X”……“ X”。如果列中的名称重复，则False将导致数据被覆盖。
dtype	类型名称或者类型列的字典，选择性使用。数据或列的数据类型。
engine	{‘c', ‘python'}，选择性使用。要使用的解析器引擎。C引擎速度更快，而python引擎当前功能更完善。
converters	字典，选择性使用。转换器，用于转换某些列中的值的函数的字典。键可以是整数或列标签。
true_value	列表，选择性使用。视为True的值
false_values	列表，选择性使用。视为False的值
skipinitialspace	布尔值，默认为False。在定界符后跳过空格。
skiprows	列表或者整数，选择性使用。在文件开始处要跳过的行号（索引为0）或要跳过的行数（整数）。
skipfooter	整数，默认为0。要跳过的文件底部的行数（不支持engine =‘c'）。
nrows	整数，选择性使用。要读取的文件行数。对于读取大文件很有用。
na_values	标量，字符串，类似列表的字典，选择性使用。识别为NA / NaN的其他字符串。如果dict通过，则为特定的每列NA值。默认情况下，以下值解释为NaN：''，'＃N / A'，'＃N / AN / A'，'＃NA'，'-1.＃IND'，'-1.＃QNAN'， ‘-NaN'，'-nan'，‘1.＃IND'，‘1.＃QNAN'，''，‘N / A'，‘NA'，‘NULL'，‘NaN'，‘n / a'，‘nan'，‘null'。
keep_default_na	布尔值，默认为True。解析数据时是否包括默认的NaN值。
na_filter	布尔值，默认为True。检测缺失值标记（空字符串和na_values的值）。请注意，如果将na_filter传递为False，则将忽略keep_default_na和 na_values参数。
verbose	布尔值，默认为False。指示放置在非数字列中的NA值的数量。
skip_blank_lines	布尔值，默认为True。如果为True，跳过空白行，并且不解释为NaN值。
parse_dates	布尔值，整数列表，名称列表，列表或字典的列表。默认为False。功能是解析为时间。
infer_datetimes_format	布尔值，默认为False。如果启用True和parse_dates，则pandas将尝试推断列中日期时间字符串的格式，并且如果可以推断出日期格式，就会切换到更快的解析它们的方法。
keep_date_col	布尔值，默认为False。如果True和parse_dates指定合并多个列，则保留原始列。
date_parser	函数，选择性使用。用于将字符串列序列转换为日期时间实例数组的函数。
dayfirst	布尔值，默认为False。DD / MM格式的日期，国际和欧洲格式。
cache_dates	布尔值，默认为True。如果为True，则使用唯一的转换日期缓存来应用datetime转换。
iterator	布尔值，默认为False。返回TextFileReader对象以进行迭代或使用获取块 get_chunk()。
chunksize	整数，选择性使用。返回TextFileReader对象以进行迭代。
compression	{‘infer', ‘gzip', ‘bz2', ‘zip', ‘xz', None}，默认为'infer'。用于对磁盘数据进行即时解压缩。设置为“无”将不进行解压缩。
thousands	字符串，选择性使用。千位分隔符。
decimal	字符串，默认为'.'。识别为小数点的字符（例如，对于欧洲数据，请使用“，”）。
lineterminator	长度为1的字符串，选择性使用。用于将文件分成几行的字符。仅对C解析器有效。
quotechar	长度为1的字符串，选择性使用。用于表示引用项目的开始和结束的字符。
quoting	整数或者csv.QUOTE_* 实例，默认为0。每个csv.QUOTE_*常量的控制字段引用行为。使用QUOTE_MINIMAL（0），QUOTE_ALL（1），QUOTE_NONNUMERIC（2）或QUOTE_NONE（3）中的一种。
doublequote	布尔值，默认为True。如果指定quotechar而未使用引号QUOTE_NONE，则指示是否将一个字段内的两个连续的quotechar元素解释为单个quotechar元素。
escapechar	长度为1的字符串，选择性使用。一字符字符串，用于转义其他字符。
comment	字符串，选择性使用。指示不应分析行的其余部分。如果在一行的开头找到该行，则将完全忽略该行。此参数必须是单个字符。
encoding	字符串，选择性使用。读/写时用于UTF的编码（例如'utf-8'）。
dialect	字符串或者csv.Dialect，选择性使用。如果提供的话，该参数将覆盖为以下参数的值（默认或不）：delimiter, doublequote, escapechar, skipinitialspace, quotechar, and quoting。
error_bad_lines	布尔值，默认为True。默认情况下，具有太多字段的行（例如，带有太多逗号的csv行）将引发异常，并且不会返回任何DataFrame。如果为False，则这些“坏行”将从返回的DataFrame中删除。
warn_bad_lines	布尔值，默认为True。如果error_bad_lines为False，而warn_bad_lines为True，则将为每个“坏行”输出警告。
delim_whiterspace	布尔值，默认为False。指定是否将空格（例如或）用作分隔符。
low_memory	布尔值，默认为True。在内部对文件进行分块处理，从而在解析时减少了内存使用。
memory_map	布尔值，默认为False。如果为filepath_or_buffer提供了文件路径，则将文件对象直接映射到内存中，然后直接从那里访问数据。使用此选项可以提高性能，因为不再有任何I / O开销。
float_precision	字符串，选择性使用。指定C引擎应将哪个转换器用于浮点值。
storage_option	字典，选择性使用。解析特殊的URL。如果为该参数提供非fsspec URL，则会引发错误。

返回。

DataFrame：将逗号分隔值（csv）文件读取到DataFrame中.

函数使用实例

终端使用范例:

 
    ? 
   
         >>> 
         import 
         pandas as pd 
        
         >>>pd.read_csv( 
         'data.csv' 
         )

代码行使用范例。

 
    ? 
   
         #导入pandas库，并取别名为pd 
        
         import 
         pandas as pd 
        
         #books.csv与项目不在同一文件夹下使用绝对路径，分隔符为';'，出错的行直接跳过，编码方式使用"latin-1"，变量books是DataFrame数据结构 
        
         books  
         = 
         pd.read_csv( 
         'D:\coder\python_program\Books.csv' 
         , sep 
         = 
         ';' 
         , error_bad_lines  
         = 
         False 
         , encoding 
         = 
         "latin-1" 
         ) 
        
         #查看books的行和列 
        
         print 
         (books.shape) 
        
         #查看 
        
         print 
         ( 
         list 
         (books.columns)) 
        
         print 
         (books.head())

总结

到此这篇关于python中pandas.read_csv()函数的文章就介绍到这了,更多相关python pandas.read_csv()函数内容请搜索我以前的文章或继续浏览下面的相关文章希望大家以后多多支持我！。

原文链接：https://blog.csdn.net/weixin_43690010/article/details/115178050 。

最后此篇关于python中pandas.read_csv()函数的深入讲解的文章就讲到这里了,如果你想了解更多关于python中pandas.read_csv()函数的深入讲解的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

40

4

0

文章推荐： python函数指定默认值的实例讲解

文章推荐： python编写函数注意事项总结

文章推荐： C++11/14 线程的创建与分离的实现

文章推荐： Python requests库参数提交的注意事项总结

python - Dask read_csv-- 在 `pd.read_csv`/`pd.read_table` 中发现不匹配的 dtypes
我正在尝试使用 dask 读取 csv 文件，它给了我如下错误。但问题是我想要我的 ARTICLE_ID是 object(string) .谁能帮我成功读取数据？回溯如下: ValueError:
pandas read_csv() 用于多个分隔符
我有一个文件，其中包含如下数据 1000000 183:0.6673;2:0.3535;359:0.304;363:0.1835 1000001 92:1.0 1000002 112:1.0 1000
r - read_csv() 使用随机数做什么？
我刚刚注意到 read_csv()以某种方式使用了意外的随机数(至少对我而言)。对应的基R函数read.csv()不这样做。那么，read_csv() 是什么意思？使用随机数？我查看了文档，但找不到明
pandas:read_csv 将日期时间列组合为数据帧的索引
我有一个 csv 文件，其中包含日期和时间戳作为两列。我正在使用 Pandas read_csv将内容读入数据帧。我的最终目标是根据数据绘制时间序列图。 !head vmstat.csv wait_p
read_csv() 解析错误信息，如何解释？
我正在解析大量 csv 数据。数据相当“脏”，因为我有不一致的分隔符、虚假字符和格式问题，这些问题会导致出现问题。 read_csv() . 然而，我的问题不是数据的肮脏，而是试图理解的解析错误。
python - read_csv 多索引数据帧
我有以下 csv: value value value value ... id 1 1 1
python - 当你只知道部分文件名时 Read_csv
我无法读取仅知道部分文件名的 csv 文件。这是我所做的，但出现错误: "pandas.errors.ParserError: Error tokenizing data." What should
python - read_csv 读取分类值？
我想知道是否有办法在 read_csv() 过程中读取分类值。通常您可以在事后进行转换，例如: df.zone = df.zone.astype('category') 此时 df 占用了更多内存，
python - read_csv 获取发生异常的行
我尝试用 pandas 分析的 HTTP 日志文件有时会有意外的行。这是我加载数据的方式: df = pd.read_csv('mylog.log', sep=r'\s(?=(
python - 带有正则表达式的 read_csv
csv 数据示例: 2019-08-15 00:00:06,430 0:0 - {"info":{"name":"LTD - PUBLIC"}} pd.read_csv(filepath, sep=
python - read_csv 列编码
我对 python 很陌生。我正在尝试使用 python 自动执行一些建筑能耗数据的数据分析。我正在使用 python 2.7.3、pandas 0.12、Canopy with qtconsole
python - read_csv 导入困难
我有一个 csv 文件，格式如下: 0;2017-02-16 15:08:16;81,307877;;;;;;; 因此，分号作为分隔符，日期和时间以及带小数点逗号的 float 。最后是一堆分号。 P
python - read_csv 没有正确读取此文件上的列名？
我有一个 csv 文件如下: 0 5 1 10 2 15 3 20 4 25 我想将其保存为名称为 x,y 轴的数据框，然后绘制它。但是，当我分配 x,y 时，我得到了一个困惑的 DataFrame，
python中pandas.read_csv()函数的深入讲解
这里将更新最新的最全面的read_csv()函数功能以及参数介绍，参考资料来源于官网。 pandas库简介官方网站里详细说明了pandas库的安装以及使用方法，在这里获取最新的pandas库信
解决pandas read_csv 读取中文列标题文件报错的问题
从windows操作系统本地读取csv文件报错 ? 1
快速解决pandas.read_csv()乱码的问题
pandas.read_csv()遇到读进来乱码问题 1.设置encoding='gbk'或者encoding='utf-8'。pandas.read_csv('data.csv',encodin
python - 将转换器与 read_csv 一起使用时获取错误行
我有一个包含日期、国家/地区(只能在预定义列表中取值)等信息的 csv 文件，我目前正在使用 converters 参数来进行一些完整性检查，如下所示: import pandas as pd def
Python Pandas read_csv 到没有分隔符的数据框
我是 Pandas 库的新手。我共享了基于数据框的代码。有没有办法在没有任何定界符的情况下逐行读取 gzip 文件(使用整行，该行可以包含逗号和其他字符)作为单行并在数据框中使用它？似乎你必须提供
python - Pandas read_csv 处理给定数字数据类型的带引号字符串
我正在有效地尝试将以下文件读入 DataFrame 并再次将其原封不动地写出。 F1,F2,F3,F4,F5 "blah","blah",123,"123","123" "blue","blue",4
csv - 未知列的 read_csv 转换器
我正在尝试读取一个在每个单元格中包含多个值的 csv 文件，并且我想将它们编码为单个 int 格式的字节以存储在 Pandas 单元格中，(例如 (1, 1) -> 771)。为此，我想使用 read

首页

博学

6Ren·AI

商城