- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个问题,我有一个大文件,我想用 Python 读取它,它看起来像:
"2019-10-09 10:11:09","NICK","Hello, how are you
today? I'm like ""weather"", often changing."
我想将此文件读入数据帧,如下所示:
col1 col2 col3
2019-10-09 09:32:09 NICK Hello, how are you today? I'm like ""weather"", often changing.
我遇到了一些问题。首先,有一个问题,我的分隔符是“,”,它也在来自 col3 的一些消息中。第二个问题是,在来自 col3 的一些消息中存在换行符,我不知道如何处理(如“you”之后的示例)。最后一个问题是,来自 col3 的消息中还有两个双引号 '""""',它们代表消息中的引号。
我尝试使用以下方式读取此文件:
with open('/data/myfile.csv', 'r', encoding='utf-8') as csvfile:
df = pd.read_csv(csvfile, sep=",", quotechar='"', escapechar='\\')
不幸的是,这个方法不起作用。我不知道我解释的这三件事中哪一件导致了问题。它向我显示错误,它期望三列,但实际上几乎没有。
编辑:还有一些其他问题,因为它仍然显示此错误:
标记数据时出错。 C 错误:第 60 行应有 3 个字段,但看到了 5
当我查看该文件时,我不知道它是如何解释行的,因为我在来自 col3 的消息中收到了一些断行。我如何打印导致问题的确切行?
编辑2:我在终端中使用了这段代码:
sed -n 60p myfile.csv
它打印了空行。所以我也用前后几行来做到这一点。它看起来像:
"2019-10-09 10:11:09","som1","This isn't this.
It's like this, and this.
And as my opinions is this.
Finally, it's the end."
编辑3:@Boendal 是对的。我包含的这一行不会引起问题。现在我已将代码编辑为:
with open('opinions-ml.csv', 'r', encoding='utf-8') as csvfile:
df = pd.read_csv(csvfile, names=['col1', 'col2', 'col3'], sep=",", quotechar='"', escapechar='\\')
我发现问题是由这样的行引起的:
"2019-10-09 10:11:09","NICK","This is some text "and this, is quote" and it is also text
Awww. and, there was, line break"
Python 将此作为数据帧读取,如下所示:
col1 col2 col3
2019-10-09 09:32:09 NICK This is some text and this
Awww. and there was line break
您认为有机会解决这个问题吗?也许使用正则表达式?或者我应该返回文件提供商来解决这个问题吗?
编辑4:另一行:
"2019-10-09 10:11:09","NICK","This is some text "and this is quote" and it is also text
Awww. and there, was line break"
Python 将此作为数据帧读取,如下所示:
col1 col2 col3
2019-10-09 09:32:09 NICK This is some text and this is quote" and it is also text
Awww. and there was line break NaN
最佳答案
据我所知,csv 方言可能会有所帮助。以下代码产生正确的输出。
import pandas as pd
import csv
csv.register_dialect('mydialect', delimiter=',', quoting=csv.QUOTE_ALL, doublequote=True)
df = pd.read_csv('test.csv', dialect='mydialect')
df
解决方案 2:重新格式化数据
用 ,(逗号)和第三个索引中的转义值分割该行。
import csv
with open('test.csv') as infile, open('reformated_data.csv', 'w', newline='') as outfile:
outputWriter = csv.writer(outfile, delimiter=',',
escapechar='\\', quoting=csv.QUOTE_NONE)
for line in infile:
line = line.split(',')
col12 = line[0:2]
col3 = ''.join(line[2:]).encode("unicode_escape").decode("utf-8")
outputWriter.writerow(col12 + [col3])
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html https://docs.python.org/3/library/csv.html#dialects-and-formatting-parameters
关于python - 读取 csv 文件,其中引号内包含两个双引号和换行符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59765755/
我有一个类似于以下的结构。 class A { string title; List bItem; } class B { int pric
本地流 和 远程流 两者都是“媒体流列表 ”。 本地流 包含“本地媒体流 ” 对象 但是,远程流 包含“媒体流 ” 对象 为什么差别这么大? 当我使用“本地流 “- 这个对我有用: localVide
我正在尝试将 8 列虚拟变量转换为 8 级排名的一列。 我试图用这个公式来做到这一点: =IF(OR(A1="1");"1";IF(OR(B1="1");"2";IF(OR(C1="1");"3";I
我正在使用面向对象编程在 Python 中创建一个有点复杂的棋盘游戏的实现。 我的问题是,许多这些对象应该能够与其他对象交互,即使它们不包含在其中。 例如Game是一个对象,其中包含PointTrac
有没有办法获取与 contains 语句匹配的最深元素? 基本上,如果我有嵌套的 div,我想要最后一个元素而不是父元素: Needle $("div:contains('Needle')")
出于某种原因,我无法在 Google 上找到答案!但是使用 SQL contains 函数我怎么能告诉它从字符串的开头开始,即我正在寻找等同于的全文 喜欢 'some_term%'。 我知道我可以使用
我正在尝试创建一个正则表达式来匹配具有 3 个或更多元音的字符串。 我试过这个: [aeiou]{3,} 但它仅在元音按顺序排列时才有效。有什么建议吗? 例如: 塞缪尔 -> 有效 琼 -> 无效 S
嘿所以我遇到了这样的情况,我从数据库中拉回一个客户,并通过包含的方式包含所有案例研究 return (from c in db.Clients.Include("CaseStudies")
如果关键字是子字符串,我无法弄清楚为什么这个函数不返回结果。 const string = 'cake'; const substring = 'cak'; console.log(string.in
我正在尝试将包含特定文本字符串的任何元素更改为红色。在我的示例中,我可以将子元素变为蓝色,但是我编写“替换我”行的方式有些不正确;红色不会发生变化。我注意到“contains”方法通常写为 :cont
我想问一下我是否可以要求/包含一个语法错误的文件,如果不能,则require/include返回一个值,这样我就知道所需/包含的文件存在语法错误并且不能被要求/包含? file.php语法错误 inc
我想为所有包含youtube链接的链接添加一个rel。 这就是我正在使用的东西-但它没有用。有任何想法吗? $('a [href:contains(“youtube.com”)]')。attr('re
我正在尝试在 Elasticsearch 中查询。除搜索中出现“/”外,此功能均正常运行。查询如下所示 GET styling_rules/product_line_filters/_search {
我正在开发名为eBookRepository的ASP.NET MVC应用程序,其中包含在线图书。 电子书具有自己的标题,作者等。因此,现在我正在尝试实现搜索机制。我必须使用Elasticsearch作
我已阅读Firebase Documentation并且不明白什么是 .contains()。 以下是文档中 Firebase 数据库的示例规则: { "rules": { "rooms"
我的问题是我可以给出条件[ 'BookTitleMaster.id' => $xtitid, ] 如下所示 $bbookinfs = $this->BookStockin->BookIssue->fi
我需要能够使用 | 检查模式在他们中。例如,对于像“dtest|test”这样的字符串,像 d*|*t 这样的表达式应该返回 true。 我不是正则表达式英雄,所以我只是尝试了一些事情,例如: Reg
我想创建一个正则表达式来不匹配某些单词... 我的字符:var test = "é123rr;and;ià456;or;456543" 我的正则表达式:test.match(\((?!and)(?!o
我在 XSLT 中有一个名为 variable_name 的变量,如果相关产品具有名称为 A 或 B 或两者均为 A & 的属性,我将尝试将其设置为 1 B.
您好,我想让接待员和经理能够查看工作类型和费率并随后进行更新。但是技术人员只能查看不能更新。该图是否有效? 我读到扩展用例是由发起基本用例的参与者发起的。我应该如何区分技术人员只能启动基本案例而不能启
我是一名优秀的程序员,十分优秀!