- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我有一个 utf-16 csv 文件,我正在尝试将其加载到 Pandas 中。默认情况下,数据以对象数据类型的形式出现。我计划对标题列进行一些建模,因此我想将列 df['caption'] 从对象转换为 unicode 字符串。目前我遇到以下错误'UnicodeEncodeError:'ascii'编解码器无法在位置6编码字符u'\u201c':序号不在范围(128)'df['caption']=df['caption'].astype(unicode).
我试图通过对 df['caption'] 列中的各个值使用编码和解码函数来解决这个问题,但我无法让它工作。
我对 pandas 和 unicode 很陌生,所以我想知道是否有人知道我做错了什么。
提前致谢。
邓丽君
补充信息如下:
回溯如下:
UnicodeEncodeError: Traceback (most recent call last)
<ipython-input-5-aad36f4acf38> in <module>()
10 print df['caption'].head(10)
11
---> 12 df['caption']=df['caption'].astype(unicode)
/opt/anaconda/envs/np18py27-1.9/lib/python2.7/site-packages/pandas/core/generic.pyc in astype(self, dtype, copy, raise_on_error)
2016
2017 mgr = self._data.astype(
-> 2018 dtype, copy=copy, raise_on_error=raise_on_error)
2019 return self._constructor(mgr).__finalize__(self)
2020
/opt/anaconda/envs/np18py27-1.9/lib/python2.7/site-packages/pandas/core/internals.pyc in astype(self, *args, **kwargs)
2414
2415 def astype(self, *args, **kwargs):
-> 2416 return self.apply('astype', *args, **kwargs)
2417
2418 def convert(self, *args, **kwargs):
/opt/anaconda/envs/np18py27-1.9/lib/python2.7/site-packages/pandas/core/internals.pyc in apply(self, f, *args, **kwargs)
2373
2374 else:
-> 2375 applied = getattr(blk, f)(*args, **kwargs)
2376
2377 if isinstance(applied, list):
/opt/anaconda/envs/np18py27-1.9/lib/python2.7/site-packages/pandas/core/internals.pyc in astype(self, dtype, copy, raise_on_error, values)
425 def astype(self, dtype, copy=False, raise_on_error=True, values=None):
426 return self._astype(dtype, copy=copy, raise_on_error=raise_on_error,
--> 427 values=values)
428
429 def _astype(self, dtype, copy=False, raise_on_error=True, values=None,
/opt/anaconda/envs/np18py27-1.9/lib/python2.7/site-packages/pandas/core/internals.pyc in _astype(self, dtype, copy, raise_on_error, values, klass)
442 # force the copy here
443 if values is None:
--> 444 values = com._astype_nansafe(self.values, dtype, copy=True)
445 newb = make_block(values, self.items, self.ref_items,
446 ndim=self.ndim, placement=self._ref_locs,
/opt/anaconda/envs/np18py27-1.9/lib/python2.7/site-packages/pandas/core/common.pyc in _astype_nansafe(arr, dtype, copy)
2222 return lib.astype_intsafe(arr.ravel(), dtype).reshape(arr.shape)
2223 elif issubclass(dtype.type, compat.string_types):
-> 2224 return lib.astype_str(arr.ravel()).reshape(arr.shape)
2225
2226 if copy:
/opt/anaconda/envs/np18py27-1.9/lib/python2.7/site-packages/pandas/lib.so in pandas.lib.astype_str (pandas/lib.c:12944)()
/opt/anaconda/envs/np18py27-1.9/lib/python2.7/site-packages/pandas/lib.so in pandas.lib.astype_str (pandas/lib.c:12862)()
UnicodeEncodeError: 'ascii' codec can't encode character u'\u201c' in position 6: ordinal not in range(128)
我的代码如下:
import pandas as pd
import numpy as np
df = pd.read_csv('Chevrolet_4-7-2014_cvid_data.csv',encoding='utf-16',header=0,na_values=['N/A',''],names=['channel','link','title','posted','views','likes','dislikes','description','category','statdate','statviews','timewatched','averagetw','subsdriven','shares','caption'])
print df.head(5)
print df.dtypes
print df['caption'].head(10)
df['caption']=df['caption'].astype(unicode)
数据如下所示:
channel link \
0 Chevrolet http://www.youtube.com/watch?v=dCayKZe6WvI
1 Chevrolet http://www.youtube.com/watch?v=IRXK35dPXbE
2 Chevrolet http://www.youtube.com/watch?v=XXdj4QMw748
3 Chevrolet http://www.youtube.com/watch?v=_ger32ROs94
4 Chevrolet http://www.youtube.com/watch?v=Chfm7Pou49k
5 Chevrolet http://www.youtube.com/watch?v=ySmEJyQ94BI
title posted views \
0 Chevy Open House Event: From Our House to Your... Apr 1 2014 73111
1 Truck Towing Capabilities: 2014 Silverado -- #... Mar 26 2014 11934
2 Potholes at the Milford Proving Grounds: Tips ... Mar 20 2014 8037
3 Diesel Trucks: Heavy Duty Strengths -- 2015 Si... Mar 20 2014 12096
4 Captain America: All in a Day's Work -- 2014 T... Mar 14 2014 93377
5 Media Blasting: Camaro Engineering -- 2014 Cam... Mar 13 2014 109931
likes dislikes description \
0 43 13 In March over 100000 people visited our Chevy ...
1 183 56 Farmer Dewayne Kleman and General Motors engin...
2 58 10 Chevrolet vehicles are carefully designed to w...
3 210 6 Introducing the all-new 2015 Silverado HD. The...
4 1095 35 From saving the world to working on math homew...
category statdate statviews timewatched averagetw subsdriven \
0 Autos & Vehicles NaN NaN NaN NaN NaN
1 Autos & Vehicles NaN NaN NaN NaN NaN
2 Autos & Vehicles NaN NaN NaN NaN NaN
3 Autos & Vehicles NaN NaN NaN NaN NaN
4 Autos & Vehicles NaN NaN NaN NaN NaN
shares caption
0 NaN The Chevy Spring Open House Sale the perfect ...
1 NaN 0:03 A Man And His Truck And An Engineer / To...
2 NaN 0:02 Severe Bump road sign 0:07 Pothole Facil...
3 NaN 0:03 And there's no stronger Silverado than t...
4 NaN 0:03 Are you doing anything fun Saturday nigh...
5 NaN 0:05 Camaro Z/28 logo 0:07 Z/28 Bead Lock 0:0...
[5 rows x 16 columns]
channel object
link object
title object
posted object
views object
likes int64
dislikes int64
description object
category object
statdate object
statviews float64
timewatched object
averagetw object
subsdriven float64
shares float64
caption object
dtype: object
0 The Chevy Spring Open House Sale the perfect ...
1 0:03 A Man And His Truck And An Engineer / To...
2 0:02 Severe Bump road sign 0:07 Pothole Facil...
3 0:03 And there's no stronger Silverado than t...
4 0:03 Are you doing anything fun Saturday nigh...
5 0:05 Camaro Z/28 logo 0:07 Z/28 Bead Lock 0:0...
Name: caption, dtype: object
最佳答案
您可以尝试将 dtype={'caption' : str}
添加到您的 read_csv()
调用中吗?喜欢:
df = pd.read_csv('Chevrolet_4-7-2014_cvid_data.csv',
encoding='utf-16',
header=0,
na_values=['N/A',''],
names=[...],
dtype={'caption' : str})
顺便说一句,pandas 默认使用 header=0
。并不是说我可以看到您的 CSV,但如果您使用 names
关键字参数,这可能是多余的,因为如果它们位于 CSV 的第 0 行,pandas 将自动使用这些列名。但无论如何,让我知道另一件事是否适合你。 :)
关于python - 统一码编码错误 : 'ascii' codec can't encode character u'\u201c' when converting series object to unicode in pandas with utf-16,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23117159/
我正在尝试使用 user guide 中的抓取示例运行 geb用于引入依赖项: $ cat my.groovy @Grapes([ @Grab("org.gebish:geb-core:0.9
我阅读了很多关于 opus-codec 的内容,但我不明白如何在我的示例 Java 应用程序中使用它。 是否有任何可用于 opus 的 .so 文件可以使用?如果没有,那么如何? 最佳答案 目前(在撰
我试图构建 Maven 项目, 每当我在命令行上运行“mvn clean install”时,都会出现以下错误: 无法解析项目 com.my_project:jar:0.0.1-SNAPSHOT 的依
我有一个项目需要 Lucene(4.3.0) 并添加以下依赖项:lucene-core,lucene-analyzers-common,lucene-queries,lucene-queryparse
我正在对 Controller 进行单元测试,目前我被服务(由 Controller 调用)中的“encodeAsJSON()”方法调用所困扰。 我得到了 MissingMethodException
无法弄清楚是什么原因导致 ' 名称为“Lucene42”的 org.apache.lucene.codecs.Codec 类型的 SPI 类不存在。您需要将支持此 SPI 的相应 JAR 文件添加到您
我想运行以下命令来使用 MongoDB Java 驱动程序创建用户, client = new MongoClient(mongoClientURI); MongoDatabase d
对于 lucene-core-5.5.2,我在 weblogic 服务器中遇到了问题 a。独立的搜索应用程序可以工作,但是当我部署为 WEB APP 时,它失败并出现以下错误 Exception ty
我的代码: DateTime dateTime = new DateTime(); BasicDBObject oldDoc = new BasicDBObject("email",email); B
我正在尝试在 Hibernate-ogm 中尝试 GridFS。这就是我的课 import org.hibernate.ogm.datastore.mongodb.type.GridFS; @Embe
我正在使用如下聚合: final List aggregations = new ArrayList<>(); Polygon polygon = new Polygon(new Po
我正在处理一个多模块 gradle 项目(12 个模块)。我继承了该项目,需要更新其中使用的一些库的版本。 我无法理解此错误的原因: ... 67 more Caused by: java.l
我正在使用 Java 学习 MongoDB。我正在尝试使用 Java 驱动程序将数据插入 MongoDB。我正在像 MongoDB 教程中一样进行插入,而且一切都很好。但是如果我想插入一个变量,当我运
我正在尝试打开并读取包含大量文本的 .txt 文件。下面是我的代码,我不知道如何解决这个问题。任何帮助将不胜感激。 file = input("Please enter a .txt file: ")
我使用 Arch Linux 和默认的 Python 3。我使用 Konsole 通过命令 pip install django-toolbelt 下载 django-toolbelt。名称: pip
我正在尝试使用 LibAV 解码 mpeg 视频文件。有两个术语我无法正确理解,镜框 和 数据包 . 按照我目前的理解,镜框 是未压缩的视频帧和 数据包是压缩帧。 问题 : 数据包有多个帧,对吗? 一
我正在查看计算机断层扫描 (CT) DICOM 图像。这些最初是未压缩的 DICOM 图像。我有这些 DICOM 图像的无损 J2K 压缩形式:传输语法 = 1.2.840.10008.1.2.4.9
如何安装通用编解码器?我已经下载了,但是我在网上搜索过,找不到这个问题的答案。我想使用 Base64 编码器和解码器。 还有 1 个问题,如果我的代码使用这个编解码器,其他尝试使用我的程序的用户是否也
本文整理了Java中loci.formats.codec.ZlibCodec类的一些代码示例,展示了ZlibCodec类的具体用法。这些代码示例主要来源于Github/Stackoverflow/Ma
本文整理了Java中hivemall.utils.codec.ZigZagLEB128Codec类的一些代码示例,展示了ZigZagLEB128Codec类的具体用法。这些代码示例主要来源于Githu
我是一名优秀的程序员,十分优秀!