python - 将 .csv 文件从 URL 读取到 Python 3.x - _csv.Error : iterator should return strings, not bytes(您是否以文本模式打开文件？)-6ren

python - 将 .csv 文件从 URL 读取到 Python 3.x - _csv.Error : iterator should return strings, not bytes(您是否以文本模式打开文件？)

转载作者：IT老高更新时间：2023-10-28 22:11:30

24

4

我已经为这个简单的问题苦苦挣扎了太久，所以我想我会寻求帮助。我正在尝试将国家医学图书馆 ftp 站点的期刊文章列表读入 Python 3.3.2(在 Windows 7 上)。期刊文章位于 .csv 文件中。

我已经尝试了以下代码:

import csv
import urllib.request

url = "ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/file_list.csv"
ftpstream = urllib.request.urlopen(url)
csvfile = csv.reader(ftpstream)
data = [row for row in csvfile]

这会导致以下错误:

Traceback (most recent call last):
File "<pyshell#4>", line 1, in <module>
data = [row for row in csvfile]
File "<pyshell#4>", line 1, in <listcomp>
data = [row for row in csvfile]
_csv.Error: iterator should return strings, not bytes (did you open the file in text mode?)

我认为我应该使用字符串而不是字节？对于这个简单问题的任何帮助以及对出了什么问题的解释将不胜感激。

最佳答案

问题依赖于 urllib 返回字节。作为证明，您可以尝试使用浏览器下载 csv 文件并将其作为常规文件打开，问题就消失了。

解决了类似的问题 here .

可以通过适当的编码将字节解码为字符串。例如:

import csv
import urllib.request

url = "ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/file_list.csv"
ftpstream = urllib.request.urlopen(url)
csvfile = csv.reader(ftpstream.read().decode('utf-8'))  # with the appropriate encoding 
data = [row for row in csvfile]

最后一行也可以是:data = list(csvfile)，这样更容易阅读。

顺便说一句，由于 csv 文件非常大，它可能会很慢并且会消耗内存。也许最好使用生成器。

编辑:使用 Steven Rumbalski 提出的编解码器，因此无需读取整个文件进行解码。内存消耗减少，速度提高。

import csv
import urllib.request
import codecs

url = "ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/file_list.csv"
ftpstream = urllib.request.urlopen(url)
csvfile = csv.reader(codecs.iterdecode(ftpstream, 'utf-8'))
for line in csvfile:
    print(line)  # do something with line

请注意，该列表也不是出于同样的原因而创建的。

关于python - 将 .csv 文件从 URL 读取到 Python 3.x - _csv.Error : iterator should return strings, not bytes(您是否以文本模式打开文件？)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18897029/

24

4

0

文章推荐： node.js - 如何停止执行 node.js 脚本？

文章推荐： python - 如何按任务名称检查和取消 Celery 任务

文章推荐： python - SimpleNamespace 和空类定义有什么区别？

文章推荐： python - 如何将向量拆分为列 - 使用 PySpark

Java:if-return-if-return vs if-return-elseif-return
询问 unrelated question我有这样的代码: public boolean equals(Object obj) { if (this == obj) retur
javascript - Javascript : Nested Return Statement, return inside Return
在我之前的一个问题中 js: Multiple return in Ternary Operator我询问了有关使用三元运算符返回多个参数的问题。但是现在参数IsActveUser boolean(t
python - 使用 if-return-return 还是 if-else-return 效率更高？
假设我有一个带有 return 的 if 语句。从效率的角度来看，我应该使用 if(A > B): return A+1 return A-1 或 if(A > B): return
c - return 1, return 0, return -1 和 exit 的区别？
例如考虑以下代码: int main(int argc,char *argv[]) { int *p,*q; p = (int *)malloc(sizeof(int)*10); q
python - `with return .. return` 是无法访问的代码吗？
PyCharm 对这段代码发出警告，说最后一个返回是不可访问的: def foo(): with open(...): return 1 return 0 如果 ope
c# - ExceptionHandling : If controller method returns json then return json, if View then return Redirect
我想实现这样的目标: 如果在返回 Json 的方法中抛出异常，则返回 new Json(new { success = false, error = "unknown"}); 但如果方法返回 View
javascript - JS 模块 : Difference between directly returning a function in an object and returning a function in an object returning a function
它是多余的，但我正在学习 JS，我想知道它是如何工作的。直接从模块返回函数 let func1 = function () { let test = function () {
java - Spring MVC Controller : what is the difference between "return forward", "return redirect"和 "return jsp file"
我不明白我应该使用什么。我有两页 - intro.jsp(1) 和 booksList.jsp(2)。我为每一页创建了一个 Controller 类。第一页有打开第二页的按钮:
php - $this->return 和 return 的区别
我最近在 Joomla 组件(Kunena，更准确地说是 Kunena)中看到这段代码，那么使用 $this->return VS 简单的 return 语句有什么区别. 我已经用谷歌搜索了代码，但没
c# - 获取枚举器 : return or yield return
我的类实现了 IEnumerable。并且可以编译这两种方式来编写 GetEnumerator 方法: public IEnumerator GetEnumerator() { yield r
java - return() 和简单 return 之间的区别
我只是在编码，我想到了一个简单的想法(显然是问题)，如果我有一个像这样的函数: int fun1(int p){ return(p); } 我有一个这样的函数: int fun1(int p){
javascript - return[] 和 return() 的区别
这个问题在这里已经有了答案: What does the comma operator do in JavaScript? (5 个答案) 关闭 9 年前。 function makeArray
python - "Return"in Function only Returning Value
假设我写了一个 for 循环，它将输出所有数字 1 到 x: x=4 for number in xrange(1,x+1): print number, #Output: 1 2 3 4 现
c++ - return 语句中可以省略 return 关键字吗？
我最近在这个 Apache Axis tutorial example. 中看到了下面的一段代码 int main() { int status = AXIS2_SUCCESS; ax
javascript - return 后跟大括号和 return 后跟下一行大括号的区别
function a(){ return{ bb:"a" } } and function a(){ return { bb:"a" } } 这两个代码有什么区别吗，如果有请
javascript - return 和 return() 有什么区别？
function a() { return 1; } function b() { return(1); } 我在 Chrome 的控制台中测试了上面的代码，都返回了 1。 function c()
python - return，return None，根本不返回？
考虑这三个函数: def my_func1(): print "Hello World" return None def my_func2(): print "Hello World"
Test return value and return(测试返回值和返回)
这可能是一个愚蠢的问题，但我正在努力，如果有一种简明的方法来测试函数的返回结果，如果它不满足条件，则返回该值(即，传递它)。。现在来回答一个可能的问题，是的，我正在寻找的类似于例外提供的东西。然而，作
powershell - 为什么 (return) 和 return 不同？
我正在测试一个函数，并尝试使用 return 来做什么，并在 PowerShell 5.1 和 PwSh 7.1 中偶然发现了一个奇怪的问题，即 return cmdlet似乎不适合在团体中工作: P
python - "return"和 "return None"生成器中的行为差异
这个问题已经有答案了: Return in generator together with yield (2 个回答) Why can't I use yield with return? (5 个回

首页

博学

6Ren·AI

商城

python - 将 .csv 文件从 URL 读取到 Python 3.x - _csv.Error : iterator should return strings, not bytes(您是否以文本模式打开文件？)