gpt4 book ai didi

python - 如何从 unicode (utf-8) csv 文件导入 numpy 数组

转载 作者:行者123 更新时间:2023-12-01 06:08:30 25 4
gpt4 key购买 nike

我并不是想聪明或快速地做到这一点,只是想完全做到这一点。

我有一个如下所示的文件:

$ cat all_user_token_counts.csv  
@5raphaels,in,15
@5raphaels,for,15
@5raphaels,unless,11
@5raphaels,you,11

我知道它的 uncode utf-8 编码,因为我创建了它,就像这样

    debug('opening ' + ALL_USER_TOKEN_COUNTS_FILE)
file = codecs.open(ALL_USER_TOKEN_COUNTS_FILE, encoding="utf-8",mode= "w")
for (user, token) in tokenizer.get_tokens_from_all_files():
#... count tokens ..
file.write(unicode(username +","+ token +","+ str(count) +"\r\n"))

我想将它读入一个 numpy 数组,所以它看起来像这样,或者其他东西..

   array([[u'@5raphaels', u'in', 15],
[u'@5raphaels', u'for', 11],
[u'@5raphaels', u'unless', 11]],
dtype=('<U10', '<U10', int))

当我在写这个问题的过程中进行实验时,我发现这甚至可能不可能?如果是这样,我很想知道!

提前致谢!

最佳答案

这可以通过 np.loadtxt 轻松完成:

import numpy as np
arr=np.loadtxt('all_user_token_counts.csv',delimiter=',',
dtype = '|U10,<U10,int')
print(arr)

# [(u'@5raphaels', u'in', 15) (u'@5raphaels', u'for', 15)
# (u'@5raphaels', u'unless', 11) (u'@5raphaels', u'you', 11)]

关于python - 如何从 unicode (utf-8) csv 文件导入 numpy 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6911044/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com