gpt4 book ai didi

python - python3 nltk word_tokenize() 有字符串长度限制吗?

转载 作者:太空宇宙 更新时间:2023-11-04 04:10:05 25 4
gpt4 key购买 nike

我有一个字典,包含一个数据库主键和一个字符串。

self.mydict = {
1:'a small example'
,2:'some sentence'
,3:'a very long string around 30k characters'
}

对于字符串长度<1000 的键值对,一切都按照我的预期进行标记化。
对于一些非常大的字符串(长度 = 30,000),分词器在我的 csv 输出中返回多条虚线。

def write_data(self):
headers=[]
for x,y in self.mydict.items():
headers.append([word_tokenize(y)])
print(len(y))

with open(self.outputdata, 'w', encoding='utf-8', newline='') as f:
writer = csv.writer(f)
for item in headers:
writer.writerow(item)

将我的结果写入 csv,我得到以下信息:

['a','small','example']
['some','sentence']
['a','very','long',
string','around','30k','characters']"

所以 30k 长度的字符串由于某种原因中断了,并且似乎分成了另一行。我可以截断字符串的前 ~1000 个字符,这个问题就消失了,但我更愿意保留长字符串,因为我正在进行自然语言处理。这个错误是由于字符串的长度还是我编写 csv 的方式造成的?

最佳答案

不,NLTK 的word_tokenize() 函数没有字符串长度限制。

但是csv.writer 对字段大小有限制,参见https://docs.python.org/3.4/library/csv.html?highlight=csv#csv.field_size_limit

关于python - python3 nltk word_tokenize() 有字符串长度限制吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56451430/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com