gpt4 book ai didi

nlp - 在 spacy 中读取文本文件的语料库

转载 作者:行者123 更新时间:2023-12-04 23:55:45 29 4
gpt4 key购买 nike

我看到的所有使用 spacy 的示例都只是在一个文本文件(很小)中读取。
如何将文本文件的语料库加载到 spacy 中?

我可以通过腌制语料库中的所有文本来使用 textacy 来做到这一点:

docs =  textacy.io.spacy.read_spacy_docs('E:/spacy/DICKENS/dick.pkl', lang='en')

for doc in docs:
print(doc)

但我不清楚如何使用这个生成器对象(文档)进行进一步分析。

另外,我宁愿使用 spacy,而不是 textacy。

spacy 也无法读取大的单个文件(约 2000000 个字符)。

任何帮助表示赞赏...

拉维

最佳答案

您只需一次读取一个文件。这是我通常对我的语料库文件做的事情:

import glob
import spacy
nlp = spacy.load("en_core_web_sm")
path = 'your path here\\*.txt'

for file in glob.glob(path):
with open(file, encoding='utf-8', errors='ignore') as file_in:
text = file_in.read()
lines = text.split('\n')
for line in lines:
line = nlp(line)
for token in line:
print(token)

关于nlp - 在 spacy 中读取文本文件的语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52467936/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com