gpt4 book ai didi

python - 带有来自 Pandas DataFrame 的数据的 Spacy NLP

转载 作者:太空宇宙 更新时间:2023-11-04 09:38:09 25 4
gpt4 key购买 nike

我有一个调查字符串响应的大型 pandas 数据框,我们想试用 Spacy 的 NLP 的一些功能。我们目前只是在探索这些功能,但正在努力解决如何将数据格式化为适用于 spacy 的 nlp 功能的格式。

最终,我们希望能够根据用户数据查看字符串响应中的热门主题。

如何在数据帧的列上运行 nlp 管道?还是我以错误的方式解决了这个问题?

最佳答案

您首先使用语言模型调用 spacy.load()。这将根据您选择的模型,为您选择的语言加载分词器、标注器、解析器、NER 和词向量。这存储在 spaCy 中名为 nlp 的变量中 documentation .

nlp = spacy.load(language_model)

我们现在可以用任何类型的文本字符串调用nlp()。那么,为什么 nlp(df['column_with_strings']) 不起作用?因为 df['column_with_strings'] 不是字符串,所以它是一个 pandas.Series:

TypeError: Argument 'string' has incorrect type (expected str, got Series)

所以您需要做的是对 pandas.Series 中的每个值调用 nlp()。您可以通过构建函数并使用 df['column_with_strings'].apply() 或遍历系列中的每一行来完成此操作。

关于python - 带有来自 Pandas DataFrame 的数据的 Spacy NLP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52891639/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com