gpt4 book ai didi

python - 有没有办法将 python pandas 数据框转换为 NLP 语料库或文档?

转载 作者:行者123 更新时间:2023-12-05 06:54:57 25 4
gpt4 key购买 nike

我有 3 个列 Smiles、Column 和 mobile phase。

我想将我的数据集转换为语料库作为训练数据集并应用 Gensim 模型。

这是我的数据集链接

https://drive.google.com/file/d/1S80I_5zkjJfeTzby7OjIqrs1vMJI6jVo/view?usp=sharing

我已经提到了这个 StackOverflow 问题,但无法工作

How to create corpus from pandas data frame to operate with NLTK

最佳答案

任何单词列表都可以转换为 TaggedDocument 列表并用于训练 doc2vec 模型。或者,您可以先将数据框的文本列拆分为单词列表,然后遍历输出 pandas 系列以创建 TaggedDocument 列表。这是您的数据集的示例用法。假设您将 pandas 数据框加载为 df,然后

output_ser = df.loc[:, 'Mobile Phase'].str.split(r'[/\s\\]+')
documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(output_ser)]
model = Doc2Vec(documents, vector_size=5, window=2, min_count=1, workers=1)

点击此链接 https://radimrehurek.com/gensim/models/doc2vec.html用法示例

关于python - 有没有办法将 python pandas 数据框转换为 NLP 语料库或文档?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65435027/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com