gpt4 book ai didi

python - 如何导入文本文件以适合此聚类算法?

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:21:16 25 4
gpt4 key购买 nike

我有 900 个 .txt 文件(所有这些都是美国总统的演讲)保存在我的 U:/驱动器上的一个文件夹中。我希望按照此处给出的示例运行一些文档集群:http://brandonrose.org/clustering .在他的示例中,作者使用了来自 nltk 的给定存储库。如何导入我的文本文件以正确运行此算法?

最终,我会尝试根据总统说话的方式对总统进行分组,因此最好有五六个总统集群以及属于这些集群的总统列表。

最佳答案

如果可以使用glob模块获取每一个文件名,然后将它们的内容读入字符串:

import glob

for filename in glob.glob("somefolder/*.txt"):
with open(filename, 'r') as inputFile:
filecontent = inputFile.read();

从现在开始,您可以使用变量 filenamefilecontent 来创建对象列表(很可能是字典),然后您可以按照您链接的教程进行操作。

关于python - 如何导入文本文件以适合此聚类算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33634432/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com