gpt4 book ai didi

python - 保留LDA pca的csv特征标签

转载 作者:行者123 更新时间:2023-12-01 01:22:38 24 4
gpt4 key购买 nike

我正在尝试使用 https://github.com/wwbp/facebook_topics/tree/master/csv 处的 2000 个主题的前 20 个频率数据

我想对数据执行随机 PCA。从文档来看,X 需要是类似数组的形状 (n_samples, n_features) 。

我已使用 LDA_topics = pd.read_csv(r'2000topics.top20freqs.keys.csv', header=None, index_col=0, error_bad_lines=False) 导入文件

但是,这不是以下行的正确格式:

pca2 = sklearn.decomposition.RandomizedPCA(n_components=45)
pca2.fit(LDA_topics)

导致 ValueError:无法将字符串转换为 float :'sonic'

有没有办法执行 PCA 并保留特征标签,而不仅仅是频率?

最佳答案

PCA 不会丢弃或保留特征,但组件结果也不会映射到特征。 (给定 xyzn_components=2 参数,生成的两个组件将不会映射完美地连接到任何 xyz 。)如果您想保留特征名称作为降维的一部分,您可能需要探索其他方法 ( sklearn has a whole section for this )。

Chuck Ivan 是正确的,在进行 PCA 之前需要编码器或矢量化器。我喜欢他的 OrdinalEncoder 建议,但您也可以考虑此列表中的 sklearn 文本实用程序:https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction.text

关于python - 保留LDA pca的csv特征标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53661114/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com