gpt4 book ai didi

python - 使用 Python 的 Apache Spark TFIDF

转载 作者:行者123 更新时间:2023-11-30 22:58:02 25 4
gpt4 key购买 nike

Spark 文档声明使用 HashingTF 功能,但我不确定转换函数期望什么作为输入。 http://spark.apache.org/docs/latest/mllib-feature-extraction.html#tf-idf

我尝试运行教程代码:

from pyspark import SparkContext
from pyspark.mllib.feature import HashingTF

sc = SparkContext()

# Load documents (one per line).
documents = sc.textFile("...").map(lambda line: line.split(" "))

hashingTF = HashingTF()
tf = hashingTF.transform(documents)

但我收到以下错误:

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/salloumm/spark-1.6.0-bin-hadoop2.6/python/pyspark/ml/pipeline.py", line 114, in transform
return self._transform(dataset)
File "/Users/salloumm/spark-1.6.0-bin-hadoop2.6/python/pyspark/ml/wrapper.py", line 148, in _transform
return DataFrame(self._java_obj.transform(dataset._jdf), dataset.sql_ctx)
AttributeError: 'list' object has no attribute '_jdf'

最佳答案

根据您显示的错误,很明显您没有遵循教程或使用问题中包含的代码。

此错误是使用 from pyspark.ml.feature.HashingTF 而不是 pyspark.mllib.feature.HashingTF 造成的。只需清理您的环境并确保使用正确的导入即可。

关于python - 使用 Python 的 Apache Spark TFIDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36376135/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com