gpt4 book ai didi

dataframe - dask - CountVectorizer 返回 "ValueError(' 无法使用 `dask.delayed` 参数推断数据帧元数据')”

转载 作者:行者123 更新时间:2023-12-05 06:47:36 25 4
gpt4 key购买 nike

我有一个包含以下内容的 Dask Dataframe:

    X_trn                                               y_trn
0 java repeat task every random seconds p m alre... LQ_CLOSE
1 are java optionals immutable p d like to under... HQ
2 text overlay image with darkened opacity react... HQ
3 ternary operator in swift is so picky p questi... HQ
4 hide show fab with scale animation p m using c... HQ

我正在尝试使用 dask.ml 库中的 CountVectorizer。当我将 X_trn 传递给 fit_transform 时,我收到值错误“无法使用 dask.delayed 参数推断数据帧元数据”。

vectorizer = CountVectorizer()
countMatrix = vectorizer.fit_transform(training['X_trn'])

最佳答案

这个答案对于原作者来说可能来得太晚了,但仍然可以帮助其他人。答案其实在documentation我一开始也忽略了它:

The Dask-ML implementation currently requires that raw_documents is adask.bag.Bag of documents (lists of strings).

这个看似无辜的句子是你的问题。您传递的是 dask.dataframe 而不是 dask.bag.Bag of documents

import dask.bag as db
corpus = db.from_sequence(training['X_trn'], npartitions=2)

然后,您可以像之前一样将其传递给矢量化器:

 X = vectorizer.fit_transform(corpus)

关于dataframe - dask - CountVectorizer 返回 "ValueError(' 无法使用 `dask.delayed` 参数推断数据帧元数据')”,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67041516/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com