gpt4 book ai didi

python - 如何使用tensorflow进行文本分类?

转载 作者:行者123 更新时间:2023-11-30 09:03:33 25 4
gpt4 key购买 nike

我是 tensorflow 和机器学习的新手。我在编写 tensorflow 代码时遇到问题,该代码的文本分类类似于我尝试使用 sklearn 库进行的文本分类。我在对数据集进行矢量化并向 tensorflow 层提供输入方面面临着重大问题。

我确实记得对标签进行了一次热编码,但是前面的 tensorflow 层不接受创建的数组。请注意,我已经阅读了 stackoverflow 上大部分文本分类回答的问题,但它们太具体或需要解决的复杂需求。我的问题案例太狭窄,需要非常基本的解决方案。

如果有人能告诉我类似于我的 sklearn 机器学习算法的步骤或 tensorflow 代码,那将会有很大的帮助。

所使用的数据集可在以下位置获取:https://www.kaggle.com/virajgala/classifying-text


from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline

#Reading the csv dataset
df = pd.read_csv(('/Classifyimg_text.csv'), index_col=False).sample(frac=1)

#Splitting the dataset
train_data, test_data, train_labels, test_labels = train_test_split(df['sentence'], df['label'], test_size=0.2)

#Vectorization and Classification
streamline = Pipeline([('vect', TfidfVectorizer(max_features=int(1e8))),
('clf', SGDClassifier())]).fit(train_data, train_labels)

#Prediction
Output = streamline.predict(["This is my action to classify the text."])

最佳答案

如果你想获得开创性的分数,我宁愿使用一些嵌入器。自然语言是相当超维的。如今有很多预训练的架构。因此,您只需将文本编码到潜在空间,然后根据这些特征训练您的模型。一旦有了数值特征向量,应用重采样技术也会容易得多。

我自己主要使用 Facebook 的 LASER embedder。了解更多相关信息here 。有非官方的pypi包,效果很好。此外,您的模型将可以开箱即用地处理数十种语言,这非常可爱。

还有BERT来自 Google,但预训练模型相当简单,因此您必须先进一步推进它。

关于python - 如何使用tensorflow进行文本分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58856515/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com