gpt4 book ai didi

tensorflow - 通过 feature_columns 使用 Dataset API 将自由文本特征引入 Tensorflow Canned Estimators

转载 作者:行者123 更新时间:2023-12-03 12:39:52 24 4
gpt4 key购买 nike

我正在尝试构建一个模型,它给出 reddit_score = f('subreddit','comment')

这主要是作为一个示例,我可以以此为基础构建一个工作项目。

我的密码是here .

我的问题是我看到 jar 头估算器,例如DNNLinearCombinedRegressor必须具有属于 FeatureColumn 类的 feature_columns。

我有我的 vocab 文件并且知道如果我只限制评论的第一个词我可以做类似的事情

tf.feature_column.categorical_column_with_vocabulary_file(
key='comment',
vocabulary_file='{}/vocab.csv'.format(INPUT_DIR)
)

但是,如果我传递的是评论中的前 10 个单词,那么我不确定如何从像 "this is a pre padded 10 word comment xyzpadxyz xyzpadxyz" 这样的字符串转到一个 feature_column 这样我就可以构建一个嵌入以传递给一个广泛而深入的模型中的 deep 特征。

看起来它一定是非常明显或简单的东西,但我终其一生都找不到具有此特定设置的任何现有示例( jar 装的广度和深度,数据集 api,以及功能的混合,例如 subreddit 和 raw评论等文本功能)。

我什至考虑自己进行词汇整数查找,这样我传入的 comment 功能将类似于 [23,45,67,12,1,345,7,99,999,999] 然后也许我可以通过带有形状的 numeric_feature 获取它,然后从那里用它做一些事情。但这感觉有点奇怪。

最佳答案

您可以使用 tf.string_split(),然后执行 tf.slice() 对其进行切片,注意 tf.pad() 首先处理带有零的字符串。看标题中的预处理操作: https://towardsdatascience.com/how-to-do-text-classification-using-tensorflow-word-embeddings-and-cnn-edae13b3e575

一旦有了词,就可以创建十个特征栏

关于tensorflow - 通过 feature_columns 使用 Dataset API 将自由文本特征引入 Tensorflow Canned Estimators,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49861235/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com