gpt4 book ai didi

machine-learning - 是否有任何最佳实践来为基于文本的分类准备特征?

转载 作者:行者123 更新时间:2023-11-30 08:24:42 26 4
gpt4 key购买 nike

我们收到了许多来自客户的反馈和问题报告。它们是纯文本。我们正在尝试为这些文档构建一个自动分类器,以便 future 反馈/问题可以自动路由到正确的支持团队。除了文本本身之外,我认为我们应该将客户资料、案例提交区域等内容纳入分类器中。我认为这可以为分类器做出更好的预测提供更多线索。

目前,所有选择用于训练的特征都是基于文本内容的。如何包含上述元特征?

(顺便说一句,我对此很陌生。如果这个问题很琐碎,请原谅我。)

添加1

我目前的做法是首先对原始文本(包括标题和正文)进行一些典型的预处理,例如删除停用词、词性标记和提取重要词。然后,我将标题和正文转换为单词列表,并以某种稀疏格式存储它们,如下所示:

instance 1: word1:word1 count, word2: word2 count, ....

instance 2: wordX:word1 count, wordY: word2 count, ....

对于其他非文本功能,我计划将它们添加为单词“columns”之后的新列。所以最终的实例将如下所示:

instance 1: word1:word1 count, ... , feature X:value, feature Y:value

最佳答案

  1. 如果客户文件数据是二进制值(例如客户的性别),则特征可以设计为0,1,其中0代表男性,1代表女性。当特征具有多个值时,例如提交区域(假设我们这里有五个区域)。我们应该将其设计为具有五个维度的特征向量,例如[0 0 1 0 0],向量的每个维度表示该帖子是否来自该特定区域。在使用逻辑回归等分类器时,这种方法在实践中比使用具有多个值的特征更好

  2. 您正在使用称为词袋表示的功能。因为词袋是文档中单词的 tf,但是 tf 较高的单词是否应该比 tf 较低的单词更重要。我认为不是。在实践中,tf*idf 表现出更好的性能。

    idf (逆文档频率)是估计单词重要性的一种方法,通常,文档频率(df)是估计单词在分类中的重要性的好方法,因为当单词出现在较少的文档中时(nba 总是出现在属于体育类的文档)表现出更好的区分度,因此 idf 与单词重要性呈正相关。

关于machine-learning - 是否有任何最佳实践来为基于文本的分类准备特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22087407/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com