gpt4 book ai didi

machine-learning - 机器学习的特征选择

转载 作者:行者123 更新时间:2023-11-30 08:33:23 25 4
gpt4 key购买 nike

我正在对网站进行分类。任务之一是过滤掉色情内容。我使用的是带有词袋的二元 SVM 分类器。我对 BoW 中应该包含的单词有疑问:它应该只是与色情相关的单词(色情网站上常见的单词)还是还应该包括在色情网站上很少找到但在其他网站上经常出现的单词,例如嗯(例如,“数学”、“工程”、“吉他”、“出生”等)?

我遇到的问题是医学和家庭相关网站上的误报。如果我只查找与色情相关的单词,那么此类网站的向量最终会非常稀疏。像“性”这样的词出现得相当频繁,但都是在完全无辜的上下文中出现。

我还应该包含非色情词吗?或者我应该寻找其他方法来解决误报?欢迎提出建议。

最佳答案

另一种可能的方法是专门为色情网站制作一个语言模型。我认为,如果您有 n 元语法(例如 3 元语法),应该更容易识别特定单词“性”是否与色情或其他领域相关。

理论上的猜测:如果你有这样的语言模型,你甚至不需要分类器。 (困惑度、n-gram 的可能性应该足以决定......)

关于machine-learning - 机器学习的特征选择,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14023474/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com