gpt4 book ai didi

java - 网页的二进制分类

转载 作者:塔克拉玛干 更新时间:2023-11-02 08:23:47 25 4
gpt4 key购买 nike

我们有兴趣对网络上出现的网页进行二进制分类,例如电子商务与非电子商务。

目前,我们正在使用带有朴素贝叶斯算法的 Mahout 库。我们正在根据现有的分类 URL 和相同的特征集创建训练数据。

就执行此任务的准确性而言,最好的方法是什么?

我需要算法、库(可与 JAVA 一起使用)或有助于此类分类的任何更好的想法方面的帮助。

提前致谢。

最佳答案

这个问题很笼统,所以我只能添加一般信息。

提高分类质量的方法是(按重要性排序):

  • 使用词形还原和/或 Stemming只使用基本词形式
  • 实现单词过滤器以删除无用的单词
  • 为不同的语言训练单独的分类器

关于java - 网页的二进制分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8848204/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com