gpt4 book ai didi

java - 如何以编程方式查找网址是电子商务网站还是非电子商务网站?

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:33:35 25 4
gpt4 key购买 nike

在一个项目中有一个模块获取一个 URL 并确定它是“电子商务”还是“非电子商务”网站。

我尝试了以下方法:

  1. 使用 Apache mahout,分类:URL ---> 获取 html 转储 ---> 预处理 html 转储a) 删除所有 html 标签

    b) 删除停用词(也称为常用词),如 CDATA、href、value 和、of、between 等。

    c) 训练模型然后测试它。

以下是我用于训练的参数

bin/mahout trainclassifier \ -i training-data \ -o bayes-model \ > -type bayes -ng 1

测试:

/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential

我的准确率达到 73%,而 cbayes 算法达到 52%。

我正在考虑通过提取电子商务网站中的信息来改进预处理阶段,例如“结帐按钮”、“pay pal 链接”、“价格/美元符号”、“货到付款”等文本、“30 天”保证”等

关于如何提取此信息或任何其他方式来预测网站是电子商务还是非电子商务的任何建议?

最佳答案

我很惊讶你只用简单的 html 提取和贝叶斯分类器就获得了如此好的准确性。

但您似乎在正确的轨道上使用了结帐按钮和价格等功能。

这是我昨天在阅读 Yandex 时发现的一篇论文:

"To find out or to buy? Product review vs. Web shop classifier"

它是关于如何区分这两个站点以及它们使用的一些技术。他们还使用 SVM 代替朴素贝叶斯。

关于java - 如何以编程方式查找网址是电子商务网站还是非电子商务网站?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8961953/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com