- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一家商店,里面有 26597 种独特的产品。
我用来将产品导入商店的数据如下所示:
{
"description":"AH Uien rood",
"category":"/Aardappel, groente, fruit/Kruiden, uien, knoflook/Uien/",
"brand":"AH"
}, {...}
26597 种产品中有 530 种不具有品牌
值(value)。然而,品牌名称出现在描述中。对于上面的示例产品,在 "description":"AH Uien rood"
中,AH
是 的品牌名称。品牌名称始终是描述中的前 1 个以上单词。但品牌名称的长度和字号各不相同,并且之间通常有空格。因此,我不能简单地从描述中提取第一个单词并将其指定为产品品牌名称。
我想我应该使用机器学习来帮助我根据描述和类别对产品品牌名称进行分类。
这是我第一次真正体验机器学习,我决定使用 ai4r ruby 。它看起来不错,维护良好且记录正确 here .
对于 530 个产品,只有 13 个得到分类,其余返回错误:
Ai4r::Classifiers::ModelFailureError: There was not enough information during training to do a proper induction for the data element ...
不太明白,用于训练模型的DATA_SET
的大小是25266。
这就是我的代码:
require 'json'
require 'open-uri'
require 'csv'
require 'ai4r'
r = JSON.parse(open('http://goo.gl/2IHtVU') {|f| f.read }.force_encoding('UTF-8'))
def extract_categories(product)
a = product['category'].split('/')
a.delete('')
b = []
a.each { |category| b << category.gsub(',', ' -') }
c = b.join(', ')
end
nb = []
r.each {|p| nb << p if p['brand'].nil? }
DATA_LABELS = ["title", "category", "brand"]
DATA_SET = []
r.each {|pnb| DATA_SET << [pnb['description'], extract_categories(pnb), pnb['brand']] unless pnb['brand'].nil? || pnb['category'].nil? }
data_set = Ai4r::Data::DataSet.new(:data_items=>DATA_SET, :data_labels=>DATA_LABELS)
id3 = Ai4r::Classifiers::ID3.new.build(data_set)
classified = []
nb.each do |pnb|
begin
classified << id3.eval([ pnb['description'], extract_categories(pnb) ])
rescue => e
puts 'There was not enough information during training to do a proper induction for the data element, moving on...'
end
end
classified.size
# => 13
# Save DATA_SET to csv
# CSV.open('/data_set.csv','wb', :quote_char => '"', encoding: "UTF-8") do |csv|
# csv << DATA_LABELS
#
# DATA_SET.each do |data|
# csv << [data[0], data[1], data[2]]
# end
# end
#
# => https://gist.github.com/narzero/ba8c521a370326a57a68
根据描述对产品品牌名称进行分类的更好方法是什么?
最佳答案
在这种情况下,我会选择朴素贝叶斯分类器而不是决策树。它有一颗 gem 。 stuff-classifier
在下面的代码中,我使用 gem 训练了您的数据集,并对 10 个随机条目进行了分类。我使用描述进行训练,而不是类别。看看表现如何。否则,您可以通过将类别组合到描述中来包含类别,但在类别标记前面添加类似 cattt 的内容,以将类别标记与描述区分开来。
require 'json'
require 'open-uri'
require 'stuff-classifier'
r = JSON.parse(open('data_file.json') {|f| f.read }.force_encoding('UTF-8'))
def extract_categories(product)
a = product['category'].split('/')
a.delete('')
b = []
a.each { |category| b << category.gsub(',', ' -') }
c = b.join(', ')
end
nb = []
r.each {|p| nb << p if p['brand'].nil? }
DATA_LABELS = ["title", "category", "brand"]
DATA_SET = []
r.each {|pnb| DATA_SET << [pnb['description'], extract_categories(pnb), pnb['brand']] unless pnb['brand'].nil? || pnb['category'].nil? }
cls = StuffClassifier::Bayes.new("Prodcut Label")
#train the classifier by feeding it the label and then the features
DATA_SET.each do |record|
begin
cls.train(record[2], record[0])
rescue
end
end
# print 10 random classifications
1.upto(10){
random_entry = DATA_SET.sample[0]
puts "#{random_entry} - Classified as - #{cls.classify(random_entry)}"
}
结果:
Organix Goodies sceezy banaan、aardbei 和 zuivel - 分类为 - Organix
AH Dames 时尚弹性 zwart maat M => John Cabot/AH
Piramide Sterrenmix 公平贸易 => - Piramide
皇家具乐部苦柠檬 => 皇家具乐部
AH Fruitbiscuit 酸奶/aardbei => AH
Toni & Guy 面膜重建治疗 => Toni & Guy
AH Kinder enkelsok wit mt 23-26 => 啊
Theramed Aardbei Junior 6+ jaar => Theramed
Arla Bio Drinkyoghurt limoen/munt => Arla
AH RauwkostAmsterdamse ui => AH
关于ruby - 如何使用机器学习对产品的品牌名称进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26438047/
如果有人问过这个问题,我深表歉意,但如果用户缩小他们的显示,我会尝试将我的导航栏居中。 现在,我将导航栏项 float 到右侧,将品牌 float 到左侧以进行大型显示。当显示缩小时,它们保留在右侧和
是否可以在不修改/从源代码构建的情况下更改 Eclipse 品牌?喜欢: 更改启动画面 更改启动器/exe 名称和图标 换盒子 更改应用程序窗口标题 在从 eclipse 网站下载的 Eclipse
我曾尝试在没有 YouTube 品牌的情况下嵌入视频,因为它会将我的流量发送到 YouTube。我设置了 modestbranding=1 和 showinfo=0 但当我将光标悬停在播放器上时,我仍
我是 JSF 的新手,不知道如何在我的 Bootsfaces 导航栏中为我的图像添加链接。 图像文件夹中。 最佳答案 brandImg 只是要显示的图像的 URL。它可以是相对的也
我以前使用 Xcode 6.1.1,今天我安装了 Xcode 7.3 beta 3,它给出了一些警告,其中之一是“Brand Assets”,如下图所示。 我将我的图标添加到 AppIcon,一切正常
我正在使用 这会删除右侧底部的“Youtube” Logo 。并且还删除了悬停时出现的“标题栏”。 但这个问题是,当我将鼠标悬停在视频上时,然后在右侧底部“Youtube”缩略图/文本后面出现,当我
这是我的想法(原谅 Django 格式): class VehicleMake(Model): name = CharField(max_length=50) class VehicleMod
几天前我开始学习图像识别,我想做一个需要识别 Android 中不同品牌 Logo 的项目。 例如:如果我在 Android 设备中拍摄 Nike 标志的照片,那么它需要显示“Nike”。 低计算时间
我正在使用 mysql 查询返回适合 php 中某些汽车的产品数组,如下所示; array { [0]=> array(3) { ["sku"]=> string(16) "123a "
只是想让你知道,到今天为止我对 Bootstrap 还是个新手。我以前有使用 HTML/CSS 的经验,所以我决定尝试学习一些新东西,然后我直接进入了 Bootstrap 4 的深层次,跳过了 3(我
我正在尝试在我正在构建的网站上收紧 HTML5。导航和 Logo 需要在顶部栏中,我包括一个 slider 、引号和一些按钮。我不确定 header 是否真的应该包含引述或按钮。 如果不是,我真的需要
我创建了一个 Blazor WASM 项目。 它正在使用身份验证,并为此导航到身份区域中它自己的服务器端页面。 我试图搭建这些页面以更改导航栏上的标题,但我无法弄清楚。 它当前显示项目名称(即 Bla
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
有人知道是否有办法为 Azure AD B2C 发送的电子邮件添加品牌吗? 本页https://learn.microsoft.com/en-us/azure/active-directory-b2c
谁知道Mifare 1K card中写入和读取数据的代码是什么? ??我们使用 C#。 最佳答案 来自 DreamInCode , 查看 Goethals 的评论: "Pretty hard to f
我找到了很多解决这个主题的帖子,但是我的代码仍然遇到问题: 我有 first.png 是黑白的,second.png 是彩色的。我需要在悬停时为当前品牌着色。可以找到示例:h
我正在尝试使用 React Bootstrap 在我的 React 应用程序上创建一个与导航栏一起使用的 Logo ,并且我使用了 documentation as a guide .但是,当使用lo
我需要使用自定义产品名称构建基于 android chromium 的自定义浏览器。 我找到了配置文件(src/chrome/app/theme/chromium/BRANDING)并更改了 PROD
我想知道如何将品牌应用到 CRM 2011 网站? 我正在考虑添加一个客户横幅来代替放置在每个页面顶部的当前 Microsoft Dynamics CRM Logo (在顶部功能区上方的 div 中)
我有一个相当简单的查询,用于获取车辆属性,例如年份、品牌和型号。目前的数据看起来与此类似...: +------+------+-----------+-------+----------+-----
我是一名优秀的程序员,十分优秀!