gpt4 book ai didi

algorithm - 机器学习/人工智能 - 根据值/模式对列进行分类

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:42:40 28 4
gpt4 key购买 nike

我一直在尝试一些框架和算法,但我找不到一个可以做我想做的事情——根据值对数据列进行分类。

我尝试使用贝叶斯算法,但它不是很精确,因为我不能期望正在搜索的数据在训练集中 - 但我可以期望模式在训练中。

我没有机器学习/人工智能方面的背景,但在真正深入实现之前,我一直在寻找一些工作示例。

我构建了一个较小的 ARFF 来举例说明。还尝试了很多 Weka 分类算法,但没有一个能给我很好的结果。

@relation recommend

@attribute class {name,email,taxid,phone}
@attribute text String

@data
name,'Erik Kolh'
name,'Eric Candid'
name,'Allan Pavinan'
name,'Jubaru Guttenberg'
name,'Barabara Bere'
name,'Chuck Azul'
email,'erik@gmail.com'
email,'steven@spielberg.com'
email,'dogs@cats.com'
taxid,'123611216'
taxid,'123545413'
taxid,'562321677'
taxid,'671312678'
taxid,'123123216'
phone,'438-597-7427'
phone,'478-711-7678'
phone,'321-651-5468'

我的期望是像上面那样训练一个巨大的数据集,并根据模式获得推荐,例如:

joao@bing.com -> email
Joao Vitor -> name
400-123-5519 -> phone

您能否建议任何算法、示例或想法进行研究?我找不到合适的词,也许只是词汇量不足。

谢谢!

最佳答案

您尝试做的事情称为命名实体识别 (NER)。 Weka 在这里很可能不是真正的帮助。 Mallet 库 ( http://mallet.cs.umass.edu ) 可能是一个不错的选择。我会推荐一种基于条件随机场 (CRF) 的方法。

如果您想继续使用 weka,则需要更改您的特征空间。然后 Naive bayes 将按照所提供的方式处理您的数据例如。添加功能

  • 单词是否只有字符
  • 是否是字母数字
  • 是否为数值型数据
  • 数字的数量,
  • 是否开始大写
  • ...(只要有创意)

关于algorithm - 机器学习/人工智能 - 根据值/模式对列进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35500837/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com