gpt4 book ai didi

machine-learning - 机器学习-按内容将网页分类为地址和无地址

转载 作者:行者123 更新时间:2023-11-30 09:37:52 25 4
gpt4 key购买 nike

目前我正在使用 azure 机器学习。我使用两种类型的数据集训练我的机器学习,它们只不过是带地址和不带地址的网页内容

训练输入:

i.e)
this is a address no 24/5 address
this is no address no-address

我正在使用二类贝叶斯分类来对它们进行分类,如果我应该使用任何其他方法

给定输入:

i.e)
This a address 12/4

获得的输出:

i.e)
content score probability
This a address 12/4 no-address 0.54

预期输出:

i.e)
content score probability
This a address 12/4 address with higher probability

我的实验如下:

enter image description here

最佳答案

您需要使用Feature Hashing模块将文本转换为单词特征。然而,这可能还不够,因为文字并不是解决您的问题的好特征。您可能想要对文本进行一些处理并创建更有用的功能(也许检测邮政编码的存在、数字的位置等...)

编辑:使用原始文本列作为一项功能不会给您带来任何好处。您不希望您的模型按照地址的书写方式来学习地址。相反,您需要学习文本中的模式,为地址实例与非地址实例提供证据。当您使用特征哈希时,文本列将转换为多个单词(或 n-gram)列,其中值表示每个文本输入中这些单词的计数。这里的问题是过度拟合。例如,这两个地址没有共同词:“100 Broadway St, GA”和“200 main rd, NY”但很明显它们具有相似的结构。创建“有用特征”的一种方法是用标签替换单词:“#NUM #TXT, #STATE”,并使用特征哈希(二元组)来创建诸如“#NUM #TXT”和“, #STATE”之类的特征”。正如您所看到的,这些二元组在两个地址中都被视为证据,并表明它们之间存在某种相似性(与其他非地址实例相比)。当然,这是问题的过度简化,但我希望您明白为什么不能使用原始文本或纯特征哈希。
除了“执行 R”模块在训练前进行文本处理之外,您仍然可以使用 Azure ML 模块进行特征哈希、训练和评分。

编辑:特征哈希使用示例:http://gallery.azureml.net/Details/cf65bf129fee4190b6f48a53e599a755

关于machine-learning - 机器学习-按内容将网页分类为地址和无地址,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29485562/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com