gpt4 book ai didi

algorithm - 高维文本分类,高效方式

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:39:46 26 4
gpt4 key购买 nike

我们问题的一个子样本如下。

我们有 1600 个地址位置可供机器学习查找。我们的训练数据的形式是

City Subdivision District number1-number2-number3

我们有显示城市分区的官方数据

London Chelsea Kensington 2-3-15
London Chelsea Kensington 4-3-15
London Chelsea Battersea 3-4-2
London Greenwich Charlton 4-3-15
London Greenwich Coldharbour 1-2-1

我们有 10K 个这样的样本。

所以我们的训练数据是10K。

Training Data

----------


Label | Features

Kensington | London Chelsea Kensington 5-1-1

Kensington | London Chelsea Kensington 4-3-15

Battersea | London Chelsea Battersea 5-1-1

Battersea | London Chelsea Battersea 4-2-1

Charlton | London Greenwich Charlton 5-1-1

Coldharbour| London Greenwich Coldharbour 5-1-1


----------

将数字视为地址编号。所以不是独一无二的,不是一个显着的特征。

我们需要猜测的是

----------


Chelsea Kensington 5ー1ー1 sea harbor = Kensington ( sea harbor some additional items which can exist in other addresses
and can mislead our algorithms)

Kensington 5ー1ー1 = Kensington ( Think 5-1-1 exists for lots of addresses and some algorithms (Bayes or Decision Trees)guess this as another address with 5-1-1 Charlton)

Kensington 5 = Kensington ( One might think since it has only Kensington it will gues Kensington but if there is an address
as xxx 5 5 5 Bayes thinks it is xxx )


----------

人们会立即说这需要 ngram。但是 ngrams 匹配非常不相关的条目,概率很高。带有 Ngram2 或 Ngram3 的贝叶斯算法找到了很多正确的匹配项,但他们也声称错误结果的概率为 99。

我试过贝叶斯、决策树、随机森林……OnevsRest 从未在这个高维度上完成。

多层感知器并未完成 12K 特征空间。出现内存不足错误。

我将维度减少到 3000,但即使这样也没有看到结果。

SVM 不适用,因为它是多类的。

总结:

我的训练数据很简单,没有包含那么多信息。 (一个地方所有地址的列表)问题是高维的。(1600区)

我可能的数据可能是看不见的和不可预测的。有一些打字错误。

我正在考虑做一些 PCA(SVD),然后是多层感知器或 CNN。

但是我想我有 12000 个词汇来上 1600 堂课。不知道降维有没有意义对于这个问题。

那么有人曾经处理过这样的问题吗?

最佳答案

为什么不简单地删除所有非字母(包括数字)和可能的停用词?到那时,上面显示的问题就变成了:当您看到 Set A 的某个子集时,然后返回 B。 { A -> `B' }

示例(删除非字母后):

{ London Chelsea Kensington } -> { Kensington}

所以我也假设:

{ Chelsea Kensington } ->  { Kensington}

{ Kensington } -> { Kensington}

如果没有任何进一步的要求,这可以通过 Set of Sets 解决。一个简单的解决方案是将待预测的新集与所有标记集的交集进行比较,然后找到“赢家”。如果您有很多集合,那么您将需要一个 Trie 的术语森林 - 代表集合的成员 - 以帮助使搜索易于处理

关于algorithm - 高维文本分类,高效方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45179955/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com