gpt4 book ai didi

python - 如何在nlp中进行特征提取

转载 作者:行者123 更新时间:2023-11-30 09:48:48 28 4
gpt4 key购买 nike

我正在构建一个多类文本分类器,其中包含求职门户的数据集。该数据集由映射到实际名称的组织名称组成(见下文)。我想制作一个可以预测实际组织名称的机器学习模型。
我的数据集如下所示:

Flipkart.com flipkart

FlipKart pvt ltd flipkart

flipkart.com flipkart

我的问题是这样的:

A.) 我可以提取什么样的特征?
B.) 我的特征提取器也应该使用训练集的标签吗?
C.) 我的特征应该是什么样子,因为它们应该是 nbclassifier 的字典。什么键对应什么值?

我是 NLP 新手,任何帮助将不胜感激。 Source code on github

最佳答案

我会把机器学习排除在外。您想要做的是模糊匹配,可能会弃用一些同义词。

一种昂贵的技术是编辑距离公式,一种更便宜但在某些情况下同样有效的技术是 token/ngram 分块和索引。

制作一个 n-gram 字典,其中 n 是 gram 的长度。 n = 3,那么 Flipkart.com 的克是“Fli”、“lip”、“ipk”、“pka”等...,键是 ngram,值是包含该 ngram 的匹配列表。对于输入字符串中的每个 n-gram,在字典中查找(实现时间复杂度为 O(log(n)m),其中 n 是索引 n-gram 的总数,m 是输入字符串中 n-gram 的数量),并根据与输入字符串共享的 n 元语法来计算结果,直到获得每个匹配的“分数”。

我提到的“分块”是对“ block ”或 n 元语法集进行索引并执行相同的任务。又名 ['Fli', 'lip', 'ipk'] 将被索引并用于统计结果。

这些技术也可以使用“标记”来执行,而不是使用 n-gram,或者除了 n-gram 之外,还可以使用“标记”来捕获整个匹配的单词。

这一切都不需要统计数据,而是利用对语言的理解。

或者,您可以尝试从短字符串列表中派生一组有意义的特征,以映射到极大的类集。这将是一项极其困难的任务,因此我推荐模糊匹配方法。

关于python - 如何在nlp中进行特征提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48679734/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com