gpt4 book ai didi

python - 将具有多种拼写的单词映射到关键字列表的最佳方法?

转载 作者:太空宇宙 更新时间:2023-11-04 00:04:52 24 4
gpt4 key购买 nike

我有一堆可变拼写的 ngram,我想将每个 ngram 映射到已知期望输出列表中的最佳匹配词。

例如,['mob', 'MOB', 'mobi', 'MOBIL', 'Mobile] 映射到所需的输出 'mobile'。

来自 ['desk', 'Desk+Tab', 'Tab+Desk', 'Desktop', 'dsk'] 的每个输入都映射到 'desktop' 的期望输出

我有大约 30 个这样的“输出”词,以及一堆大约几百万个 ngram(独特的更少)。

我目前最好的想法是获取所有唯一的 ngram,将其复制并粘贴到 Excel 中并手动构建一个映射表,耗时太长且不可扩展。第二个想法是模糊(fuzzy-wuzzy)匹配,但匹配得不好。

我在自然语言术语或库方面一点经验都没有,所以我无法找到当唯一 ngram 的数量增加或“输出”词发生变化时如何更好、更快和更广泛地完成这项工作的答案。

有什么建议吗?

最佳答案

经典方法是为每个 ngram 构建一个“特征矩阵”。每个单词映射到一个输出,它是 029 之间的分类值(每个类一个)

例如,特征可以是模糊 wuzzy 给出的余弦相似度,但通常您需要更多。然后根据创建的特征训练分类模型。该模型通常可以是任何东西,神经网络、提升树等。

关于python - 将具有多种拼写的单词映射到关键字列表的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54491245/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com