gpt4 book ai didi

nlp - 最新的预训练多语言词嵌入

转载 作者:行者123 更新时间:2023-12-04 13:55:57 25 4
gpt4 key购买 nike

有没有最新的预训练的多语言词嵌入 (多种语言联合映射到同一个向量空间)?

我查看了以下内容,但它们不符合我的需求:

  • FastText/MUSE ( https://fasttext.cc/docs/en/aligned-vectors.html ):这个好像太老了,词向量没有使用子词/词条信息。
  • LASER ( https://github.com/yannvgn/laserembeddings ):我现在正在使用这个,它使用子词信息(通过 BPE),但是,建议不要将它用于词嵌入,因为它旨在嵌入句子( https://github.com/facebookresearch/LASER/issues/69 )。
  • BERT 多语言(bert-base-multilingual-uncased in https://huggingface.co/transformers/pretrained_models.html):它是上下文嵌入,可用于嵌入句子,似乎不擅长嵌入没有上下文的单词。

  • 这是我试图解决的问题:

    我有一个公司名称列表,可以是任何语言(主要是英语),我有一个英文关键字列表,用于衡量给定公司名称与关键字的接近程度。现在我有一个简单的关键字匹配解决方案,但我想使用预训练嵌入来改进它。正如您在以下示例中所看到的,有几个挑战:
  • 关键字和品牌名称没有用空格分隔(现在我使用包“wordsegment”将单词拆分为子词),因此嵌入子词信息应该会有很大帮助
  • 关键字列表并不广泛,公司名称可以使用不同的语言(这就是我想使用嵌入的原因,因为“足球”接近“足球”)

  • 公司名称示例:“cheapfootball ltd.”、“wholesalefootball ltd.”、“footballer ltd.”、“soccershop ltd.”

    关键字示例:“足球”

    最佳答案

    我认为使用嵌入到这个应用程序中来构建模型可能有点误导(通过经验学习)。因为如果有两家公司,football ltd 和 Football ltd,模型可能会说两者都是一场比赛,这可能是不正确的。
    一种方法是删除多余的词,即,来自 Facebook 公司的公司,来自 Facebook ltd 的公司,然后尝试匹配。

    另一种方法是使用 deepmatcher,它使用基于单词上下文的深度学习模糊匹配。
    Link

    如果句子相似度是您想要遵循 STSBenchmark 算法的主要方法,则可能值得探索:Link

    Sent2vec link和 InferSent Link使用 Fasttext 但似乎在 STSBenchmark 上有不错的结果

    关于nlp - 最新的预训练多语言词嵌入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62385002/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com