- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在搜索并尝试实现一个词嵌入模型来预测单词之间的相似性。我有一个由 3,550 个公司名称组成的数据集,其想法是用户可以提供一个新单词(不会出现在词汇表中)并计算新名称与现有名称之间的相似度。
在预处理过程中,我去掉了停用词和标点符号(连字符、点、逗号等)。此外,我应用了词干提取和分隔前缀,希望获得更高的精度。然后像 BIOCHEMICAL
这样的单词最终会变成 BIO
CHEMIC
,它是将单词分为两部分(前缀和词干)
公司名称的平均长度由 3 个单词组成,频率如下:
作为预处理结果的标记被发送到word2vec:
#window: Maximum distance between the current and predicted word within a sentence
#min_count: Ignores all words with total frequency lower than this.
#workers: Use these many worker threads to train the model
#sg: The training algorithm, either CBOW(0) or skip gram(1). Default is 0s
word2vec_model = Word2Vec(prepWords,size=300, window=2, min_count=1, workers=7, sg=1)
模型包含了词汇中的所有单词后,计算每个公司名称的平均句子向量: df['avg_vector']=df2.apply(lambda 行: avg_sentence_vector(row, model=word2vec_model, num_features=300, index2word_set=set(word2vec_model.wv.index2word)).tolist())
然后,保存向量以供进一步查找:
##Saving name and vector values in file
df.to_csv('name-submission-vectors.csv',encoding='utf-8', index=False)
如果经过预处理(删除停用词和标点符号)后词汇中不包含新的公司名称,那么我会再次创建模型并计算平均句子向量并再次保存。
我发现这个模型没有按预期工作。例如,计算最相似的单词 pet
得到以下结果:
ms=word2vec_model.most_similar('pet')
('fastfood', 0.20879755914211273)
('hammer', 0.20450574159622192)
('allur', 0.20118337869644165)
('wright', 0.20001833140850067)
('daili', 0.1990675926208496)
('mgt', 0.1908089816570282)
('mcintosh', 0.18571510910987854)
('autopart', 0.1729743778705597)
('metamorphosi', 0.16965581476688385)
('doak', 0.16890916228294373)
在数据集中,我有诸如“paws”或“petcare”之类的单词,但其他单词正在与 pet
单词建立关系。
这是 pet
的较近单词的分布:
另一方面,当我使用 GoogleNews-vectors-negative300.bin.gz
时,我无法向词汇中添加新单词,但 pet
和周围单词之间的相似性正如预期的那样:
ms=word2vec_model.most_similar('pet')
('pets', 0.771199643611908)
('Pet', 0.723974347114563)
('dog', 0.7164785265922546)
('puppy', 0.6972636580467224)
('cat', 0.6891531348228455)
('cats', 0.6719794869422913)
('pooch', 0.6579219102859497)
('Pets', 0.636363685131073)
('animal', 0.6338439583778381)
('dogs', 0.6224827170372009)
这是最近单词的分布:
我想听听您对以下问题的建议:
word2vec
“学习”单词之间的关系?word2vec
创建与 GoogleNews 相同类型的关系,例如在相似单词之间正确设置单词 pet
?
fasttext
)是否可行?谢谢
最佳答案
3500 条文本(公司名称),每条文本只有约 3 个单词,总共只有大约 10k 个训练单词,唯一单词的词汇量要小得多。
这对于 word2vec 及相关算法来说非常非常小,它们依赖大量数据和充分多样化的数据来训练有用的向量排列。
通过使用比默认epochs=5
多个训练周期,并且小得多,您可以从有限的数据中提取一些有意义的训练 em> 向量比默认的 size=100
。通过这些调整,您可能会开始看到更有意义的 most_similar()
结果。
但是,目前尚不清楚 word2vec,特别是您的平均姓名单词比较中的 word2vec 是否与您的最终目标相匹配。
Word2vec 需要大量数据,不考虑子词单元,并且无法描述训练期间未见过的单词标记。多个单词向量的平均值通常可以作为比较多单词文本的简单基线,但与其他方法相比也可能会削弱某些单词的影响。
需要考虑的事项可能包括:
与 Word2vec 相关的算法(例如 FastText)也可以学习子词单元的向量,因此可以为训练中未见过的单词引导不太糟糕的猜测向量。 (但是,这些也需要大量数据,并且要在小型数据集上使用,您需要再次减小向量大小,增加纪元,并另外减少用于子词学习的存储桶
数量。)
对多词文本进行更复杂的比较,例如“词移动器的距离”。 (对于较长的文本,这可能相当昂贵,但对于只有几个单词的名称/标题可能很实用。)
寻找更多与您的目标相符的数据,以建立更强大的模型。更大的公司名称数据库可能会有所帮助。如果您只想让分析理解英语单词/词根,更通用的训练文本也可能有效。
对于许多目的来说,单纯的词典比较(编辑距离、共享字符 n-gram 的计数)也可能有帮助,尽管它无法检测所有同义词/语义相似的单词。
关于machine-learning - 词嵌入模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58230214/
序言:重新训练人工智能大型模型是一项复杂且高成本的任务,尤其对于当前的LLM(大型语言模型)来说,全球99.99%的企业难以承担。这是因为模型训练需要巨大的资源投入、复杂的技术流程以及大量的人力支
上一篇:《人工智能是这样理解“情绪”的》 序言:这段话要优化吗?““嵌入”是一种将句子、单词或其他语言单位转换为向量表示的技术。这个向量通常位于高维空间中,它以一种能够表达相似性的方式编码出文本
我正在开发一个小型 Web 应用程序,其中有一个 object 元素(包含一个 embed),用于显示小型文档。 文档可以是 PDF 或纯文本文件 (.txt),我以 base64 字符串的形式从 W
我有一种小型语言,它基本上是 OCaml 的扩展(实际上它是 OCaml 子集的扩展,但这并不重要)。为了简化事情,我有一个“转义”表达式,可以将 OCaml 文字传输到我的语言中(因此您可以将任意
据我所知,我知道 embed tag用于嵌入来自 youtube 等网站的视频,object tag用于 Flash 视频和 video tags下HTML5 .但我很好奇这些标签的深入细节以及作为开
我假设您可以将 WebKit 嵌入到另一个桌面应用程序中并向其发送一个字符串,例如: Hello world! 它将显示在窗口内。 我的问题是,如果我将其压缩表示(JPEG 转储)加载到内存中,我该如
有没有一种可能的方式,我可以从youtube检索我的最新视频的列表(带有缩略图),使用cron作业将嵌入的代码存储在数据库中,这样我就可以在单独的页面上显示视频,而不是将用户引向youtube观看视频
最近我发现我的网站上嵌入的 YouTube 视频存在问题 - 全屏按钮不再起作用。确实有过一次。该按钮是可见的,但单击时没有任何反应。 我正在使用 Youtube Javascript API 将视频
在 Keras 内置函数中嵌入使用哪种算法?Word2vec?手套?其他? https://keras.io/layers/embeddings/ 最佳答案 简短的回答是都不是。本质上,GloVe 的
在 LSTM 上用于建模 IMDB 序列数据 ( https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.py ) 的 ker
在机器学习中,通常用 one-hot-encoding 表示分类(特别是:名义)特征。 .我正在尝试学习如何使用 tensorflow 的嵌入层来表示分类问题中的分类特征。我有 tensorflow
我有一个使用 Storyboard的应用程序,我想在我的主视图中有一个 View ,并让它在场景中的不同 View 之间切换。 所以目前我有“容器对象”,我可以在其中嵌入另一个 viewControl
在我的项目中我遇到了这样的情况。 function fonsubmit() { alert('Out side PHP'); //Here the php code starts
我正在尝试添加一个JFileChooser,它选择父目录并允许用户输入文件名称。我知道 showSaveDialog 和 showOpenDialog 方法,但我不想创建新窗口。 这是我到目前为止所拥
我注意到我的网站创建了这样的链接:www.domain.com/post-name/embed/ 恐怕这可能会影响 SEO。是否可以禁用此功能? 最佳答案 显然这是默认的 WordPress 行为。此
我试图从 C 代码调用 python 函数,我遵循了 here 中的示例 我也有正确的包含文件目录、库目录和链接 python32.lib(我使用 python 32)但是错误是 python/C A
我正在使用基于云的 EDR 平台来监控客户端受损网络上发生的进程。我最近经常看到的是使用选项“-Embedding”调用的 msiexec.exe C:\Windows\System32\MsiExe
我有一个列表,其中包含数百万个需要嵌入的句子。我正在使用 Flair以此目的。这个问题似乎应该是并行的。但是,当我尝试优化时,我的性能要么没有提高,要么只是停滞不前。 我将我的句子定义为一个简单的字符
我想在我的应用程序中添加嵌入的 YouTube 视频:我该怎么做?我有这个 import 'package:youtube_player/youtube_player.dart'; import 'p
我有 json 看起来像: myjson = {"queries":{"F.SP": 27}} 所以与 queryResults = JObject.Parse(jsonString) 我可以 fir
我是一名优秀的程序员,十分优秀!