apache-spark - 在分布式 Spark 系统中嵌入句子的最有效方法是什么？-6ren

apache-spark - 在分布式 Spark 系统中嵌入句子的最有效方法是什么？

转载作者：行者123 更新时间：2023-12-04 01:49:17

27

4

我有一个包含词嵌入的文件(将词嵌入定义为词的向量表示)，格式如下:

a | [0.23, 0.04, ..., -0.22]
aaron | [0.21, 0.08, ..., -0.41]
... | ...
zebra | [0.97, 0.01, ..., -0.34]

这个文件大约有 2.5 GB。我还有大量的句子想转成向量，例如:

Yes sir, today is a great day.
Would you want to buy that blue shirt?
...
Is there anything else I can help you with?

我的句子嵌入策略现在很简单:

For each sentence:
  For each word:
    Obtain the vector representation of the word using the word embedding file.
  End
  Calculate the average of the word vectors of the sentence.
End

我想既然我有大量的句子要嵌入，我可以使用 Spark 来完成这项任务；将词嵌入作为文件存储在 HDFS 中，并使用 Spark SQL 从 Hive 表中查询句子，但是由于每个节点可能需要访问整个词嵌入文件，这意味着在每个节点中收集整个词嵌入 RDD节点，使得节点之间的通信非常昂贵。

有人对如何有效解决这个问题有任何想法吗？如果问题不明确或者您认为我误解了 Spark 的工作方式，也请告诉我。我仍在学习，非常感谢您的帮助!

提前致谢。

最佳答案

您可以执行以下操作:

将您的词嵌入文件转换为 Spark DataFrame，
1. 看起来你可以使用像 my_embeddings = spark.read.csv(path="path/to/your_file.csv", sep="|") pyspark api docs 这样的东西
更改 DataFrame 架构 (my_embeddings.schema) 以匹配以下内容:
1. StructType(List(StructField(word,StringType,true),StructField(vector,ArrayType(FloatType,true),true)))
创建一个小而简单的占位符 Spark ML Word2Vec 模型并保存到 hdfs。 pyspark api docs
1. 例如model_name.write().overwrite().save("your_hdfs_path_to/model_name")
用上面在 your_hdfs_path_to/model_name/data/ 目录中创建的嵌入 DataFrame 覆盖小型和简单的 Word2Vec 模型数据。
1. my_embeddings.write.parquet("your_hdfs_path_to/model_name/data/", mode='overwrite')
使用 Word2VecModel.load("your_hdfs_path_to/model_name") 加载 Word2Vec 模型 pyspark api docs
创建一个 Spark DataFrame，其中每个句子都在单独的行中。
使用 RegexTokenizer 标记您的句子 pyspark api docs
使用该模型转换包含标记化句子的 Spark DataFrame。输出列将包含一个与词嵌入向量具有相同维度的向量，它将是句子中所有词向量的平均值。
1. “Word2VecModel 使用文档中所有单词的平均值将每个文档转换为向量” docs .在您的情况下，“每个文档”将是您的每个句子。 pyspark api docs

一起(猜测某些参数，并使用 pySpark):

import pyspark
from pyspark.sql import SparkSession
from pyspark.ml.feature import RegexTokenizer
from pyspark.ml.feature import Word2Vec, Word2VecModel
from pyspark.ml import Pipeline, PipelineModel


spark = (
    SparkSession
    .builder
    .master('yarn')
    .appName('my_embeddings')
    .getOrCreate()
)

my_embeddings = spark.read.csv(path="path/to/your_embeddings.csv", sep="|")

my_embeddings.schema
# needs to be
# StructType(List(StructField(word,StringType,true),StructField(vector,ArrayType(FloatType,true),true)))

my_sentences = spark.read.csv(path="path/to/your_sentences.csv", sep="|")

tokenizer = (
    RegexTokenizer()
    .setInputCol("sentences")
    .setOutputCol("tokens") 
    .setPattern("\w+")
)

words2vecs = (
    Word2Vec()
    .setInputCol("tokens")
    .setOutputCol("vecs")
    .setMinCount(1)
    .setNumPartitions(5)
    .setStepSize(0.1)
    .setWindowSize(5)
    .setVectorSize(200)
    .setMaxSentenceLength(1)
)


pipeline = (
    Pipeline()
    .setStages([tokenizer, words2vecs])
)

pipe_model = pipeline.fit(my_sentences.limit(100))

pipe_model.stages[1].write().overwrite().save("your_hdfs_path_to/model_name")

my_embeddings.write.parquet("your_hdfs_path_to/model_name/data/", mode='overwrite')

my_embedding_model = Word2VecModel.load("your_hdfs_path_to/model_name")

df_final = my_embedding_model.transform(tokenizer.transform(my_sentences))

关于apache-spark - 在分布式 Spark 系统中嵌入句子的最有效方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54029960/

27

4

0

文章推荐： d3.js - 相当于线性刻度刻度的 d3 scale.bandwidth()？

文章推荐： for-loop - 如何在for循环中增加计数器？ (帕斯卡)

文章推荐： svg - 将 SVG 转换为具有锐边的 PNG

循环神经网络设计同样可以使用预训练词“嵌入”
序言：重新训练人工智能大型模型是一项复杂且高成本的任务，尤其对于当前的LLM（大型语言模型）来说，全球99.99%的企业难以承担。这是因为模型训练需要巨大的资源投入、复杂的技术流程以及大量的人力支
“嵌入”在大语言模型中是解决把句子转换成向量表示的技术
上一篇：《人工智能是这样理解“情绪”的》序言：这段话要优化吗？““嵌入”是一种将句子、单词或其他语言单位转换为向量表示的技术。这个向量通常位于高维空间中，它以一种能够表达相似性的方式编码出文本
html - 样式对象的内容/嵌入
我正在开发一个小型 Web 应用程序，其中有一个 object 元素(包含一个 embed)，用于显示小型文档。文档可以是 PDF 或纯文本文件 (.txt)，我以 base64 字符串的形式从 W
嵌入 ocaml 解释器
我有一种小型语言，它基本上是 OCaml 的扩展(实际上它是 OCaml 子集的扩展，但这并不重要)。为了简化事情，我有一个“转义”表达式，可以将 OCaml 文字传输到我的语言中(因此您可以将任意
flash - 嵌入、对象和视频标签之间的区别？
据我所知，我知道 embed tag用于嵌入来自 youtube 等网站的视频，object tag用于 Flash 视频和 video tags下HTML5 .但我很好奇这些标签的深入细节以及作为开
WebKit、嵌入、动态资源
我假设您可以将 WebKit 嵌入到另一个桌面应用程序中并向其发送一个字符串，例如: Hello world! 它将显示在窗口内。我的问题是，如果我将其压缩表示(JPEG 转储)加载到内存中，我该如
php - YouTube取回/嵌入
有没有一种可能的方式，我可以从youtube检索我的最新视频的列表(带有缩略图)，使用cron作业将嵌入的代码存储在数据库中，这样我就可以在单独的页面上显示视频，而不是将用户引向youtube观看视频
youtube 嵌入 - 全屏按钮不起作用
最近我发现我的网站上嵌入的 YouTube 视频存在问题 - 全屏按钮不再起作用。确实有过一次。该按钮是可见的，但单击时没有任何反应。我正在使用 Youtube Javascript API 将视频
keras - 嵌入 Keras
在 Keras 内置函数中嵌入使用哪种算法？Word2vec？手套？其他？ https://keras.io/layers/embeddings/ 最佳答案简短的回答是都不是。本质上，GloVe 的
Keras:嵌入 LSTM
在 LSTM 上用于建模 IMDB 序列数据 ( https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.py ) 的 ker
用于分类特征的 TensorFlow 嵌入
在机器学习中，通常用 one-hot-encoding 表示分类(特别是:名义)特征。 .我正在尝试学习如何使用 tensorflow 的嵌入层来表示分类问题中的分类特征。我有 tensorflow
iOS 嵌入 View
我有一个使用 Storyboard的应用程序，我想在我的主视图中有一个 View ，并让它在场景中的不同 View 之间切换。所以目前我有“容器对象”，我可以在其中嵌入另一个 viewControl
PHP 嵌入 JavaScript
在我的项目中我遇到了这样的情况。 function fonsubmit() { alert('Out side PHP'); //Here the php code starts
java - 嵌入 JFileChooser
我正在尝试添加一个JFileChooser，它选择父目录并允许用户输入文件名称。我知道 showSaveDialog 和 showOpenDialog 方法，但我不想创建新窗口。这是我到目前为止所拥
WordPress/嵌入/链接
我注意到我的网站创建了这样的链接:www.domain.com/post-name/embed/ 恐怕这可能会影响 SEO。是否可以禁用此功能？最佳答案显然这是默认的 WordPress 行为。此
python - 嵌入 python
我试图从 C 代码调用 python 函数，我遵循了 here 中的示例我也有正确的包含文件目录、库目录和链接 python32.lib(我使用 python 32)但是错误是 python/C A
powershell - msiexec.exe - 嵌入
我正在使用基于云的 EDR 平台来监控客户端受损网络上发生的进程。我最近经常看到的是使用选项“-Embedding”调用的 msiexec.exe C:\Windows\System32\MsiExe
python - 并行运行 Flair 嵌入
我有一个列表，其中包含数百万个需要嵌入的句子。我正在使用 Flair以此目的。这个问题似乎应该是并行的。但是，当我尝试优化时，我的性能要么没有提高，要么只是停滞不前。我将我的句子定义为一个简单的字符
嵌入 Flutter YouTube 视频
我想在我的应用程序中添加嵌入的 YouTube 视频:我该怎么做？我有这个 import 'package:youtube_player/youtube_player.dart'; import 'p
json.net SelectToken 嵌入 "."
我有 json 看起来像: myjson = {"queries":{"F.SP": 27}} 所以与 queryResults = JObject.Parse(jsonString) 我可以 fir

首页

博学

6Ren·AI

商城

apache-spark - 在分布式 Spark 系统中嵌入句子的最有效方法是什么？