- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个包含词嵌入的文件(将词嵌入定义为词的向量表示),格式如下:
a | [0.23, 0.04, ..., -0.22]
aaron | [0.21, 0.08, ..., -0.41]
... | ...
zebra | [0.97, 0.01, ..., -0.34]
这个文件大约有 2.5 GB。我还有大量的句子想转成向量,例如:
Yes sir, today is a great day.
Would you want to buy that blue shirt?
...
Is there anything else I can help you with?
我的句子嵌入策略现在很简单:
For each sentence:
For each word:
Obtain the vector representation of the word using the word embedding file.
End
Calculate the average of the word vectors of the sentence.
End
我想既然我有大量的句子要嵌入,我可以使用 Spark 来完成这项任务;将词嵌入作为文件存储在 HDFS 中,并使用 Spark SQL 从 Hive 表中查询句子,但是由于每个节点可能需要访问整个词嵌入文件,这意味着在每个节点中收集整个词嵌入 RDD节点,使得节点之间的通信非常昂贵。
有人对如何有效解决这个问题有任何想法吗?如果问题不明确或者您认为我误解了 Spark 的工作方式,也请告诉我。我仍在学习,非常感谢您的帮助!
提前致谢。
最佳答案
您可以执行以下操作:
my_embeddings = spark.read.csv(path="path/to/your_file.csv", sep="|")
pyspark api docs 这样的东西更改 DataFrame 架构 (my_embeddings.schema
) 以匹配以下内容:
StructType(List(StructField(word,StringType,true),StructField(vector,ArrayType(FloatType,true),true)))
Word2Vec
模型并保存到 hdfs。 pyspark api docs
model_name.write().overwrite().save("your_hdfs_path_to/model_name")
your_hdfs_path_to/model_name/data/
目录中创建的嵌入 DataFrame 覆盖小型和简单的 Word2Vec
模型数据。
my_embeddings.write.parquet("your_hdfs_path_to/model_name/data/", mode='overwrite')
Word2VecModel.load("your_hdfs_path_to/model_name")
加载 Word2Vec
模型 pyspark api docs RegexTokenizer
标记您的句子 pyspark api docs 一起(猜测某些参数,并使用 pySpark):
import pyspark
from pyspark.sql import SparkSession
from pyspark.ml.feature import RegexTokenizer
from pyspark.ml.feature import Word2Vec, Word2VecModel
from pyspark.ml import Pipeline, PipelineModel
spark = (
SparkSession
.builder
.master('yarn')
.appName('my_embeddings')
.getOrCreate()
)
my_embeddings = spark.read.csv(path="path/to/your_embeddings.csv", sep="|")
my_embeddings.schema
# needs to be
# StructType(List(StructField(word,StringType,true),StructField(vector,ArrayType(FloatType,true),true)))
my_sentences = spark.read.csv(path="path/to/your_sentences.csv", sep="|")
tokenizer = (
RegexTokenizer()
.setInputCol("sentences")
.setOutputCol("tokens")
.setPattern("\w+")
)
words2vecs = (
Word2Vec()
.setInputCol("tokens")
.setOutputCol("vecs")
.setMinCount(1)
.setNumPartitions(5)
.setStepSize(0.1)
.setWindowSize(5)
.setVectorSize(200)
.setMaxSentenceLength(1)
)
pipeline = (
Pipeline()
.setStages([tokenizer, words2vecs])
)
pipe_model = pipeline.fit(my_sentences.limit(100))
pipe_model.stages[1].write().overwrite().save("your_hdfs_path_to/model_name")
my_embeddings.write.parquet("your_hdfs_path_to/model_name/data/", mode='overwrite')
my_embedding_model = Word2VecModel.load("your_hdfs_path_to/model_name")
df_final = my_embedding_model.transform(tokenizer.transform(my_sentences))
关于apache-spark - 在分布式 Spark 系统中嵌入句子的最有效方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54029960/
序言:重新训练人工智能大型模型是一项复杂且高成本的任务,尤其对于当前的LLM(大型语言模型)来说,全球99.99%的企业难以承担。这是因为模型训练需要巨大的资源投入、复杂的技术流程以及大量的人力支
上一篇:《人工智能是这样理解“情绪”的》 序言:这段话要优化吗?““嵌入”是一种将句子、单词或其他语言单位转换为向量表示的技术。这个向量通常位于高维空间中,它以一种能够表达相似性的方式编码出文本
我正在开发一个小型 Web 应用程序,其中有一个 object 元素(包含一个 embed),用于显示小型文档。 文档可以是 PDF 或纯文本文件 (.txt),我以 base64 字符串的形式从 W
我有一种小型语言,它基本上是 OCaml 的扩展(实际上它是 OCaml 子集的扩展,但这并不重要)。为了简化事情,我有一个“转义”表达式,可以将 OCaml 文字传输到我的语言中(因此您可以将任意
据我所知,我知道 embed tag用于嵌入来自 youtube 等网站的视频,object tag用于 Flash 视频和 video tags下HTML5 .但我很好奇这些标签的深入细节以及作为开
我假设您可以将 WebKit 嵌入到另一个桌面应用程序中并向其发送一个字符串,例如: Hello world! 它将显示在窗口内。 我的问题是,如果我将其压缩表示(JPEG 转储)加载到内存中,我该如
有没有一种可能的方式,我可以从youtube检索我的最新视频的列表(带有缩略图),使用cron作业将嵌入的代码存储在数据库中,这样我就可以在单独的页面上显示视频,而不是将用户引向youtube观看视频
最近我发现我的网站上嵌入的 YouTube 视频存在问题 - 全屏按钮不再起作用。确实有过一次。该按钮是可见的,但单击时没有任何反应。 我正在使用 Youtube Javascript API 将视频
在 Keras 内置函数中嵌入使用哪种算法?Word2vec?手套?其他? https://keras.io/layers/embeddings/ 最佳答案 简短的回答是都不是。本质上,GloVe 的
在 LSTM 上用于建模 IMDB 序列数据 ( https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.py ) 的 ker
在机器学习中,通常用 one-hot-encoding 表示分类(特别是:名义)特征。 .我正在尝试学习如何使用 tensorflow 的嵌入层来表示分类问题中的分类特征。我有 tensorflow
我有一个使用 Storyboard的应用程序,我想在我的主视图中有一个 View ,并让它在场景中的不同 View 之间切换。 所以目前我有“容器对象”,我可以在其中嵌入另一个 viewControl
在我的项目中我遇到了这样的情况。 function fonsubmit() { alert('Out side PHP'); //Here the php code starts
我正在尝试添加一个JFileChooser,它选择父目录并允许用户输入文件名称。我知道 showSaveDialog 和 showOpenDialog 方法,但我不想创建新窗口。 这是我到目前为止所拥
我注意到我的网站创建了这样的链接:www.domain.com/post-name/embed/ 恐怕这可能会影响 SEO。是否可以禁用此功能? 最佳答案 显然这是默认的 WordPress 行为。此
我试图从 C 代码调用 python 函数,我遵循了 here 中的示例 我也有正确的包含文件目录、库目录和链接 python32.lib(我使用 python 32)但是错误是 python/C A
我正在使用基于云的 EDR 平台来监控客户端受损网络上发生的进程。我最近经常看到的是使用选项“-Embedding”调用的 msiexec.exe C:\Windows\System32\MsiExe
我有一个列表,其中包含数百万个需要嵌入的句子。我正在使用 Flair以此目的。这个问题似乎应该是并行的。但是,当我尝试优化时,我的性能要么没有提高,要么只是停滞不前。 我将我的句子定义为一个简单的字符
我想在我的应用程序中添加嵌入的 YouTube 视频:我该怎么做?我有这个 import 'package:youtube_player/youtube_player.dart'; import 'p
我有 json 看起来像: myjson = {"queries":{"F.SP": 27}} 所以与 queryResults = JObject.Parse(jsonString) 我可以 fir
我是一名优秀的程序员,十分优秀!