python - 排序 apache 光束 wordcount

python - 排序 apache 光束 wordcount_minimal 输出

转载作者：行者123 更新时间：2023-12-03 23:54:02

26

4

我正在处理 beams word count examples (在 python 中)。我能够在 DataflowRunner 上运行示例并接收输出。

输出文件目前看起来像:

itself: 16
grey: 1
senses: 4
repair: 1
me: 228

无论如何对 PCollection 进行排序，以便我的输出文件根据词频按降序排序？

在没有办法做到这一点的情况下，找到最常出现的单词的标准工作流程是什么？在beam将数据减少到字数之后，这是否会由一个单独的过程来处理？

最佳答案

在 Beam 中，PCollection 的元素是无序的。我将结果存储在数据库中并在那里执行排序。

不确定您的用例以及是否真的需要在 Beam 中进行排序，但一种解决方法是将所有行分组到一个虚构的键上，使用 GroupByKey，并对分组数据执行排序，如下所示:

word_count_list = [
    ('itself', 16),
    ('grey', 1),
    ('senses', 4),
    ('repair', 1),
    ('me', 228),
]

def addKey(row):
    return (1, row)

def sortGroupedData(row):
    (keyNumber, sortData) = row
    sortData.sort(key=lambda x: x[1], reverse=True)
    return sortData[0:3]

word_count = (p 
            | 'CreateWordCountColl' >> beam.Create(word_count_list)
            | 'AddKey' >> beam.Map(addKey)
            | 'GroupByKey' >> beam.GroupByKey()
            | 'SortGroupedData' >> beam.Map(sortGroupedData)
            | 'Write' >> WriteToText('./sorting_results')
            )

这将返回单行列表中的前 3 个。

[('me', 228), ('itself', 16), ('senses', 4)]

但是，请考虑您会放弃数据集的并行处理。

关于python - 排序 apache 光束 wordcount_minimal 输出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52397638/

26

4

0

文章推荐： documentation - 如何发送版本控制文档更新？

文章推荐： react-admin - React Admin - ListView ⋮ "More Options"按钮

文章推荐： xcode - 在 OSX 10.9 上调整 Xcode 窗口大小

vim - 使用gq命令在Vim中自定义LaTeX(光束)帧的格式
我希望能够在Vim中使用gq组合键来设置Beamer LaTeX幻灯片中的文本格式。例如，我想要gqap来转换它: \begin{frame}{Some title} \begin{itemize}
Android 光束 Intent 过滤器
我正在创建一个应用程序来捕获 android 光束并启动我的应用程序而不是指定的应用程序。例如:发送一个网页，但我的应用程序启动了。我尝试使用 NDEF Intent 过滤器设置 list ，但它似
apache-beam - 什么是 Apache 光束？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
java - Apache 光束 : Cannot find DataflowRunner
我正在尝试运行一个管道，我能够使用 DirectRunner 成功运行它, 在谷歌云数据流上。当我执行这个 Maven 命令时: mvn compile exec:java \ -Dexec.
tensorflow - 导入错误 : No module named tensorflow_transform. 光束
向 GCP 提交数据流作业时出现此错误: Traceback (most recent call last): File "/usr/local/lib/python2.7/dist-packag
python - 排序 apache 光束 wordcount_minimal 输出
我正在处理 beams word count examples (在 python 中)。我能够在 DataflowRunner 上运行示例并接收输出。输出文件目前看起来像: itself: 16
Python/Apache-光束 : How to Parse Text File To CSV?
我对 Beam 还是个新手，但您究竟如何读取 GCS 存储桶中的 CSV 文件？我本质上是使用 Beam 将这些文件转换为 pandas 数据框，然后应用 sklearn 模型来“训练”这些数据。我见
Python/Apache-光束 : How to Parse Text File To CSV?
我对 Beam 还是个新手，但您究竟如何读取 GCS 存储桶中的 CSV 文件？我本质上是使用 Beam 将这些文件转换为 pandas 数据框，然后应用 sklearn 模型来“训练”这些数据。我见
java - 光束 : Failed to serialize and deserialize property 'awsCredentialsProvider
我一直在使用 Beam 管道 examples作为尝试从 S3 为我的管道加载文件的指南。就像在示例中一样，我定义了自己的 PipelineOptions ，它也扩展了 S3Options我正在尝试使
java - Apache 光束 : Unable to find registrar for gs
Beam 同时使用了 Google 的 auto/value和 auto/service工具。我想使用 Dataflow runner 运行管道，数据存储在 Google Cloud Storage
maven - Apache 光束 :'Unable to find registrar for hdfs'
我想使用 Spark runner 运行管道，数据存储在远程机器上。以下命令已用于提交作业: ./spark-submit --class org.apache.beam.examples.Wor
python - 光束 : AfterProcessingTime cause 'NoneType' object has no attribute 'time'
在 beam 2.14.0 下有以下代码 | "FixedWindow" >> beam.WindowInto(beam.window.FixedWindows(4 * 60),
python - 数据流/apache 光束 : manage custom module dependencies
我有一个使用 apache beam 的 .py 管道导入另一个模块 (.py)，这是我的自定义模块。我有这样的结构: ├── mymain.py └── myothermodule.py 我像这样在
google-bigquery - Apache 光束 : Update BigQuery table row with BigQueryIO
我们使用以下代码将记录写入 BigQuery: BigQueryIO.writeTableRows() .to("table") .withCreateDisposition(BigQ
google-bigquery - Python Apache 光束 : BigQuery streaming deduplication by row_id
根据 BigQuery 文档，您可以通过提供 insertId ( https://cloud.google.com/bigquery/streaming-data-into-bigquery#dat
java - 光束 : writing per window element count with window boundaries
为了进行简单的概念验证，我尝试在两分钟的窗口中显示点击数据。我想要做的就是将每个窗口的计数以及窗口的边界打印到 BigQuery。在运行我的管道时，我不断收到以下错误: org.apache.beam
python - 这是 PySpark 的合适用例吗？空 Airflow 动？ Apache 光束？
我有一个复杂的数据处理管道，目前在单台机器上用 Python 实现。管道是围绕处理属于一系列实现文档、页面、单词等的自定义类的对象而构建的。该管道中的大多数操作都是令人尴尬地并行的——它们处理单个文
python - 光束 : ReadAllFromText receive string or list from DoFn different behavior?
我有一个管道从 GCS 读取文件通过Pub\Sub , class ExtractFileNameFn(beam.DoFn): def process(self, element):
python - 光束/数据流 Python : AttributeError: '_UnwindowedValues' object has no attribute 'sort'
我正在使用 Apache Beam 的 Python SDK 开发一个在 Google Cloud Dataflow 上运行的工作流程。在本地运行时，工作流成功完成且没有错误，并且数据输出完全符合预
java - Apache 光束 : cannot access Pub/Sub Emulator via docker-compose
我构建了一个软件，它使用 GCP Pub/Sub 作为消息队列，使用 Apache Beam 构建管道，使用 Flask 构建网络服务器。它在生产中运行顺利，但我很难将所有部分与 docker-com

首页

博学

6Ren·AI

商城

python - 排序 apache 光束 wordcount_minimal 输出