- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我已经通过 pip install --upgrade apache_beam[gcp]
升级到最新的 apache_beam[gcp] 包。但是,我注意到 Reshuffle()没有出现在 [gcp]
发行版中。这是否意味着我将无法在任何数据流管道中使用 Reshuffle()
?有没有办法解决?还是 pip 包可能不是最新的,如果 Reshuffle() 在 github 上的 master 中,那么它将在数据流上可用?
基于对此 question 的回复我正在尝试从 BigQuery 读取数据,然后在将数据写入 GCP 存储桶中的 CSV 之前随机化数据。我注意到我用来训练 GCMLE 模型的分片 .csv 并不是真正随机的。在 tensorflow 中,我可以随机化批处理,但这只会随机化队列中构建的每个文件中的行,我的问题是当前正在生成的文件在某种程度上存在偏差。如果在数据流中写入 CSV 之前对其他随机播放方法有任何建议,我们将不胜感激。
最佳答案
一种方法是自己重新创建随机播放。
import random
shuffled_data = (unshuffled_pcoll
| 'AddRandomKeys' >> Map(lambda t: (random.getrandbits(32), t))
| 'GroupByKey' >> GroupByKey()
| 'RemoveRandomKeys' >> FlatMap(lambda t: t[1]))
我剩下的问题是我是否需要担心 code 中的窗口或 ExpandIterable
部分
关于python - apache_beam.transforms.util.Reshuffle() 不适用于 GCP 数据流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48585959/
Apache Beam 的 Reshuffle被标记为已弃用 in May 2017与注释 For internal use only; no backwards compatibility guar
将 Masonry 元素包裹在 1000px 宽的 div 中,我有一个按钮可以使用 jQuery 的 addClass() 将 div 的大小调整为 2000x,问题是 Masonry 不会重新排列
我已经通过 pip install --upgrade apache_beam[gcp] 升级到最新的 apache_beam[gcp] 包。但是,我注意到 Reshuffle()没有出现在 [gcp
我正在使用 TextIO 从云存储读取。因为我想让工作连续运行,所以我使用 watchForNewFiles。 为了完整性,如果我使用有界 PCollections(批处理模式下没有 watchFor
我是一名优秀的程序员,十分优秀!