- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在尝试读取一个 ElasticSearch 索引,它有数百万个文档,每个文档都有可变数量的字段。我有一个模式,其中有 1000 个字段,每个字段都有自己的名称和类型。
现在,当我通过 ES-Hadoop 连接器创建一个 RDD 并稍后通过指定模式转换为一个 DataFrame 时,它没有说 -
Input row doesn't have expected number of values required by the schema
我有几个问题。1. 是否有可能有一个 RDD/DF 的行包含可变数量的字段?如果不是,除了为每列中缺失的字段添加空值外,还有什么替代方法?
我看到默认情况下 Spark 将所有内容转换为 StringType
,因为我使用 sc.newAPIHadoopRDD()
调用。我如何根据模式中的字段名称将它们类型转换为正确的类型?某种映射?
我想用 Parquet 格式编写此文件,并将架构添加到文件中。与具有 1000 个字段的模式相比,那些缺失的字段会发生什么情况。
最佳答案
您不能拥有可变数量的列,但您可以使用数组或 map 等集合类型的一列,这在 Python 中相当于字典。这允许您在列中存储可变长度数据。否则是的,您需要为架构中的每一列都有一个值。您通常会用空值填充缺失值。
如果您已经有一个数据框,并且您有一个函数 get_column_type
从列名称中获取类型名称,您可以像这样重铸整个数据框:
import pyspark.sql.functions as F
select_expressions = [ F.col(column_name).cast(get_column_type(column_name)) for column_name in column_list]
recasted_df = df.select(*select_expressions)
parquet 文件将包含数据框中的任何列。如果您想要文件中的 1000 个字段,它们必须在数据框中,因此您必须用空值或其他一些值填充缺失值。
现在,如果你把所有这些点放在一起,你可能想做这样的事情:
id
字段和类型为 MapType 的 doc
字段。分解
文档字段,所以现在您有 3 列:id
、key
和 value
,其中一列每个文档中每个键 的行。此时,您可以写入 parquet 文件并完成该过程。如果您想要具有完整架构的数据框,则必须执行以下额外步骤:
pivoted_df = df.groupBy('id')。 pivot('key').agg(F.first('value')
df = df.withColumn('new_column', lit(None).cast(StringType())
id
。您可以将其写入 parquet,它将包含您的大架构中的所有列。关于apache-spark - PySpark:使用具有 1000 个字段但具有可变列数的行的模式创建 RDD->DF->Parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55111370/
为什么禁用类型像 type t = A of int | B of string * mutable int 虽然允许此类类型: type t = A of int | B of string * i
我正在寻找一种类似结构的数据结构,我可以从中创建多个实例并具有某种类型提示而不是不可变的。 所以我有这样的东西: class ConnectionConfig(NamedTuple): nam
我需要转到引用的结构: class SearchKnot { var isWord : Bool = false var text : String = "" var to
如sec 10.4.3中所述 当控制进入执行时,执行以下步骤 功能对象F(调用者)中包含的功能代码的上下文 提供thisArg,而调用方提供argumentsList: 如
i make a game that start display Activity indicator And activity indicator bottom display UiLable wi
编辑:我在这里不断获得支持。只是为了记录,我认为这不再重要。自从我发布它以来我就不再需要它了。 我想在 Scala 中执行以下操作... def save(srcPath: String, destP
使用可变对象作为 Hashmap 键是一种不好的做法吗?当您尝试使用已修改足以更改其哈希码的键从 HashMap 中检索值时,会发生什么? 例如,给定 class Key { int a; /
如果您在Kotlin中访问List类型的Java值,则将获得(Mutable)List!类型。 例如。: Java代码: public class Example { public stati
我编写了 str 类(内置)的以下扩展,以便执行以下操作:假设我有字符串 "Ciao" ,通过做"Ciao" - "a"我想要的结果是字符串 "Cio" 。这是执行此操作的代码,并且运行良好: cla
使用可变对象作为 Hashmap 键是一种不好的做法吗?当您尝试使用已修改足以更改其哈希码的键从 HashMap 中检索值时,会发生什么? 例如,给定 class Key { int a; /
我正在为我的公司设计一个数据库来管理商业贷款。每笔贷款都可以有担保人,可以是个人或公司,在借款业务失败时作为财务支持。 我有 3 个表:Loan、Person 和 Company,它们存储明显的信息。
我使用二进制序列化从 C# 类中保存 F# 记录。一切正常: F#: type GameState = { LevelStatus : LevelStatus
import javax.swing.JOptionPane; public class HW { public static void main(String[] args) { Strin
使用 flatbuffer mutable 有多少性能损失? 是否“正确”使用 FlatBuffers 来拥有一个应该可编辑的对象/结构(即游戏状态) 在我的示例中,我现在有以下类: class Ga
std::function create_function (args...) { int x = initial_value (args...); return [x] () mut
我需要在 for 循环中找到用户输入的字符。我通常会这样做 如果(句子[i] == 'e') 但是因为在这里,'e' 将是一个单字母字符变量,我不知道如何获取要比较的值。我不能只输入 if (sent
我有一个这样的算法: let seed: Foo = ... let mut stack: Vec = Vec::new(); stack.push(&seed); while let Some(ne
这个问题可能看起来非常基础,但我很难弄清楚如何做。我有一个整数,我需要使用 for 循环来循环整数次。 首先,我尝试了—— fn main() { let number = 10; // An
如果我有以下结构: struct MyStruct { tuple: (i32, i32) }; 以及以下函数: // This will not compile fn function(&mut s
我希望在每个 session 的基础上指定列的默认值。下面的脚本不起作用,但描述了我想如何使用它。我目前使用的是 MySQL 5.5.28,但如果需要可以升级。 CREATE TABLE my_tbl
我是一名优秀的程序员,十分优秀!