- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 PySpark 数据框,其中的 StringType() 列主要包含 15 个字符。但是,有些行有 11 个字符。示例:
df =
+--------------+--------+
| code|state|
+--------------+--------+
|'334445532234553'|wa |
|'332452132234553'|mn |
|'45532234553' |fl |
|'679645532234553'|mo |
|'918535532234553'|ar |
|'174925532234553'|wi |
|'45532234553' |al |
|'928405532234553'|ca |
+--------------+--------+
我需要所有行都包含 11 个字符,并从包含 15 个字符的任何行中删除最后 4 个字符。所以这是我想要的输出:
df.show(8) =
+-------------+-----+
| code|state|
+-------------+-----+
|'33444553223'|wa |
|'33245213223'|mn |
|'45532234553'|fl |
|'67964553223'|mo |
|'91853553223'|ar |
|'17492553223'|wi |
|'45532234553'|al |
|'92840553223'|ca |
+-------------+-----+
到目前为止,我进行了这种转换,它从名为“代码”的列中的所有行中删除了最后 4 个字符:
from pyspark.sql.functions import substring, length, col, expr
df = df.withColumn("code",expr("substring(code, 1, length(code)-4)"))
所以我需要做一些事情来使这个以行内字符串的长度为条件。
编辑 在@gmds 的帮助下,我找到了这个解决方案:
df.withColumn("code",expr("substring(code, 1, 11)"))
最佳答案
这个怎么样:
df.withColumn('code', df['code'].substr(1, 11))
你的想法是对的;只是当您真正想要一个常量时,您为子字符串的长度提供了一个变化的值。
关于python - 如何根据列中字符串的长度有条件地从 PySpark Dataframe StringType() 列中删除字符子串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55778505/
@Override public Option getCatalystType(int sqlType, String typeName, int size, MetadataBuilder md)
我正在尝试运行一些测试。即 assertDataFrameEquals(etalon, agg) 在 2 个数据帧上。但是得到如下错误 ScalaTestFailureLocation Expecte
我拿了一些在django 1.8.4版本做的样例代码,像python 2.7转3 python都飞走了,出现这样的错误,如何解决? \lib\site-packages\config.py", lin
我有一个 PySpark 数据框,其中的 StringType() 列主要包含 15 个字符。但是,有些行有 11 个字符。示例: df = +--------------+--------+ |
当转换为 StringType 时,DenseVector 输出中的额外值是什么? 以下应该是可重现的。 spark = pyspark.sql.SparkSession.builder.getOrC
我写了一个UDF。它非常慢。我想用 pandas_udf 替换它以利用矢量化。 实际的 udf 有点复杂,但我创建了一个简化的玩具版本。 我的问题:是否可以将玩具示例中的 UDF 替换为可以利用矢量化
嘿伙计们,我正在尝试映射我的代码中类型为字符串的属性名称。当我创建映射类并尝试为其分配类型时,我使用以下语法: 属性(x => x.Name, m => { ... m.Type(new String
我在本地计算机2.0版上运行scala。 val schema = StructType(schemaString.split("|^").map(fieldName =>StructField(fi
我在 Scala 测试中有这个错误: StructType(StructField(a,StringType,true), StructField(b,StringType,true), Struct
Scala 2.10 在这里使用 Spark 1.6.2。我有一个与 this one 类似(但不相同)的问题,然而,接受的答案不是 SSCCE并假设对 Spark 有一定的“前期知识”;因此我无法复
在读取不一致的架构写入组 parquet 文件时,我们在架构合并方面遇到问题。切换到手动指定模式时,出现以下错误。任何指针都会有所帮助。 java.lang.UnsupportedOperationE
我有一个RDD[(Seq[String], Seq[String])],数据中包含一些空值。转换为数据帧的 RDD 如下所示 +----------+----------+ | col1|
在读取不一致的架构写入组 parquet 文件时,我们在架构合并方面遇到问题。切换到手动指定模式时,出现以下错误。任何指针都会有所帮助。 java.lang.UnsupportedOperationE
我正在运行 PySpark v1.6.0,并且有一列字符串值(根据 .printSchema),但是当我尝试根据列值以“[”字符开头或包含的情况过滤行时一个“,”字符,在这两种情况下,都表示我期望评估
我有一些使用 Hibernate 3 的代码/应用程序。 它的调用方式如下: query.setParameter("MRC", getPageName(), new StringType()); q
我正在尝试在我的数据集上运行 PySpark 中的 FPGrowth 算法。 from pyspark.ml.fpm import FPGrowth fpGrowth = FPGrowth(items
我有一个包含字符串列的数据框,我计划使用 spark 和 scala 将其用作 k-means 的输入。我正在使用以下方法转换数据框的字符串类型列: val toDouble = udf[Doubl
这是我的代码: import org.apache.spark.sql.SparkSession import org.apache.spark.sql.types._ import org.apac
有什么区别: isinstance(foo, types.StringType) 和 isinstance(foo, basestring) ? 最佳答案 对于 Python2:basestring
我最近从 VS2005 升级到 VS2010。在我的 .Net 2.0 代码中,我引用了 Microsoft.VisualBasic.dll 并使用了 StringType.StrLike方法执行 g
我是一名优秀的程序员,十分优秀!