python - 如何根据列中字符串的长度有条件地从 PySpark Dataframe StringType() 列中删除字符子串？-6ren

python - 如何根据列中字符串的长度有条件地从 PySpark Dataframe StringType() 列中删除字符子串？

转载作者：行者123 更新时间：2023-12-04 15:45:58

27

4

我有一个 PySpark 数据框，其中的 StringType() 列主要包含 15 个字符。但是，有些行有 11 个字符。示例:

df = 
+--------------+--------+
|             code|state|
+--------------+--------+
|'334445532234553'|wa   |
|'332452132234553'|mn   |
|'45532234553'    |fl   |
|'679645532234553'|mo   |
|'918535532234553'|ar   |
|'174925532234553'|wi   |
|'45532234553'    |al   |
|'928405532234553'|ca   |
+--------------+--------+

我需要所有行都包含 11 个字符，并从包含 15 个字符的任何行中删除最后 4 个字符。所以这是我想要的输出:

df.show(8) = 
+-------------+-----+
|         code|state|
+-------------+-----+
|'33444553223'|wa   |
|'33245213223'|mn   |
|'45532234553'|fl   |
|'67964553223'|mo   |
|'91853553223'|ar   |
|'17492553223'|wi   |
|'45532234553'|al   |
|'92840553223'|ca   |
+-------------+-----+

到目前为止，我进行了这种转换，它从名为“代码”的列中的所有行中删除了最后 4 个字符:

from pyspark.sql.functions import substring, length, col, expr

df = df.withColumn("code",expr("substring(code, 1, length(code)-4)"))

所以我需要做一些事情来使这个以行内字符串的长度为条件。

编辑在@gmds 的帮助下，我找到了这个解决方案:

df.withColumn("code",expr("substring(code, 1, 11)"))

最佳答案

这个怎么样:

df.withColumn('code', df['code'].substr(1, 11))

你的想法是对的；只是当您真正想要一个常量时，您为子字符串的长度提供了一个变化的值。

关于python - 如何根据列中字符串的长度有条件地从 PySpark Dataframe StringType() 列中删除字符子串？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55778505/

27

4

0

文章推荐： angular - 如何从 $event 获取 Angular 项？

文章推荐： javascript - 安装扩展后找不到模块

文章推荐： dialogflow-es - Dialogflow V2 API

文章推荐： python-3.x - 将本地机器上的 MongoDB 迁移到 Mongo Atlas

java - StringType 问题 : Exception in thread "main" scala. MatchError : org. apache.spark.sql.types.StringType@
@Override public Option getCatalystType(int sqlType, String typeName, int size, MetadataBuilder md)
arrays - ScalaTestFailureLocation 预期的 StructField(value1,ArrayType(StringType,true),false) 实际的 StructField(val2,ArrayType(StringType,true),true)
我正在尝试运行一些测试。即 assertDataFrameEquals(etalon, agg) 在 2 个数据帧上。但是得到如下错误 ScalaTestFailureLocation Expecte
python - 导入错误 : cannot import name 'StringType'
我拿了一些在django 1.8.4版本做的样例代码，像python 2.7转3 python都飞走了，出现这样的错误，如何解决？ \lib\site-packages\config.py", lin
python - 如何根据列中字符串的长度有条件地从 PySpark Dataframe StringType() 列中删除字符子串？
我有一个 PySpark 数据框，其中的 StringType() 列主要包含 15 个字符。但是，有些行有 11 个字符。示例: df = +--------------+--------+ |
apache-spark - Spark DenseVector 的输出转换为 StringType
当转换为 StringType 时，DenseVector 输出中的额外值是什么？以下应该是可重现的。 spark = pyspark.sql.SparkSession.builder.getOrC
arrays - pandas_udf 对两个 ArrayType(StringType()) 字段进行操作
我写了一个UDF。它非常慢。我想用 pandas_udf 替换它以利用矢量化。实际的 udf 有点复杂，但我创建了一个简化的玩具版本。我的问题:是否可以将玩具示例中的 UDF 替换为可以利用矢量化
nhibernate - 用于 Nhibernate 映射的 StringType 按代码
嘿伙计们，我正在尝试映射我的代码中类型为字符串的属性名称。当我创建映射类并尝试为其分配类型时，我使用以下语法: 属性(x => x.Name, m => { ... m.Type(new String
scala - 错误:找不到:值StructType/StructField/StringType
我在本地计算机2.0版上运行scala。 val schema = StructType(schemaString.split("|^").map(fieldName =>StructField(fi
scala - StructField(a,StringType,false) 中的错误。这是假的，应该是真的
我在 Scala 测试中有这个错误: StructType(StructField(a,StringType,true), StructField(b,StringType,true), Struct
scala - 将 StringType 列添加到现有 Spark DataFrame，然后应用默认值
Scala 2.10 在这里使用 Spark 1.6.2。我有一个与 this one 类似(但不相同)的问题，然而，接受的答案不是 SSCCE并假设对 Spark 有一定的“前期知识”；因此我无法复
scala - pySpark:java.lang.UnsupportedOperationException:未实现类型:StringType
在读取不一致的架构写入组 parquet 文件时，我们在架构合并方面遇到问题。切换到手动指定模式时，出现以下错误。任何指针都会有所帮助。 java.lang.UnsupportedOperationE
scala - Some(null) 到 Stringtype nullable scala.matcherror
我有一个RDD[(Seq[String], Seq[String])]，数据中包含一些空值。转换为数据帧的 RDD 如下所示 +----------+----------+ | col1|
scala - pySpark:java.lang.UnsupportedOperationException:未实现类型:StringType
在读取不一致的架构写入组 parquet 文件时，我们在架构合并方面遇到问题。切换到手动指定模式时，出现以下错误。任何指针都会有所帮助。 java.lang.UnsupportedOperationE
python - 带逗号的 PySpark 值不包含逗号？ (尝试转换为 ArrayType(StringType()))
我正在运行 PySpark v1.6.0，并且有一列字符串值(根据 .printSchema)，但是当我尝试根据列值以“[”字符开头或包含的情况过滤行时一个“，”字符，在这两种情况下，都表示我期望评估
java - Hibernate 3 - 可以安全地重用 IntegerType/StringType 等对象吗？
我有一些使用 Hibernate 3 的代码/应用程序。它的调用方式如下: query.setParameter("MRC", getPageName(), new StringType()); q
python - 在 PySpark 中将 StringType 转换为 ArrayType
我正在尝试在我的数据集上运行 PySpark 中的 FPGrowth 算法。 from pyspark.ml.fpm import FPGrowth fpGrowth = FPGrowth(items
scala - VectorAssembler 不支持 StringType 类型的 scala spark 转换
我有一个包含字符串列的数据框，我计划使用 spark 和 scala 将其用作 k-means 的输入。我正在使用以下方法转换数据框的字符串类型列: val toDouble = udf[Doubl
scala - Spark 未检测到 dateType，并且无法将 stringType 转换为 DateType
这是我的代码: import org.apache.spark.sql.SparkSession import org.apache.spark.sql.types._ import org.apac
python - basestring 和 types.StringType 之间的 python 区别？
有什么区别: isinstance(foo, types.StringType) 和 isinstance(foo, basestring) ? 最佳答案对于 Python2:basestring
c# - C# 中的 Glob 匹配 - StringType.StrLike 显然已弃用，替代品是什么？
我最近从 VS2005 升级到 VS2010。在我的 .Net 2.0 代码中，我引用了 Microsoft.VisualBasic.dll 并使用了 StringType.StrLike方法执行 g

首页

博学

6Ren·AI

商城

python - 如何根据列中字符串的长度有条件地从 PySpark Dataframe StringType() 列中删除字符子串？