gpt4 book ai didi

regex - 如何使用 pyspark 和正则表达式在字符串的 RDD 中查找以 my_str 开头的所有单词?

转载 作者:行者123 更新时间:2023-12-04 02:10:54 26 4
gpt4 key购买 nike

我有一个字符串 RDD(全部为小写),我想使用正则表达式来匹配或查找所有以“can”开头的单词。我如何在 Python 中执行此操作?

作为输入的例子

rdd = sc.parallelize(['canada','canpar','beauty','can']) 

我想要这样的输出

['canada','canpar','can']

这是一个 RDD。

最佳答案

使用字符串函数

filteredRDD = rdd.filter(lambda x: x.startswith('can'))

使用re模块

import re
filteredRDD = rdd.filter(lambda x: re.compile('can').match(x))

您可以通过将 filteredRDD 的内容收集为 filteredRDD.collect()

来测试结果

关于regex - 如何使用 pyspark 和正则表达式在字符串的 RDD 中查找以 my_str 开头的所有单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38512916/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com