gpt4 book ai didi

python - 如何使用 pyspark 过滤不包含任何子字符串列表的数据框行

转载 作者:行者123 更新时间:2023-12-01 08:49:39 25 4
gpt4 key购买 nike

我有一个带有 Spark 1.6 的 python DataFrame。例如

DF= ("timestamp","canal", "name")

示例数据:

   [('1980-02-24'),('google.com/General'),('Alice')]
[('1980-02-24'),('google.com/Dataset'),('bob')]
[('1980-02-24'),('googleserach.com'),('Malik')]
[('1980-02-24'),('googlesearch.com/AIPlateforme'),('AliceBob')]
[('1980-02-24'),('yahooserach.com'),('Bob2')]
[('1980-02-24'),('yahoosearch.com/AIPlateforme'),('Alice2')]

DF.count() = 6

我想获取“canal” 不包含 子字符串 googleserach.com的所有行和 yahoosearch

我创建了一个变量:

canal_2 = "googleserach.com,yahoosearch"

然后:

解决方案1:

result = DF.filter(~DF.canal.isin (canal_2)) ==> does not work
result.count() = 6

解决方案2:

if (canal2 not in DF.canal) ==> invalid syntax

如何在我的 DataFrame 上进行过滤以获取“canal”不包含 googlesearchyahoosearch 的行?

谢谢

最佳答案

rlikeregex 可以使用。

regexNegativeLB= "^/(?!googlesearch|yahoosearch)$"
newDF= DF.filter(DF["canal"].rlike(regexNegativeLB))

https://www.rexegg.com/regex-lookarounds.html -- 引用负向前瞻

关于python - 如何使用 pyspark 过滤不包含任何子字符串列表的数据框行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53178705/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com