apache-spark - 如何在 PySpark SQL/Dataframes 中的 RLIKE 中使用单词边界-6ren

apache-spark - 如何在 PySpark SQL/Dataframes 中的 RLIKE 中使用单词边界

转载作者：行者123 更新时间：2023-12-04 14:23:59

我尝试在我的 Spark SQL/Dataframe 查询中使用 RLIKE 中的单词边界，但它似乎不起作用。

from pyspark.sql.functions import * 

usersDf.select('id', 'display_name', 'location') \
    .where(expr('location RLIKE "\\b(United States|America|USA|US)\\b"')) \
    .limit(20) \
    .show(20, False)

怎么了？我也试过 \b ...

最佳答案

你逃得还不够。

df = spark.createDataFrame([" US ", "FUSS"], "string")
df.where("value RLIKE '\\\\bUS\\\\b'").show()

# +-----+
# |value|
# +-----+
# |  US |
# +-----+

df.where("value NOT RLIKE '\\\\bUS\\\\b'").show()
# +-----+
# |value|
# +-----+
# | FUSS|
# +-----+

应该是这样

'location RLIKE "\\\\b(United States|America|USA|US)\\\\b"'

如果您检查执行计划，就会看到这一点。你的

df.where("value NOT RLIKE '\\bUS\\b'").explain()
# == Physical Plan ==
# *(1) Filter (isnotnull(value#33) && NOT value#33 RLIKEU)
# +- Scan ExistingRDD[value#33]

与正确的相比:

df.where("value NOT RLIKE '\\\\bUS\\\\b'").explain()
# == Physical Plan ==
# *(1) Filter (isnotnull(value#33) && NOT value#33 RLIKE \bUS\b)
# +- Scan ExistingRDD[value#33]

关于apache-spark - 如何在 PySpark SQL/Dataframes 中的 RLIKE 中使用单词边界，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49838591/

文章推荐： angular - 无法在 Angular 4 中监视注入(inject)服务的方法

文章推荐： oauth-2.0 - Google 服务帐户和工作表权限

文章推荐： Python 单元测试适用于 Pycharm，但不适用于终端

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - 如何在 PySpark SQL/Dataframes 中的 RLIKE 中使用单词边界