python - PySpark 中别名方法的用途是什么？-6ren

python - PySpark 中别名方法的用途是什么？

转载作者：行者123 更新时间：2023-12-02 11:40:49

27

4

在使用 Python 学习 Spark 时，我很难理解 alias 方法的目的及其用法。 documentation显示它用于创建具有新名称的现有 DataFrame 副本，然后将它们连接在一起:

>>> from pyspark.sql.functions import *
>>> df_as1 = df.alias("df_as1")
>>> df_as2 = df.alias("df_as2")
>>> joined_df = df_as1.join(df_as2, col("df_as1.name") == col("df_as2.name"), 'inner')
>>> joined_df.select("df_as1.name", "df_as2.name", "df_as2.age").collect()
[Row(name=u'Bob', name=u'Bob', age=5), Row(name=u'Alice', name=u'Alice', age=2)]

我的问题分为两部分:

别名输入的目的是什么？当我们已经将新的 DataFrame 分配给变量 df_as1 时，给出别名字符串 "df_as1" 似乎是多余的。如果我们改用 df_as1 = df.alias("new_df")，"new_df" 会出现在哪里？
一般来说，alias 函数什么时候有用？上面的示例感觉有点人为，但从探索教程和示例来看，它似乎经常被使用——我只是不清楚它提供了什么值(value)。

编辑:我最初的一些困惑来自于 DataFrame 和 Column 都有 alias 方法。尽管如此，我仍然对上述两个问题感到好奇，问题 2 现在也适用于 Column.alias。

最佳答案

变量名称无关紧要，可以是您喜欢的任何名称。这是将在字符串列标识符和打印输出中使用的别名。
我认为别名的主要目的是为了实现更好的简洁性并避免列名冲突时可能出现的混淆。例如，在您搜索该列中的最大值后，为了简洁起见，简单的“age”可以别名为“max_age”。或者，您可以将公司员工的数据框架与其自身连接起来并进行过滤，以便获得经理-下属对。在这种情况下使用“manager.name”等列名可能会很有用。

关于python - PySpark 中别名方法的用途是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46329371/

27

4

0

文章推荐： c++14 - Emscripten 和 C++14

文章推荐： java - 如何使用 Java 8 访问 Excel 作为数据库

文章推荐： vba - 使用 VBA 中的表格生成完全格式化的电子邮件

03、XML 用途
XML可以应用于 WEB 开发的许多方面，常用于简化数据的存储和共享 XML 把数据从 HTML 分离现在的HTML 文档一般都是显示动态数据，每当数据改变时将花费大量的时间来编辑 HTML
lambda - 使用任意数量参数的过程的目的/用途？
在类(class)(方案)中，我们最近学习了允许函数接受任意数量参数的语法，例如； (define len (lambda args (length args))) >(len 1 2 3
Redis "evicted_keys"用途
在 redis-cli 中执行 info 命令时，会列出与该服务器相关的所有信息。 “evicted_keys”的目的是什么？最佳答案 Redis 可以配置为根据需要自动清除键。如果这样配置，red
Golang空结构体struct{}用途,你知道吗
golang 空结构体 struct{} 可以用来节省内存 ? 1
iphone - info.plist 用途
有人可以解释一下资源文件夹中的 Info.plist 是什么吗？我如何在我的应用程序中使用它？提前致谢。最佳答案您可以在Info.plist文件中为所有类型的设备指定不同的常规资源和应用程序配置，
delphi - 进口“用途”管理
我需要减小可执行文件的大小，并且经常在我的可执行文件中将某些“不必要的” uses占用一定的大小。例如： Unit1连接到Unit2，但是两个单元的导入为“ System.SysUtils”。然后
oop - 多态性的真正意义(用途)是什么
我是 OOP 的新手。虽然我了解多态是什么，但我无法真正使用它。我可以有不同名称的函数。为什么我应该尝试在我的应用程序中实现多态性。最佳答案在严格类型化的语言中，多态性对于拥有不同类型对象的列表/
c# - 不同的委托(delegate)用途
Possible Duplicate: What is the difference between a delegate and events? Possible Duplicate: Differ
java - 描述 API 用途
这个问题在这里已经有了答案: Custom index.html javadoc page? (2 个答案) 关闭 7 年前。我使用的是eclipse。一般情况下我们可以使用javadoc.exe
c# - ValidateAntiForgeryToken 用途、解释和示例
你能解释一下吗ValidateAntiForgeryToken目的并向我展示有关 MVC 4 中的 ValidateAntiForgeryToken 的示例？我找不到任何解释此属性的示例？最佳答案
swift - Observable 的 RxSwift 用途
我正在学习 RxSwift 并试图了解 Observable 和 PublishSubject aka Sequence 之间的主要区别。据我了解，Sequences/PublishesSubjec
Azure 表存储 TableContinuationToken NextTableName 用途
有时有人说，在使用 Azure 表时，实际上存在第三个关键分区数据 - 表名称本身。我在执行分段查询时注意到 TableContinuationToken 有一个 NextTableName 属性。
ios - AudioBufferList 的 AurioTouch 用途
在Apple提供的aurioTouch项目中，听说在performRender()函数下的AudioController文件中的AudioBufferList ioData携带了mic到音频播放器的音
c# - CacheItem regionName 属性责任/用途？
MSDN 文档没有详细解释它的用途。由于它是可选的，我几乎假设它类似于某种元数据。我现在如何看待它，我想用它来为特定用户指定缓存，例如: new CacheItem(key: "keyName",
javascript - 对于非 SPA 用途，应如何处理项目级捆绑？
我正在学习 browserify，我正在尝试用它做两件基本的事情: 转换(通过 shim)非 CommonJS 模块以实现易用性和依赖跟踪捆绑项目特定的库我找到了一个工作流程，说明如何使用 Gul
erlang - iex 中断菜单中有什么 (k)ill 用途？
我通过按 CTRL + C 访问 eix 1.8.2 的 Break 菜单。它看起来像这样: BREAK: (a)bort (c)ontinue (p)roc info (i)nfo (l)oaded
android - viewModelScope.launch(Dispatchers.IO) 用途
在 codeLabs 教程(Android - Kotlin - Room with a View)中，他们使用“viewModelScope.launch(Dispatchers.IO)”来调用插入
erlang - iex 中断菜单中有什么 (k)ill 用途？
我通过按 CTRL + C 访问 eix 1.8.2 的 Break 菜单。它看起来像这样: BREAK: (a)bort (c)ontinue (p)roc info (i)nfo (l)oaded
compression - 高压缩视频中出现 block 的原因/用途/原因是什么？
请耐心等待，因为我没有太多地使用压缩算法，所以这对你们中的一些人来说可能是显而易见的。当某些流媒体视频开始滞后时，我总是注意到这一点。当我看到这个问题时我才意识到我很好奇: Twitter image
java - 内部接口(interface)和子接口(interface)之间的不同(用途)
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 3 年前。 Improv

首页

博学

6Ren·AI

商城

python - PySpark 中别名方法的用途是什么？