- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
使用 Spark 和 Java,我试图向现有的具有 n 列的数据集 [行] 添加一个整数标识列。
我使用 zipWithUniqueId()
或 zipWithIndex
成功添加了一个 id,甚至使用了 monotonically_increasing_id()
。但没有一个能令人满意。
示例:我有一个包含 195 行的数据集。当我使用这三种方法中的一种时,我得到一些像 1584156487 或 12036 这样的 ID。另外,这些 ID 不是连续的。
我需要/想要的非常简单:一个 Integer id 列,其值从 1 到 dataset.count() foreach 行,其中 id = 1 后跟 id = 2,等等。
我如何在 Java/Spark 中做到这一点?
最佳答案
你可以尝试使用row_number功能:
在Java中:
import org.apache.spark.sql.functions;
import org.apache.spark.sql.expressions.Window;
df.withColumn("id", functions.row_number().over(Window.orderBy("a column")));
或者在 Scala 中:
import org.apache.spark.sql.expressions.Window;
df.withColumn("id",row_number().over(Window.orderBy("a column")))
关于Java & Spark : add unique incremental id to dataset,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45480208/
我想在 MySQL 中创建一个基本的 users 表。 我不希望数据库中出现重复的电子邮件或重复的用户名。 在创建表时防止这种情况的最佳方法是什么? 和以下有什么区别: 1. UNIQUE(用户名),
不可能将用户或请求识别为唯一,因为欺骗是微不足道的。 但是,有一些方法组合起来可以阻止作弊尝试并为用户提供准独特的地位。 我知道以下内容: IP 地址 - 将每个访问者的 IP 地址存储在某种数据库中
我有 2 个表: attCatAppSet, attCatAppSet_translation 在这两个表上,我对 2 列(不是主键)应用了唯一约束,因此列对值不能重复。 GO ALTER TABLE
我目前有这个: class Committee(models.Model): # ...some fields... committee_xml_id = models.Integer
这个问题在这里已经有了答案: 关闭10 年前。 Possible Duplicate: how to alter live mysql table to make a key non unique
unique() 算法可以在序列中原地移除重复的元素,这就要求被处理的序列必须是正向迭代器所指定的。在移除重复元素后,它会返回一个正向迭代器作为新序列的结束迭代器。可以提供一个函数对象作为可选的第三个
我的模型中有一个这样的字段 name = models.CharField(max_length=100, unique=True) 但现在该表/模型有很多数据,需要更改True 到 False 但无
在 Typeorm 中,您可以在列选项中设置唯一标志,或将列设置为实体的唯一。 你什么时候会使用什么,有什么区别?@Unique(["firstName"]) https://typeorm.io/#
我创建了一个名为 state 的数据集来自内置矩阵state.x77有两个连续变量(人口和收入)和两个因素变量(区域和面积)。 我使用 tapply() 计算了按地区划分的平均收入, by() , a
关于 SQLite 的问题。 在 CREATE TABLE SQL 中,我们可以通过任何一种方式添加 UNIQUE 约束:列约束或表约束。我的问题很简单。它们的工作方式不同吗? 我能找到的唯一区别是,
我在 Django 1.8 中构建模型,我正在使用抽象继承(我假设这是导致问题的原因)。我有抽象模型,然后我有基于这些抽象模型的模型。我在某些模型之间也有 ForeignKey 和 ManyToMan
我见过几个示例表,一个是 UNIQUE INDEX,另一个是 UNIQUE KEY。两者有什么区别??还是两者都一样? 最佳答案 CREATE TABLE KEY 通常是 INDEX 的同义词。 您可
我试着比较了两者,一个是pandas.unique(),另一个是numpy.unique(),我发现后者实际上超过了第一个。 我不确定卓越是否是线性的。 谁能告诉我为什么在代码实现方面存在这种差异?在
使用 PowerShell,我通过“import-csv”将文件中的 csv-data 导入对象 $csvList。这个 csv 数据有一个名为 Benutzer 的列。当做这样的事情时: $csvL
我有一个名为 GroupMembers 的表,它表示参与网站上某些社区的用户列表。 列看起来像这样: groupId | accountId | role 如您所见,里面有一个名为“role”的
我需要一个不会因 Android 设备而改变的 ID,它在任何时候都应该是唯一的,即使 WIFI、SIM 卡、蓝牙不存在,以及当用户重置他/她的手机或刷新新操作系统时也是如此。 我知道这些 Id。IM
假设我有“主题”表 CREATE TABLE subject (id int PRIMARY KEY, name VARCHAR(255) **UNIQUE**) 和相关的映射对象, @Entity
好的,让我解释一下场景。我有一个“订单”表,其中有一个自动增量键“orderno”。该表也有一个字段“orderdate”。我想要的是格式化的订单号。 (orderno_formatted) 采用以下
我有一个 boost::multi_index_container 其元素是这样的结构: struct Elem { A a; B b; C c; }; 主键(在数据库意义上)
当前列是 VARCHAR(255) NOT NULL,那么如何将其更改为 TEXT NOT NULL? 注意:要更改其属性类型的列是另一列的 UNIQUE KEY 组合。例如 唯一键(名称、描述) 列
我是一名优秀的程序员,十分优秀!