在 SAS 中对几乎排序的数据集进行排序-6ren

在 SAS 中对几乎排序的数据集进行排序

转载作者：行者123 更新时间：2023-12-04 07:37:21

26

4

我在 SAS 中有一个大数据集，我知道它几乎已排序；我知道第一级和第二级是排序的，但第三级不是。此外，第一级和第二级包含大量不同的值，因此当我知道前两列的顺序已经正确时，再对前两列进行排序就更不理想了。数据示例如下所示:

ID标签频率
1 乔恩 20
约翰一书 5
2 马修 2
2 马修 7
2 马特 5
3 国家 1
3 娜塔莉 4

在 proc 排序上使用“预排序”选项似乎只检查数据是否按每个键排序，否则它会对数据进行完整排序。有没有办法告诉 SAS 前两列已经排序？

最佳答案

如果您之前已按前 2 个变量对数据集进行排序，则不管 sortedby数据集上的信息，SAS 将花费更少的 CPU 时间对其进行排序 *.这是大多数体面的排序算法的自然属性 - 对已经几乎排序的东西进行排序的工作要少得多。

* 只要你不使用 force proc sort 中的选项语句，这会强制它进行冗余排序。

这是我运行的一个小测试:

option fullstimer;
/*Make sure we have plenty of rows with the same 1 + 2 values, so that sorting by 1 + 2 doesn't imply that the dataset is already sorted by 1 + 2 + 3*/
data test;
    do _n_ = 1 to 10000000;
        var1 = round(rand('uniform'),0.0001);
        var2 = round(rand('uniform'),0.0001);
        var3 = round(rand('uniform'),0.0001);
        output;
    end;
run;

/*Sort by all 3 vars at once*/
proc sort data = test out = sort_all;
    by var1 var2 var3;
run;

/*Create a baseline dataset already sorted by 2/3 vars*/
/*N.B. proc sort adds sortedby information to the output dataset*/
proc sort data = test out = baseline;
    by var1 var2;
run;

/*Sort baseline by all 3 vars*/
proc sort data = baseline out = sort_3a;
    by var1 var2 var3;
run;

/*Remove sort information from baseline dataset (leaving the order of observations unchanged)*/
proc datasets lib = work nolist nodetails;
    modify baseline (sortedby = _NULL_);
    run;
quit;

/*Sort baseline dataset again*/
proc sort data = baseline out = sort_3b;
    by var1 var2 var3;
run;

我得到的相关结果如下:

SAS 用了 8 秒时间按所有 3 个变量对原始完全未排序的数据集进行排序。

SAS 从已经按 2/3 变量排序的基线数据集开始，用 4 秒钟按 3/3 排序。

SAS 花了 4 秒钟从相同的基线数据集开始按 3/3 进行排序，在从中删除排序信息后。

日志输出的相关指标是用户 CPU 时间量。

当然，如果几乎排序的数据集非常大并且包含许多其他变量，您可能希望在替换时避免由于写入开销而导致的排序。您可以采用的另一种方法是创建一个复合索引 - 例如，这将允许您执行涉及组处理的操作。

/*Alternative option - index the 2/3 sorted dataset on all 3 vars rather than sorting it*/
proc datasets lib = work nolist nodetails;
    /*Replace the sort information*/
    modify baseline(sortedby = var1 var2);
    run;
    /*Create composite index*/
    modify baseline;
    index create index1 = (var1 var2 var3);
    run;
quit;

创建索引需要读取整个数据集，排序也是如此，但只需要重新写出它所涉及的工作的一小部分，并且在某些情况下可能比 2/3 到 3/3 排序快。

关于在 SAS 中对几乎排序的数据集进行排序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27131610/

26

4

0

文章推荐： ruby-on-rails - 忽略特定 rails route 的 Rack::Timeout 中间

文章推荐： internet-explorer - 请求头不在 Access-Control-Allow-Headers 列表中

文章推荐： xamarin.forms - 如何在 Xamarin Forms 中展开和折叠 ListView

c - (几乎)用于开关的非冲突简单哈希函数
我正在用 C 写一个高级计算器。正如你所猜到的，它目前有很多函数，我使用一个开关来对每个函数名进行适当的操作。它是这样的: switch(hash_of(function_name_currently
c# - (几乎)所有垃圾收集都是完全收集
在大约四天的时间里，我一直在收集托管应用程序的性能计数器。在此期间，发生了以下垃圾回收: 第 0 代:133,695 第一代:133,413 第 2 代:133,254 其中一些是使用GC.Colle
Mysql - 跨表排除有效..几乎
我构建了这个: [ Workshop_templates 表 ] id_template | Workshop_name 1 | Conflict resolution 2 | Building tr
python - (几乎)从列表中均匀选择项目
我有一个 N 的列表元素，我想抽样 M ( N/2 . IE。当超过一半的值被采样时。但它非常适合 M N/2 时反转问题。 : 注意:这实际上是创建一个大小为 N 的屏蔽列表对于 M 是 Fals
c - 显示相同输入的不同输出(几乎)
伙计们，我是竞争性编程的新手，我遇到了一个小问题在提供输入的同时在问题中，顶点数从 1 到 n但是我编写程序时考虑到节点是从 0 开始的但是当我通过从每个边的每个顶点减少 1 来输入测试用例时，我的
sql - 如何以特定顺序选择(几乎)唯一值
在一次旅行中，有多个停靠点，(一个停靠点 = 一个或多个订单加载或交付的地址)，按特定顺序排列。例如: Trip A Trip_order Action Place Ord
architecture - 出于项目推荐目的在微服务之间共享(几乎)相同的数据是否是个坏主意
我有一个关于由微服务组成的应用程序架构的问题。我的微服务很少，但在这个问题的上下文中有趣的是: 人力资源 - 这里存储了所有用户数据，如用户名、性别、用户体验等。工作机会 - 这里存储了每个招聘广
r - 存储(几乎)列表中工作区中的所有对象
假设我的工作空间(全局环境)中有许多对象，并且我想将大多数对象存储在列表中。这是一个简化的示例: # Put some objects in the workspace A <- 1 B <- 2 C
Firebase 服务器时间戳与本地(几乎)相同
当我获得与本地时间相同的时间戳时，firebase 生成的服务器时间戳是否会自动转换为本地时间，或者我错过了什么？ _firestore.collection("9213903123").docume
javascript - 如何将未知整数划分为给定数量的(几乎)偶数
我需要帮助才能将未知整数分成给定数量的偶数部分——或者至少尽可能地均匀。各部分之和应为原值，但各部分应为整数，且应尽可能接近。参数 num: Integer - 应该被分成相等部分的数字 parts
Java JScrollPane 滚动到底部......几乎
我的 Java 程序中有一个带有 JPanel 的 ScrollPane，它附加了大量文本。我需要 ScrollPane 在每次添加后滚动到最底部。我对以下代码的问题是它“几乎”滚动到底部但不是一直滚
python - 如何测试两个稀疏数组是否(几乎)相等？
我想检查两个稀疏数组是否(几乎)相等。而对于 numpy 数组，你可以这样做: import numpy as np a = np.ones(200) np.testing.assert_array_
javascript - 合并多个(几乎)重复的每个语句
我有以下一组几乎相同的 each 语句。我需要添加大约 20 个遵循类似模式的内容。我正在尝试找出如何获取小变量并将它们更新为单个语句(而不是 20 次相同但略有不同的内容)。 $.each(main
python - 获取两个字典中(几乎)匹配的键的值并将它们连接起来
所以我想获取两个字典中(几乎)匹配的键的值并将它们连接起来。我尝试过: dict3 = {key:dict1[key].strip() for key in dict2.keys() if key.p
mysql - 选择(几乎)重复的行
我的表看起来像这样: | id (int) | sentence (varchar) | 我想找到除了一个特定单词之外几乎相同的所有行。例如: | 230 | test | | 321 | test
c# - 如何正确封装对具有(几乎)相同模式的不同数据库系统的访问？
起始情况:MS SQL 中有一个现有的数据库模式，它与 MySQL 中的现有模式完全相同(数据库优先 - 无法更改，因为已广泛安装)。但是，它们在用于相应列的数据类型方面可能略有不同。该数据库系统必须
javascript - (几乎)总是在闭包中定义 Polymer？
对于复杂的元素，一个很好的做法是(几乎)总是在闭包中定义 Polymer 以保持所有只应在内部修改的变量和方法私有(private)，而不是将它们附加到元素(例如 'this ')? 喜欢以下内容:
java - (几乎)相同的代码在一个地方产生未经检查的分配，而在另一个地方则不会
我正在解析 Java 中的 RestAssured 调用，该调用返回对象列表。如果我使用此代码，Idea 会生成未经检查的分配警告: List availableInventories = ListP
css - 文本在(几乎)相同操作系统的相同浏览器中的位置不同
我真的被难住了。我所拥有的是一个样式化为矩形的 div，其中包含作为页面主要标题的文本。相关代码如下: HTML: SIN CSS: h1 { text-align:right
javascript - 选择(几乎)元素旁边的文本
我需要将单选按钮及其旁边的文本包装在标签中，只是为了更加用户友好。几天前我遇到了类似的问题，我有一个复选框，并且在我有一个 span 元素之后立即出现。我可以包装这两个元素。我有这个 HTML:

首页

博学

6Ren·AI

商城

在 SAS 中对几乎排序的数据集进行排序