sas - 在具有重复 BY 值的 SET 或 MERGE 中使用多个数据集时，为什么我的变量不会在数据步骤之间重置？-6ren

sas - 在具有重复 BY 值的 SET 或 MERGE 中使用多个数据集时，为什么我的变量不会在数据步骤之间重置？

转载作者：行者123 更新时间：2023-12-04 20:00:35

33

4

在 set 语句中运行包含两个数据集的数据步骤时，有时变量不会在迭代之间重置为缺失。当您有重复值时(即，当您的 by 变量不保证唯一记录时)，merge 也是如此。

例如:

data have1;
  do x=1 to 5;
    y=1;
    output;
  end;
run;

data have2;
  do x = 6 to 10;
     z=x+1;
     output;
  end;
run;

data want;
  set have1 have2;
  if missing(y) and mod(z,2)=0 then y=2;
run;

在这里，y 为来自 have2 的 every 记录赋予值 2，而不是仅偶数 z 值。

同样，

data have1;
  do x = 1 to 5;
    y=1;
    output;    
  end;
run;

data have2;
  do x = 1 to 5;
    do z = 1 to 4;
       output;
    end;
  end;
run;

data want;
  merge have1 have2;
  by x;
  if mod(z,4)=3 then y=3;
run;

为什么会发生这种情况，如何防止它造成意想不到的后果？

最佳答案

为什么会这样？

正如在 Combining SAS Datsets: Methods 中的 SAS 文档中详细讨论的那样，这是因为在 set、merge 或 update 语句上定义的变量在数据步骤(这相当于对传入数据集上的所有变量使用 retain)。

对于第一个例子，这自然地遵循了 retain 概念:y 被保留，所以当它没有被 set< 中的新记录替换时 的值为 y，它保留其最后一个值。 (正如我们稍后将看到的，它被清除一次:当 set 数据集发生变化时，因此它不再具有先前数据集中的早期值)。

但是，这并不能完全解释合并的功能(它是如何来回进行的)。这是由涉及 by 组时的不同行为引起的。

具体来说，变量不会在每个数据步迭代之间设置为缺失；但是，对于每个新的组或数据集，它们被设置为缺失。来自文档:

The values of the variables in the program data vector are set to missing each time SAS starts to read a new data set and when the BY group changes.

这就是为什么第二个示例在 z 的前两次迭代中将 y 设置回 1，但在 z 中保持为 3 =4 迭代。

按顺序，用 z 值标记每个迭代:

Z=1: by group 的第一条记录，所以一切都设置为缺失。 HAVE1 被读取，HAVE2 被读取。 X=1, Y=1, Z=1 都设置好了。
Z=2:读取have2的第二条记录。 y 保留上一次迭代的值 1。
Z=3:读取have2的第三条记录。 y 设置为 3。
Z=4:读取have2的第四条记录。 y 保留上一次迭代的值 3。

请注意，HAVE1 仅在 z=1 迭代中被读取一次。如果这是一个多对多合并，HAVE1 将针对具有相同 x 值的每个不同行读取一次。

我们如何防止它发生？

您有多种选择来处理这个问题，假设您希望它表现得好像它没有自动保留一样。

添加 by 语句

如前所述，在新的 by 值上，它会自动将所有内容重置为缺失。所以如果你跑了

data want;
  set have1 have2;
  by x;
  if missing(y) and mod(z,2)=0 then y=2;
run;

这会按预期工作(尽管这里给出的结果略有不同)。

自行设置部分或全部变量为 missing

您可以在两个地方执行此操作:

data want;
  set have1 have2;
  if missing(y) and mod(z,2)=0 then y=2;
  output;
  call missing(of _all_);
run;

或

data want;
  y=.;
  set have1 have2;
  if missing(y) and mod(z,2)=0 then y=2;
run;

根据您的需要，一个或另一个可能更适合您的程序(第一个将所有内容设置为缺失，但需要一个额外的语句(输出；)，而第二个仅设置 y 到 missing(这是所有需要的)但通过将 y 放在第一位来更改变量顺序。

对于具有重复 by 值的 merge，如果您想保留 y 的值，您可能需要执行以下操作:

data want;
  merge have1 have2;
  by x;
  y_new=y;
  if mod(z,4)=3 then y_new=3;
  rename y_new=y;
  drop y;
run;

它通过使用单独的变量来存储新值来解决问题。如果需要，您也可以将其设置为与上述类似的缺失。

关于sas - 在具有重复 BY 值的 SET 或 MERGE 中使用多个数据集时，为什么我的变量不会在数据步骤之间重置？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25251177/

33

4

0

文章推荐： meteor & Mongo : addToSet inserting

文章推荐： python-3.x - pandas Dataframe 中最受欢迎的单词数

文章推荐： json - 如何使用prototype.js解析json数据并遍历它？

文章推荐： vba - 删除列中具有重复信息的行

merge - mercurial中 merge 子存储库的多个分支的 merge 历史
我从一个 Mercurial 存储库开始，它有多个我试图 merge 到其中的子存储库，就好像它们一直是主存储库的一部分一样。它们从一开始就不应该是子存储库。我整理了一个将旧历史转换为单个存储库的过
git - 将 merge merge 为一个 merge
假设我有一个主线分支和一个功能分支。我已经多次将主线分支 merge 到功能分支中，但只有少数非常小的 merge 冲突。我想清理历史，以便最后只有一个 merge 。执行此操作的最佳方法是什么？最
python - heapq.merge : after merge the result of merge, 原合并为空
首先我使用heapq.merge创建了a&b的两个结果，但是在mergea&b之后，我发现a的列表是空的。 >>> a=merge([1,2],[3,4]) >>> b=merge([4,5],[6,
git - 如何重新 merge merge 但保持 merge 提交
我和我的团队正在使用远离主轨道 (origin/dev) 的远程分支 (origin/our_feature_branch) 开发一项功能。 Gerrit用于审查等。使用 git merge ori
git fake merge(将提交标记为 merge 而没有真正的 merge )
这个问题在这里已经有了答案: Is there a way to merge with Strategy "ours" without producing a new commit? (1 个回答)
GitLab 无法自动 merge 。 merge 请求包含必须解决的 merge 冲突
GitLab 无法自动 merge 请求。所有 merge 请求都会收到消息“此 merge 请求包含必须解决的 merge 冲突。您可以在命令行上手动尝试” 消息似乎不正确，我通过使用“git br
GIT:如何在不实际 merge 文件的情况下 merge 两个分支(简单 merge )
git 有没有办法在不 merge 文件的情况下 merge 两个分支？换句话说就是绘制 merge 箭头。假设我有分支 A 和 B。我需要将分支 B merge 到 A，但不需要 B 中的所有更改
git - 使用git子树 merge ，同时也 merge 所有 merge 子树的所有分支
我想使用提供 git 集成的流行的开源问题跟踪器 (Redmine)。不幸的是，跟踪器中的每个项目只能与一个 git repo 相关联。在跟踪器中创建多个项目不是我理想的设置。考虑到这一点，我尝试使
git - 当正在 merge 的分支已经 merge 并恢复时，如何强制 merge 提交？
在我们的存储库中，我们遵循基于 git-flow 的工作流程。我们有一个已完成的发布(安装在生产环境中)，因此发布分支已 merge 到主分支中。 B---C---D---E [release
git - 当不可能进行快进 merge 时，如何防止 merge 回退到正常的 merge 策略？
git merge 命令有一个执行快进 merge 的选项，但这不是我想要的，因为如果它不能执行快进 merge ，它会使用普通 merge . 是否有一个 git 命令仅执行快进 merge (从跟
merge - "TF14083: The item {0} has a pending merge from the current merge operation"合并TFS2008时
尝试合并 TFS2008 时出现此错误。源分支或目标分支上都没有挂起的更改。 TF14083: The item {0} has a pending merge from the current me
git - github merge "pull-request"和gitlab merge "merge-request"的区别
为了更好地理解这些操作，我想知道 github 或 gitlab 到底是如何 merge 这些请求的。当压缩、 rebase 、 merge ......时详细执行哪些 git 命令？最佳答案 PR
git - github merge "pull-request"和gitlab merge "merge-request"的区别
为了更好地理解这些操作，我想知道 github 或 gitlab 到底是如何 merge 这些请求的。当压缩、 rebase 、 merge ......时详细执行哪些 git 命令？最佳答案 PR
merge - 如何只 merge 一些文件？
我试图将提交的一部分从默认分支(不是所有文件和其他文件的部分) merge 到一个命名分支。我试过 graft ，但它只需要整个提交，而没有给我选择的机会。这将如何完成？例子: A---B---C-
merge - Mercurial merge 会生成标记为已修改但二进制相等的文件
我正在进行 merge ，此时我已准备好提交，但我在 TortoiseHg 中的提交对话框显示许多文件已修改，但是当我与 parent 进行比较时，它说所有文件都是二进制相等的。我没有也从未有过 e
merge - DB2 MERGE 语句错误
我已经尝试了以下几种变体，但我仍然遇到错误。有什么办法可以解决这个问题。 DB2 10.1(DB2 for z/OS V10) 对于以下 MERGE INTO TRGT t USING SRC s O
merge - Neo4j:MERGE 创建重复节点
我的数据库模型有用户和 MAC 地址。一个用户可以有多个MAC地址，但一个MAC只能属于一个用户。如果某个用户设置了他的 MAC，并且该 MAC 已经链接到另一个用户，则现有关系将被删除，并在新所有者
merge 多个 merge 时减少噪音的Git程序？
假设我有一个新功能，所以我创建了一个新分支。这个分支是一个会持续很长时间的副项目，所以我最终将 master merge 回它以使其保持最新状态。这已经发生了 50 次，因为我一直在更新它并消除该功能
merge - 如何继续 Mercurial merge
过去几个小时我在 Mercurial 中进行了一次巨大的 merge 。 merge 131 个文件后，我的 merge 工具 meld 崩溃，显示 python 回溯。在尝试退出 meld 时，我无
Git merge - merge 后的分支会发生什么？
我有一个关于 git merge 的问题。假设我的存储库中有两个分支(本地和远程):master 和 test。当我在测试分支上工作时，主分支被其他人更新了。在终端中，我写: git checkout

首页

博学

6Ren·AI

商城

sas - 在具有重复 BY 值的 SET 或 MERGE 中使用多个数据集时，为什么我的变量不会在数据步骤之间重置？