sql - 使用 Proc sql 和 Teradata 在 SAS 中编写高效查询-6ren

sql - 使用 Proc sql 和 Teradata 在 SAS 中编写高效查询

转载作者：行者123 更新时间：2023-12-01 17:43:22

26

4

编辑:这是一组更完整的代码，它准确地显示了下面的答案所发生的情况。

libname output '/data/files/jeff'
%let DateStart = '01Jan2013'd;
%let DateEnd = '01Jun2013'd;
proc sql;
CREATE TABLE output.id AS (
  SELECT DISTINCT id
  FROM mydb.sale_volume AS sv
  WHERE sv.category IN ('a', 'b', 'c') AND
    sv.trans_date BETWEEN &DateStart AND &DateEnd
)
CREATE TABLE output.sums AS (
  SELECT id, SUM(sales)
  FROM mydb.sale_volue AS sv
  INNER JOIN output.id AS ids
    ON ids.id = sv.id
  WHERE sv.trans_date BETWEEN &DateStart AND &DateEnd
  GROUP BY id
)
run;

目标是简单地根据类别成员资格在表中查询某些 ID。然后我总结这些成员在所有类别中的事件。

上述方法远慢于:

运行第一个查询以获取子集
运行第二个查询，计算每个 ID 的总和
运行第三个查询以内部联接两个结果集。

如果我理解正确，确保所有代码完全传递而不是交叉加载可能会更有效。

<小时/>

昨天发布问题后，一位成员建议我提出一个更具体的关于性能的单独问题，这可能会对我的情况有所帮助。

我正在使用 SAS Enterprise Guide 编写一些程序/数据查询。我无权修改存储在“Teradata”中的基础数据。

我的基本问题是在此环境中编写高效的 SQL 查询。例如，我在一个大表(包含数千万条记录)中查询 ID 的一小部分。然后，我使用这个子集再次查询更大的表:

proc sql;
CREATE TABLE subset AS (
  SELECT
    id
  FROM
    bigTable
  WHERE
    someValue = x AND
    date BETWEEN a AND b

)

这会在几秒钟内完成并返回 90k ID。接下来，我想在大表中查询这组ID，问题随之而来。我想要对 ID 随时间变化的值进行求和:

proc sql;
CREATE TABLE subset_data AS (
  SELECT
    bigTable.id,
    SUM(bigTable.value) AS total
  FROM
    bigTable
  INNER JOIN subset
    ON subset.id = bigTable.id
  WHERE
    bigTable.date BETWEEN a AND b
  GROUP BY
    bigTable.id
)

无论出于何种原因，这都需要很长时间。不同之处在于第一个查询标记为“someValue”。第二个查看所有事件，无论“someValue”中有什么。例如，我可以标记每个订购披萨的顾客。然后我会查看所有订购披萨的顾客的每次购买。

我对 SAS 不太熟悉，因此我正在寻找有关如何更有效地完成此操作或加快速度的建议。我愿意接受任何想法或建议，如果我可以提供更多细节，请告诉我。我想我只是对第二个查询需要这么长时间来处理感到惊讶。

最佳答案

使用 SAS 访问 Teradata(或任何其他外部数据库)中的数据时，需要了解的最关键的一点是 SAS 软件准备 SQL 并将其提交到数据库。这个想法是尝试让您(用户)摆脱所有数据库特定细节的困扰。 SAS 使用称为“隐式传递”的概念来实现此目的，这意味着 SAS 将 SAS 代码转换为 DBMS 代码。发生的许多事情之一就是数据类型转换:SAS 只有两种(而且只有两种)数据类型:数字和字符。

SAS 负责为您翻译内容，但这可能会令人困惑。例如，我见过用 VARCHAR(400) 列定义的“惰性”数据库表，其值永远不会超过某个较小的长度(例如人名列)。在数据库中这不是什么大问题，但由于 SAS 没有 VARCHAR 数据类型，因此它为每行创建一个 400 个字符宽的变量。即使使用数据集压缩，这也确实会使生成的 SAS 数据集变得不必要的大。

另一种方法是使用“显式传递”，即使用相关 DBMS 的实际语法编写 native 查询。这些查询完全在 DBMS 上执行，并将结果返回给 SAS(SAS 仍然为您进行数据类型转换。例如，这里是一个“传递”查询，它执行两个表的联接并创建一个 SAS 数据集作为结果:

proc sql;
   connect to teradata (user=userid password=password mode=teradata);
   create table mydata as
   select * from connection to teradata (
      select a.customer_id
           , a.customer_name
           , b.last_payment_date
           , b.last_payment_amt
      from base.customers a
      join base.invoices b
      on a.customer_id=b.customer_id
      where b.bill_month = date '2013-07-01'
        and b.paid_flag = 'N'
      );
quit;

请注意，括号内的所有内容都是 native Teradata SQL，并且联接操作本身在数据库内运行。

您在问题中显示的示例代码不是完整的 SAS/Teradata 程序的工作示例。为了更好地提供帮助，您需要展示真实的程序，包括任何库引用。例如，假设您的真实程序如下所示:

proc sql;
   CREATE TABLE subset_data AS
   SELECT bigTable.id,
          SUM(bigTable.value) AS total
   FROM   TDATA.bigTable bigTable
   JOIN   TDATA.subset subset
   ON     subset.id = bigTable.id
   WHERE  bigTable.date BETWEEN a AND b
   GROUP BY bigTable.id
   ;

这将指示先前分配的 LIBNAME 语句，SAS 通过该语句连接到 Teradata。该 WHERE 子句的语法与 SAS 是否能够将完整查询传递给 Teradata 非常相关。 (您的示例没有显示“a”和“b”所指的内容。SAS 执行联接的唯一方法很可能是将两个表拖回本地工作 session 并在 SAS 服务器上执行联接.

我强烈建议您尝试说服 Teradata 管理员允许您在某些实用程序数据库中创建“驱动程序”表。这个想法是，您可以在 Teradata 中创建一个相对较小的表，其中包含要提取的 ID，然后使用该表执行显式联接。我确信您需要接受更正式的数据库培训才能做到这一点(例如如何定义适当的索引以及如何“收集统计数据”)，但有了这些知识和能力，您的工作将会飞速发展。

我可以继续说下去，但我就到此为止了。我每天都会在全局最大的 Teradata 环境之一中广泛使用 SAS 和 Teradata。我喜欢用这两种语言进行编程。

关于sql - 使用 Proc sql 和 Teradata 在 SAS 中编写高效查询，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17575348/

26

4

0

文章推荐： java - 构建最佳折线

文章推荐： java - 将 ImageView 转换为整数 : Android Studio

javascript - 我需要将文本放在一个中，它位于一个 Div 中，该 Div 位于另一个 Div 中，该 Div 位于另一个 Div 中
我需要将文本放在中在一个 Div 中，在另一个 Div 中，在另一个 Div 中。所以这是它的样子: #document Change PIN
html - 两个背景图像。一个在 HTML 中，一个在 BODY 中。在 Firefox 中，主体图像未呈现
奇怪的事情发生了。我有一个基本的 html 代码。 html，头部， body 。(因为我收到了一些反对票，这里是完整的代码) 这是我的CSS: html { backgroun
ios - 将图像从 asset.xcassets 加载到 imageArray 中，并将其动态加载到 UIImageView 中，该 UIImageView 存在于 UICollectionView 中 - swift
我正在尝试将 Assets 中的一组图像加载到 UICollectionview 中存在的 ImageView 中，但每当我运行应用程序时它都会显示错误。而且也没有显示图像。我在ViewDidLoa
linux - 在 BASH 中，我需要根据 perl 脚本的输出更改一些环境变量。在 tcsh 中，我可以使用别名 eval 组合。不能在 bash 中
我需要根据带参数的 perl 脚本的输出更改一些环境变量。在 tcsh 中，我可以使用别名命令来评估 perl 脚本的输出。 tcsh: alias setsdk 'eval `/localhome/
asp.net - Windows 身份验证适用于 IIS，但不适用于 Kestrel/Microsoft.AspNetCore.Authentication.Negotiate(不在 Chrome 中，有时在 Edge 中，始终在 IE 中)？
我使用 Windows 身份验证创建了一个新的 Blazor(服务器端)应用程序，并使用 IIS Express 运行它。它将显示一条消息“Hello Domain\User!”来自右上方的以下 Ra
java - java 中 Kotlin 中的等价物是什么？
这是我的方法 void login(Event event);我想知道 Kotlin 中应该如何最佳答案在 Kotlin 中通配符运算符是 * 。它指示编译器它是未知的，但一旦知道，就不会有其他类
express - 在 Jade 中，为什么有时我可以按原样使用变量而有时必须将它们包含在#{......} 中？
看下面的代码 for story in book if story.title.length < 140 - var story
c - C 中 strstr() 中 for 循环的错误使用
我正在尝试用 C 语言学习字符串处理。我写了一个程序，它存储了一些音乐轨道，并帮助用户检查他/她想到的歌曲是否存在于存储的轨道中。这是通过要求用户输入一串字符来完成的。然后程序使用 strstr()
c - * 在 sscanf 中，* 在 [] 中
我正在学习 sscanf 并遇到如下格式字符串: sscanf("%[^:]:%[^*=]%*[*=]%n",a,b,&c); 我理解 %[^:] 部分意味着扫描直到遇到 ':' 并将其分配给 a。:
python - 在 Python (2.7.3) 中，如果 str(x) 中的任何字符在 str(y) 中(或 str(y) 在 str(x) 中)，我如何编写一个函数来回答？
def char_check(x,y): if (str(x) in y or x.find(y) > -1) or (str(y) in x or y.find(x) > -1):
ansible - 在 Ansible 中，如何将一行移动到一个 block 中？
我有一种情况，我想将文本文件中的现有行包含到一个新 block 中。 line 1 line 2 line in block line 3 line 4 应该变成 line 1 line 2 line
Django 调试工具栏显示在根 URL 中，但不显示在应用程序 URL 中
我有一个新项目，我正在尝试设置 Django 调试工具栏。首先，我尝试了快速设置，它只涉及将 'debug_toolbar' 添加到我的已安装应用程序列表中。有了这个，当我转到我的根 URL 时，调试
r - 在 R 中，Matlab 中 @ 函数句柄的等价物是什么？
在 Matlab 中，如果我有一个函数 f，例如签名是 f(a,b,c)，我可以创建一个只有一个变量 b 的函数，它将使用固定的 a=a1 和 c=c1 调用 f: g = @(b) f(a1, b,
swiftui - SwiftUI 中 ScrollView 中 VStack 元素中的神秘间距或填充
我不明白为什么 ForEach 中的元素之间有多余的垂直间距在 VStack 里面在 ScrollView 里面使用 GeometryReader 时渲染自定义水平分隔线。 Scrol
cookies - 什么应该存储在 session 中，什么应该存储在 cookie 中？
我想知道，是否有关于何时使用 session 和 cookie 的指南或最佳实践？什么应该和什么不应该存储在其中？谢谢! 最佳答案这些文档很好地了解了 session cookie 的安全问题以及
python - Python 中 matplotlib 中 3d 直方图的奇怪行为
我在 scipy/numpy 中有一个 Nx3 矩阵，我想用它制作一个 3 维条形图，其中 X 轴和 Y 轴由矩阵的第一列和第二列的值、高度确定每个条形的是矩阵中的第三列，条形的数量由 N 确定。
c - c 中 sem_init(...) 中 value 参数的不同用法
假设我用两种不同的方式初始化信号量 sem_init(&randomsem,0,1) sem_init(&randomsem,0,0) 现在， sem_wait(&randomsem) 在这两种情况下
c - 实际值存储在 pstr 中，但是该值如何存储在数组 "WORD"中
我怀疑该值如何存储在“WORD”中，因为 PStr 包含实际输出。？既然Pstr中存储的是小写到大写的字母，那么在printf中如何将其给出为“WORD”。有人可以吗？解释一下？ #include
javascript - 数组索引选择像在 numpy 中，但在 javascript 中
我有一个 3x3 数组: var my_array = [[0,1,2], [3,4,5], [6,7,8]]; 并想获得它的第一个 2
javascript - 在 Javascript 中，如何检测浏览器窗口何时在 View 中？
我意识到您可以使用如下方式轻松检查焦点: var hasFocus = true; $(window).blur(function(){ hasFocus = false; }); $(win

首页

博学

6Ren·AI

商城

sql - 使用 Proc sql 和 Teradata 在 SAS 中编写高效查询