gpt4 book ai didi

sql - super 慢查询...我做错了什么?

转载 作者:行者123 更新时间:2023-12-04 16:10:58 24 4
gpt4 key购买 nike

你们很棒。在过去的两天里,我已经在这里发布了两次-一个新用户-我对帮助感到震惊。因此,我认为我会采用软件中最慢的查询,看看是否有人可以帮助我加快查询速度。我使用此查询作为视图,因此务必要快(但不是!)。

首先,我有一个联系人表来存储我公司的客户。该表中有一个JobTitle列,其中包含一个在Contacts_Def_JobFunctions表中定义的ID。还有一个名为contacts_link_job_functions的表,该表保存了contactID号和客户拥有的其他作业功能,该表也在Contacts_Def_JobFunctions表中定义。

其次,Contacts_Def_JobFunctions表记录彼此之间具有父/子关系。通过这种方式,我们将相似的工作职能集中在一起(例如,女佣,洗衣服务,客房清洁,打扫卫生等都是相同的基本工作,而职务可能有所不同)。我们当前不使用的作业功能将保留为ParentJobID 1841的子级。

第三,带有邮政编码的机构只是简单地将地理数据提供给最终结果。

最后,与所有负责任的公司一样,我们为希望退出通讯(选择加入)的任何客户维护一个删除列表。

我使用以下查询来建立一个表,这些表选择加入我们的新闻通讯并具有与我们提供的服务/产品相关的工作职能或职务的人。

这是我的丑陋查询:

SELECT DISTINCT 
dbo.contacts_link_emails.Email, dbo.contacts.ContactID, dbo.contacts.First AS ContactFirstName, dbo.contacts.Last AS ContactLastName, dbo.contacts.InstitutionID,
dbo.institutionswithzipcodesadditional.CountyID, dbo.institutionswithzipcodesadditional.StateID, dbo.institutionswithzipcodesadditional.DistrictID
FROM
dbo.contacts_def_jobfunctions AS contacts_def_jobfunctions_3
INNER JOIN
dbo.contacts
INNER JOIN
dbo.contacts_link_emails
ON dbo.contacts.ContactID = dbo.contacts_link_emails.ContactID
ON contacts_def_jobfunctions_3.JobID = dbo.contacts.JobTitle
INNER JOIN
dbo.institutionswithzipcodesadditional
ON dbo.contacts.InstitutionID = dbo.institutionswithzipcodesadditional.InstitutionID
LEFT OUTER JOIN
dbo.contacts_def_jobfunctions
INNER JOIN
dbo.contacts_link_jobfunctions
ON dbo.contacts_def_jobfunctions.JobID = dbo.contacts_link_jobfunctions.JobID
ON dbo.contacts.ContactID = dbo.contacts_link_jobfunctions.ContactID
WHERE
(dbo.contacts.JobTitle IN
(SELECT JobID
FROM dbo.contacts_def_jobfunctions AS contacts_def_jobfunctions_1
WHERE (ParentJobID <> '1841')))
AND
(dbo.contacts_link_emails.Email NOT IN
(SELECT EmailAddress
FROM dbo.newsletterremovelist))
OR
(dbo.contacts_link_jobfunctions.JobID IN
(SELECT JobID
FROM dbo.contacts_def_jobfunctions AS contacts_def_jobfunctions_2
WHERE (ParentJobID <> '1841')))
AND
(dbo.contacts_link_emails.Email NOT IN
(SELECT EmailAddress
FROM dbo.newsletterremovelist AS newsletterremovelist))


我希望你们中的一些超级巨星可以帮助我进行调整。

非常感谢,

罗素·舒特

更新-更新-更新-更新-更新

在收到几条反馈消息(最著名的是来自Khanzor的反馈)之后,我一直在努力优化此查询,并提出了以下建议:

SELECT  DISTINCT
contacts_link_emails.Email, contacts.ContactID, contacts.First AS ContactFirstName, contacts.Last AS ContactLastName, contacts.InstitutionID,
institutionswithzipcodesadditional.CountyID, institutionswithzipcodesadditional.StateID, institutionswithzipcodesadditional.DistrictID
FROM contacts
INNER JOIN
contacts_def_jobfunctions ON contacts.jobtitle = contacts_def_jobfunctions.JobID AND contacts_def_jobfunctions.ParentJobID <> '1841'
INNER JOIN
contacts_link_jobfunctions ON contacts_link_jobfunctions.JobID = contacts_def_jobfunctions.JobID AND contacts_def_jobfunctions.ParentJobID <> '1841'
INNER JOIN
contacts_link_emails ON contacts.ContactID = contacts_link_emails.ContactID
INNER JOIN
institutionswithzipcodesadditional ON contacts.InstitutionID = institutionswithzipcodesadditional.InstitutionID
LEFT JOIN
newsletterremovelist ON newsletterremovelist.emailaddress = contacts_link_emails.email
WHERE
newsletterremovelist.emailaddress IS NULL


这还不是很完美(我怀疑我应该做一些外部联接或正确联接之类的事情,但我不确定)。我的结果集大约是原始查询提供的记录的40%(我不再100%肯定是完美的查询)。

为了清理,我取出了所有的“ dbo”。 SQL Studio添加的前缀。他们有事吗?

我现在在做什么错?

谢谢,

罗素·舒特

== == == == ==
==另一个更新==另一个更新==另一个更新==另一个更新==另一个更新
== == == == ==

我已经处理了这个查询几个小时了。我已经做到了这一点:

SELECT DISTINCT 
contacts_link_emails.Email, contacts.contactID, contacts.First AS ContactFirstName, contacts.Last AS ContactLastName, contacts.InstitutionID,
institutionswithzipcodesadditional.CountyID, institutionswithzipcodesadditional.StateID, institutionswithzipcodesadditional.DistrictID
FROM
contacts INNER JOIN institutionswithzipcodesadditional
ON contacts.InstitutionID = institutionswithzipcodesadditional.InstitutionID
INNER JOIN contacts_link_emails
ON contacts.ContactID = contacts_link_emails.ContactID
LEFT OUTER JOIN contacts_def_jobfunctions
ON contacts.JobTitle = contacts_def_jobfunctions.JobID AND contacts_def_jobfunctions.ParentJobID <> '1841'
LEFT OUTER JOIN contacts_link_jobfunctions
ON contacts_link_jobfunctions.JobID = contacts_def_jobfunctions.JobID AND contacts_def_jobfunctions.ParentJobID <> '1841'
LEFT OUTER JOIN
newsletterremovelist ON newsletterremovelist.EmailAddress = contacts_link_emails.Email
WHERE (newsletterremovelist.EmailAddress IS NULL)


令人失望的是,我只是无法填补我的知识空白。我是新加入的,除了当我拥有可视化工具为我创建它们时,我在想我需要联系人,带有邮政编码的其他机构和contacts_link_email的所有内容,因此我已将其INNER JOIN(以上)。

我很困惑。如果我加入他们,那么我会得到拥有适当工作的人(<> 1841)-但我认为我对那些没有JobTitle和JobFunctions条目都没有的人失去了信心。在许多情况下,这是不对的。我可以将JobTitle“保管人”保留在我们的新闻通讯列表中,但是如果他也没有JobFunction条目,那么我认为如果我使用INNER JOIN,他将不在列表之列。

但是,如果我像上面那样用LEFT OUTER JOINs进行查询,我想我会发现很多人的JobTitles错误,仅仅是因为任何缺少JobTitle或JobFunction的人都会在我的名单上-他们可能是“没有JobFunction的“高级主管”,他们会在列表中-这是不对的。我们不再提供适合“高级主管”的服务。

然后,我了解LEFT OUTER JOIN如何处理新闻通讯清单。它非常光滑,我想我做对了...

但是我仍然被困住。希望有人能看到我在这里要做什么,并引导我朝正确的方向前进。

谢谢,

罗素·舒特

再次更新

可悲的是,这个线程似乎已经死了,没有一个完美的解决方案-但是我已经接近了。请参阅一个新的线程启动,该线程重新开始讨论: click here

(即使尚未完全找到正确的答案,也要为所提供的大量工作提供正确的答案)。

谢谢!

罗素·舒特

最佳答案

WHERE中的查询移到实际联接中。这些称为相关子查询,是Voldemort的工作。如果它们是联接,则它们只会执行一次,从而可以加快查询速度。

对于NOT IN部分,使用左外部联接,并检查联接的列是否为NULL

另外,请尽可能避免在OR查询中使用WHERE-请记住,OR不一定是短路操作。

示例如下:

SELECT 
*
FROM
dbo.contacts AS c
INNER JOIN
dbo.contacts_def_jobfunctions AS jf
ON c.JobTitle = jf.JobId AND jf.ParentJobID <> '1841'
INNER JOIN
dbo.contacts_link_emails AS e
ON c.ContactID = e.ContactID AND jf.JobID = c.JobTitle
LEFT JOIN
dbo.newsletterremovelist AS rl
ON e.Email = rl.EmailAddress
WHERE
rl.EmailAddress IS NULL


请不要使用它,因为它几乎可以肯定是不正确的(更不用说 SELECT *了),我忽略了contacts_ref_jobfunctions_3的逻辑以提供一个简单的示例。

有关连接的(确实)很好的解释,请尝试 this visual explanation of joins

关于sql - super 慢查询...我做错了什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4466054/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com