gpt4 book ai didi

SQL Server CONTAINSTABLE 不适用于单个数字

转载 作者:行者123 更新时间:2023-12-05 01:00:57 26 4
gpt4 key购买 nike

这个问题是关于 SQL Server's FTS ContainsTable .

为了重现这个问题,我们可以使用下面的脚本来创建一个表并用地址填充它。

CREATE TABLE Address (FullAddress nvarchar(100) NOT NULL);  
CREATE UNIQUE CLUSTERED INDEX AddressKey ON Address(FullAddress);
INSERT INTO Address VALUES ('1 OLD YONGE ST, AURORA, ON');
INSERT INTO Address VALUES ('1 OLD YONGE ST, NORTH YORK, ON');
INSERT INTO Address VALUES ('1 YONGE ST N UNIT 1, HUNTSVILLE, ON');
INSERT INTO Address VALUES ('1 YONGE ST N UNIT 10, HUNTSVILLE, ON');
INSERT INTO Address VALUES ('18 YONGE ST UNIT 324, TORONTO, ON');
INSERT INTO Address VALUES ('10415 YONGE ST UNIT 1, RICHMOND HILL, ON');
INSERT INTO Address VALUES ('11211 YONGE ST UNIT 37 BUILDING A, RICHMOND HILL, ON');

现在我们将创建全文目录并在其上创建索引。

CREATE FULLTEXT CATALOG AddressCat;  
CREATE FULLTEXT INDEX ON Address(FullAddress) KEY INDEX AddressKey ON AddressCat;

问题

如果我们运行查询并搜索以 1 开头的地址(注意这是一个数字)并且 1NEAR下一个词是 Yong,我们希望它返回上面所有的前 4 条记录。这是查询:

SELECT * FROM CONTAINSTABLE (Address, FullAddress, '"1" NEAR "Yon*"') ORDER BY RANK DESC;

但是,它不返回任何行。 这就是问题所在。

但是如果我们执行一个双位数的查询,例如1110,那么它会按预期返回记录。

问题:

为什么 ContainsTable 不会返回任何一位数字搜索的结果?

最佳答案

找出问题的原因

我尝试了很多方法,例如将查询更改为:

SELECT * FROM CONTAINSTABLE (Address, FullAddress, 'NEAR((1, YONGE), 5, TRUE)') 
-- or this
SELECT * FROM CONTAINSTABLE (Address, FullAddress, '1 YON*')

但没有任何运气。

在网上搜索了一番之后,我开始想(因为这个问题只发生在个位数上)可能与 Stopwords 有关。 :

Stopwords. A stopword can be a word with meaning in a specific language. For example, in the English language, words such as "a," "and," "is," and "the" are left out of the full-text index since they are known to be useless to a search. A stopword can also be a token that does not have linguistic meaning.

然后借助 SO Answer ,我能够弄清楚 SQL Server 是如何解释我的搜索的。这是查询和查询的结果:

select * from sys.dm_fts_parser('"1" NEAR "Yon*"',2057, 0, 0)

enter image description here

注意搜索词 1 如何被视为噪音。这就是问题所在。然后运行 ​​this query帮我找到了所有的干扰词,果然数字 0-9 都在那里:

SELECT ssw.*, ssw.stopword, slg.name
FROM sys.fulltext_system_stopwords ssw
JOIN sys.fulltext_languages slg
ON slg.lcid = ssw.language_id
WHERE slg.lcid = 1033 -- English

解决方案

一种解决方案是从干扰词中删除单个数字。但我找不到如何做到这一点。实际上,在我的情况下,这无论如何都不是主意,因为我系统的用户只会搜索地址,所以如果他们键入 isthe,我不希望系统将其视为噪音,因为他们可能正在搜索以 is 开头的街道。

我使用下面的查询完全删除了停止列表,现在一切正常:

ALTER FULLTEXT INDEX ON [Address] SET STOPLIST = off

希望这对其他人有所帮助。

关于SQL Server CONTAINSTABLE 不适用于单个数字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48212372/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com