gpt4 book ai didi

sql-server-2008 - TIFF IFilter 无法正确读取 VARBINARY 列中的文本

转载 作者:行者123 更新时间:2023-12-04 06:47:41 27 4
gpt4 key购买 nike

link text我想使用 Windows 2008 Server R2 内置的 TIFF IFilter 和 SQL Server 2008 中的全文搜索......还有 R2。

我已经通过服务器管理器安装了过滤器,并将计算机配置 -> 管理模板 -> OCR 中的“强制 TIFF IFilter 对 TIFF 文档中的每个页面执行 OCR”本地组策略设置更新为“已启用”。

我还创建了一个全文目录和一个名为“FileData”的表,如下所示:

CREATE TABLE [FileServer].[FileData](
[FileDataId] [int] IDENTITY(1,1) NOT NULL,
[FileGUID] [uniqueidentifier] ROWGUIDCOL NOT NULL,
[Data] [varbinary](max) FILESTREAM NOT NULL,
[Extension] [nvarchar](100) NULL,
[Filename] [nvarchar](256) NULL,
[Path] [nvarchar](256) NULL,
CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED
(
[FileDataId] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED
(
[FileGUID] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]

GO

SET ANSI_PADDING OFF
GO

ALTER TABLE [FileServer].[FileData] ADD CONSTRAINT [DF_FileData_FileGUID] DEFAULT (newid()) FOR [FileGUID]
GO

ALTER TABLE [FileServer].[FileData] ADD CONSTRAINT [DF_FileData_FileData] DEFAULT (0x) FOR [Data]
GO

当我将文件插入到该表中时,例如 PDF 或 Word DOC,我可以稍后通过全文搜索找到文件中的关键字:

我用非常清晰的文本(1024 x 768 ...大约 12 个字)制作了一个巨大的 TIFF 文件,并将其导入到 FileData 表中。我能找到里面的每一个字。
SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');

但是,当我使用“真实”的 TIFF 文件(例如制造商的数据表)时,在搜索关键字时会得到零结果。我不知道为什么,并且没有太多关于 SQL Server 的在线故障排除。

我试过用各种压缩方式保存 .TIFF 文件,不压缩,等等……我只是没有任何运气。我的测试文件中的文本非常清晰,而且仍然很大。我无法想象文件清晰度是问题,尽管我认为这是可能的。

为了让您有一些比较,我拍摄了以下两张图像并将它们导入:

WORKING SAMPLE FILE
BROKEN SAMPLE FILE

工作样本的结果非常好。这些是全文索引中工作样本的关键字:
3.50 美元
©
0004
08
1989年
2010年
21
21:35:42
235
282
3116
3702
40
48109
89
比比皆是
吸收
抽象的
陪伴
获得
行为
行动
好处
机构
算法
算法
已经
金额
阿姆斯特丹
分析

出现
应用
乔木
阿尔菲乔伊
人工制品1
任务
b.v.
基于
基础
布克


建筑
bv
能力
小心
改变
特征
跳棋
分类器
分类器
关闭
认知的
比较
竞争
复杂的
复杂性
复杂
计算机
面对
迷惑
考虑
持续的
不断地
不断地
人为的
信用
治愈
d.e.
数据

体面的
定义
定义
设计
设计的
设计
发现
讨论
令人不安的
期间
生态的
经济的
欧洲经济共同体
努力
爱思唯尔
文件结束
工程
环境
环境

甚至
事件
例子
展示
经验
表达
现存
扩展

面孔
可行的
文件
射击
第一的
流动
下列的
格式
游戏
产生
通用的
遗传的
给予
目标
戈德堡
好的
假日
荷兰
然而
假设
图片
沉浸
免疫
撞击
隐含地
不准确
信息
智力
兴趣
干预
介绍
无关的
J.H.
jh
杂志
磅。
大的

学习
学习
生命周期

机器
哺乳动物
哺乳动物
哺乳动物的
大量地
信息

密歇根州
新的
nn0004
nn08
nn1989
nn2010
nn21
nn235
nn282
nn3116
nn3702
nn3d5$
nn40
nn48109
nn89
嘈杂

没有
小说
新奇
可获得
经常

操作
选项
起初
外部
自己的

平行线
通过
图案
清偿
允许
永动的
永远地

球员
戏剧
可能的
漂亮
问题
提供
出版商
出版商
迅速地
随机
很少
真实的
实际的
加强
反复
转载
要求
视网膜
评论
修订
机器人
规则
规则
科学
序列

显着地
简单的
简单地
小的

系统
系统
标记
技术
理论
雷神
蒂夫
时间
tt2135
两次
曲折

通常
美国。
大学
之上
我们
美国
视觉的

没有
想知道
世界

但是来自 splinter 样本的结果只是……好吧,空缺。实际 TIFF 图像中没有一个字:
08
2010年
21
21:49:22
文件结束
文件
格式
图片
nn08
nn2010
nn21
标记
蒂夫
tt2149

如果有人对下一步尝试什么有任何想法,我会全力以赴。

最佳答案

尝试将非工作图像转换为黑白图像,看看是否能识别更多单词。

已添加

尝试使用 IrfanView(或任何图像工具)将第二张图像的 DPI 设置为 300。然后再试一次。

显然,这些故障排除步骤不是永久性的解决方案,它们只是帮助隔离问题。

关于sql-server-2008 - TIFF IFilter 无法正确读取 VARBINARY 列中的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3539908/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com