gpt4 book ai didi

sql - 使用 pl sql 读取 .docx 和 .pdf 文件

转载 作者:行者123 更新时间:2023-12-03 21:26:47 24 4
gpt4 key购买 nike

我想使用 PL/SQL 读取存储在本地磁盘中的 .docx 和 .pdf 文件。我想从 .docx 或 .pdf 文件中提取一些数据,如姓名、联系人、电子邮件地址。

所有这些都使用 PL/SQL。

任何帮助将不胜感激。

最佳答案

Oracle 有一个处理自由文本的产品,Oracle Text。这可以处理常见的二进制格式:您应该可以使用 Word 和 PDF。 Find out more .

文本支持针对各种用例搜索具有不同索引类型的文档。然而,就像普通索引一样,它们真的很适合等式搜索。也就是说,我们可以像这样搜索特定电子邮件的文档:

select * from t23
where contains(col_t, 'muhammad.hannan@example.com') > 0
/

但是在从文档中提取所有电子邮件地址时,它并不是很有帮助。这就是为什么我们 Nature 为我们提供了用于定义结构化文档(XML、JSON)的工具。因此,Text 对您的实际用例的支持程度取决于您尚未发布的详细信息。

您的问题是“本地文件”。 Oracle Text 将 work with BFILEs ,即外部存储的文件。使用 BFILE 数据类型定义表列。 Find out more.

但是,BFILE 必须保存在数据库服务器上的操作系统目录中(即数据库的本地目录,而不是您的 PC),这些目录受预期的安全权限约束。了解 creating Directories here .

关于sql - 使用 pl sql 读取 .docx 和 .pdf 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31369228/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com