python - 如何更深入地了解 Watson Discovery Service 中文档摄取失败的原因-6ren

python - 如何更深入地了解 Watson Discovery Service 中文档摄取失败的原因

转载作者：行者123 更新时间：2023-11-30 22:33:48

29

4

我正在使用 watson_developer_cloud python 库的 DiscoveryV1 模块将 700 多个文档提取到 WDS 集合中。每次我尝试批量摄取时，许多文档都无法摄取，这是不确定的，通常大约有 100 个文档失败。

每次调用 discovery.add_document(env_id, Cold_id, file_info=file_info) 时，我都会发现响应包含 WDS document_id。对语料库中的所有文档进行此调用后，我使用相应的 document_id 来调用 discovery.get_document(env_id, col_id, doc_id) 并检查文档的状态。其中大约 100 个调用将返回状态文档无法摄取和索引。失败的文件没有规律可循，它们的大小各不相同，并且文件类型有 msword (doc) 和 pdf。

我提取文档的代码是基于 WDS Documentation 编写的，它看起来像这样:

with open(f_path) as file_data:
    if f_path.endswith('.doc') or f_path.endswith('.docx'):
        re = discovery.add_document(env_id, col_id, file_info=file_data, mime_type='application/msword')                      
    else:                                                                                        
        re = discovery.add_document(env_id, col_id, file_info=file_data)

因为我的语料库相对较大，大小约为 3GB，所以我收到来自 discovery.add_document(env_id, Cold_id, file_info=file_info) 的 Service is busyprocessing... 响应 code> 调用，在这种情况下我调用 sleep(5) 并重试。

我已经用尽了 WDS 文档，但没有任何运气。如何更深入地了解这些文件未能被摄取的原因？

最佳答案

您应该能够使用 https://watson-api-explorer.mybluemix.net/apis/discovery-v1#!/Queries/queryNotices API 用于查看提取期间发生的错误/警告以及可能提供有关提取失败原因的更多信息的详细信息。

不幸的是，在发布本文时，Python SDK 似乎还没有包装此 API 的方法，因此您可以使用 Watson Discovery Tooling或使用curl直接查询API(将{}中的值替换为您的集合特定值)

curl -u "{username}:{password}" "https://gateway.watsonplatform.net/discovery/api/v1/environments/{environment_id}/collections/{collection_id}/notices?version=2017-01-01

关于python - 如何更深入地了解 Watson Discovery Service 中文档摄取失败的原因，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45036604/

29

4

0

文章推荐： python - 如何有效计算 pandas 中列的线性组合？

文章推荐： python - 在 pymc3 混合模型采样步骤中包括簇数

文章推荐： python - 如何在Python中创建N个指数的函数来拟合数据

深入.net调用webservice的总结分析
最近做一个项目，由于是在别人框架里开发app,导致了很多限制，其中一个就是不能直接引用webservice 。我们都知道，调用webserivice 最简单的方法就是在 "引用"
c++ - SDL_PollEvent 深入
这是SDL2代码的一部分 SDL主函数 int main(int argc,char *argv[]) { ... ... bool quit=false; S
c - 深入 assembly
c 中的函数: PHPAPI char *php_pcre_replace(char *regex, int regex_len, ch
nhibernate - IndexOutOfRangeException 深入 NHibernate
我有以下映射: public class SecurityMap : ClassMap { public SecurityMap() {
javascript - 在Vue中使用/深入/错误
我在vue-lic3中使用了SCSS，但是有一个奇怪的错误，使用/ deep /会报告错误，我不想看到它。代码运行环境 vue-cli3 + vant + scss 的CSS /deep/ .van
C# 深入 : Type Constraint
我在深入阅读 C# 时遇到了这个我能理解的内容: 当它被限制为引用类型时，执行的比较类型完全取决于类型参数被限制为什么。但是不能理解这个: 如果进一步限制派生自重载 == 和 != 运算符的特定类型
c# - 用于制作游戏引擎的C#或C++(深入)
Closed. This question is opinion-based。它当前不接受答案。想改善这个问题吗？更新问题，以便editing this post用事实和引用来回答。 3年前关闭。
c++ - this 和 const 深入
有人可以详细介绍关于自赋值的运算符重载中的 *this 和 const 例如: Class& Class::operator=(const Class& other) { a = other.
php - 深入 MYSQL 和闭包表树
在向树中插入新节点时，如何填充闭包表的深度/长度列？ ancestor 和 descendant 中的值是来自另一个表的 ID，表示要以树结构排列的页面。关闭表: ancestor desce
C# 深入 : Problem set?
现在我正在阅读“深入了解 C#”。缺少的一件事是完成一章后我可以解决的一系列问题。那会帮助我理解我刚刚学到的概念。哪里可以找到适合 C#3.0 的问题集？谢谢最佳答案你可以试试LINQ 101
来做操吧！深入 TypeScript 高级类型和类型体操
TypeScript 给 JavaScript 扩展了类型的语法，我们可以给变量加上类型，在编译期间会做类型检查，配合编辑器还能做更准确的智能提示。此外，TypeScript 还支持了高级类型用
python - 深入——yield from inside yield
是否有一个单行代码来获取生成器并生成该生成器中的所有元素？例如: def Yearly(year): yield YEARLY_HEADER for month in range(1, 13)
c# - 方法组(深入 C#)- 需要帮助更好地理解什么是方法组
所以我阅读了一些与“什么是方法组”相关的 StackOverflow 问题以及其他互联网文章，它们在底线都说了同样的话——方法组是“一组重载方法” ". 但是，在阅读 Jon Skeet 的“C# 深
angular - Angular 6 有没有办法让 ViewChildren 深入？
有什么方法可以从子组件中获取子组件吗？想象一下以下组件树: 应用程序问题问题选项(包含复选框) 问题选项(包含复选框) 问题选项(包含复选框) 我想从 App 访问问题选项以选中所有复选框。参
ruby - 深入 Ruby class_eval 和 instance_eval
class_eval 和 instance_eval 在定义方法等情况下是完全可以预测的。我也理解类的实例和类的单例(又名特征类)之间的区别。但是我无法弄清楚以下唯一的事情:比方说，出于某些策略目
Linux 文件权限(深入)——数字到字符串表示法，反之亦然；附加文件权限
我想出了如何将符号 rwx 部分读取/转换为 421 个八进制部分，这非常简单。但是当涉及到特殊字符时，我感到非常困惑。我们知道 -r-xr---wx 转换为 0543，但 -r-sr---wt 或
java - 如果正确安装了 JDK，如何(深入)测试？
我怀疑我系统的 Java 版本有问题。某些应用程序出现段错误或内存不足或存在链接错误。如果我从源代码安装了 JDK，我会做类似“make test”的事情，看看哪些测试失败了。但是，看起来从源代码构建
objective-c - 克隆一个 git 仓库(深入)
如何克隆一个 repo(使用 libgit2 ) 我想做什么git clone确实，但有 libgit2 .我可能要问的是什么 git clone确实很深入。这是我目前正在做的: 初始化一个repo
JavaScript入门③-函数(2)原理{深入}执行上下文
00、头痛的JS闭包、词法作用域？被JavaScript的闭包、上下文、嵌套函数、this搞得很头痛，这语言设计的，感觉比较混乱，先勉强理解总结一下😂😂😂.
r - 深入 R 包 : Time Zones in lubridate
我开始玩 lubridate R 中的包。我注意到 now(tzone="EST")计算为: [1] "2015-08-25 13:01:08 EST" 而 now(tzone="PST")导致警告:

首页

博学

6Ren·AI

商城

python - 如何更深入地了解 Watson Discovery Service 中文档摄取失败的原因