gpt4 book ai didi

python - Apache Tika 排除了一些 html 标签

转载 作者:太空狗 更新时间:2023-10-30 00:12:31 24 4
gpt4 key购买 nike

我正在通过 python 测试 Apache Tika REST Api用于解析 HTML 文件。除了一件事,一切都有效。 <noscript> 内部标签也被解析为文本,我的文本中有一些 css 样式内容,这是不可取的。此外,正文 <div style="display:none">也被提取出来。有没有办法将 Tika rest API 中的一些 html 标签列入黑名单?

最佳答案

我没有立即的解决方案,但请求似乎是合理的,所以请在我们的 JIRA 上打开一个问题供团队讨论:https://issues.apache.org/jira/projects/TIKA/summary

关于python - Apache Tika 排除了一些 html 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54829838/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com