gpt4 book ai didi

java - 使用 Tika 解析元标记并从正文中获取 HTML 内容

转载 作者:行者123 更新时间:2023-11-30 04:29:14 24 4
gpt4 key购买 nike

我使用出色的 Apache Tika 库解析文件。我想用自己的解析器提取元标记,然后仅从 <body> 获取内容-标记为 HTML 并将其存储在数据库中。

我现在已经尝试了几个小时/几天了:-(,但找不到解决方案:

  • 当我使用ToHTMLContentHandler<body>之后-tag 我收到无效命名空间的异常,没有 <html> -标签。
  • BodyContentHandler仅返回不带 HTML 标签的正文文本。
  • tika-app似乎使用 TransformerHandler获取 HTML(我以前从未听说过这种处理程序。)我可以使用它来从 <body> 获取 HTML -自己标记并解析元标记?这是比使用 ToHTMLContentHandler 更好的方法吗? ?

最佳答案

关于java - 使用 Tika 解析元标记并从正文中获取 HTML 内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15071560/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com