gpt4 book ai didi

lucene - 是否有用于 Lucene 的 HTML 分析器/标记器?

转载 作者:行者123 更新时间:2023-12-04 03:23:26 26 4
gpt4 key购买 nike

我想在 Lucene 中从 html 索引文本,实现这一目标的最佳方法是什么?
是否有任何好的 Contrib 模块可以在 Lucene 中做到这一点?

编辑
最后最终使用了 Jericho Parser。它不创建 DOM 并且易于使用。

最佳答案

我假设您实际上并不想索引 HTML 标记。如果是这种情况,您可以先使用 Apache Tika 从 HTML 中提取文本。 .然后你可以在 Lucene 中索引文本。

关于lucene - 是否有用于 Lucene 的 HTML 分析器/标记器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5271810/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com