gpt4 book ai didi

java - 使用 Apache Any23 从 HTML 中提取 JSON-LD

转载 作者:行者123 更新时间:2023-12-01 10:03:21 27 4
gpt4 key购买 nike

我的目标是从网页中提取结构化数据。我正在使用 this SO question 中提到的代码.我正在使用 Apache Any23 CLI我的 Spring 项目中的库依赖项。

通过使用它,我可以从网页中提取 HTML5 微数据 (Schema.org)。但是,我无法提取网页中存在的 JSON-LD 格式。当我检查 Apache Any23的文档,其中支持 JSON-LD 格式。没有找到任何关于它的进一步文档。

最佳答案

通常,如果您使用 new Any23() 创建新的 Any23 提取器它应该是开箱即用的。如果你使用另一个构造函数,如 Any23(String... extractorNames)您必须确保为嵌入式 JSON LD 添加了正确的一个,即 "html-embedded-jsonld" .

现在,如果提取过程中出现任何错误,Any23 会静默删除它们。 (这很棒,我知道!)

我发现可以在 org.apache.any23.extractorExtractionResultImpl 中设置断点方法 notifyIssue .有了这个,您可以找到更详细的问题原因。

关于java - 使用 Apache Any23 从 HTML 中提取 JSON-LD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46638632/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com