html - 在 html/xhtml 中解析 RDFa？-6ren

html - 在 html/xhtml 中解析 RDFa？

转载作者：数据小太阳更新时间：2023-10-29 02:57:15

25

4

使用 perl 中的 RDF::RDFa::Parser 模块解析网站外的 rdf 数据。在带有 !DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> 的网站上它可以工作，但在使用 xhtml !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN 的网站上""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd "> 没有输出...

测试网站-> http://www.filmstarts.de/kritiken/186918.html

use RDF::RDFa::Parser;

my $url     = 'http://www.filmstarts.de/kritiken/186918.html';
my $options = RDF::RDFa::Parser::Config->tagsoup;
my $rdfa    = RDF::RDFa::Parser->new_from_url($url, $options);

print $rdfa->opengraph('image');
print $rdfa->opengraph('description');

最佳答案

(我是 RDF::RDFa::Parser 的作者。)

看起来 RDFa 解析器使用的 HTML 解析器在该页面上失败了。 (我也是相关 HTML 解析器的维护者，所以我不能把责任推给任何人!)因此，当 RDFa 解析开始时，它看到的只是一棵空的 DOM 树。

页面是quite hideously invalid XHTML但我仍然希望 HTML 解析器能够完成合理的工作。我有 filed a bug report for you .

与此同时，一个解决方法可能是在 RDF::RDFa::Parser 之外构建 XML::LibXML DOM 树(也许使用 libxml 的内置 HTML 解析器？)。您可以将该树直接传递给 RDFa 解析器:

use RDF::RDFa::Parser;
use LWP::Simple qw(get);

my $url     = 'http://www.filmstarts.de/kritiken/186918.html';
my $xhtml   = get($url);
my $dom     = somehow_build_a_dom_tree($xhtml);  # hand-waving!!
my $options = RDF::RDFa::Parser::Config->tagsoup;
my $rdfa    = RDF::RDFa::Parser->new($dom, $url, $options);

print $rdfa->opengraph('image');
print $rdfa->opengraph('description');

希望对您有所帮助!

更新:这是 somehow_build_a_dom_tree 的可能实现...

sub somehow_build_a_dom_tree {
    my $p = XML::LibXML->new;
    $p->recover_silently(1);
    $p->load_html( string => @_ );
}

关于html - 在 html/xhtml 中解析 RDFa？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20767903/

25

4

0

文章推荐： javascript - 如何访问 Electron 中的DOM元素？

文章推荐： c# - 如何使用 LINQ to XML 接收列表格式的数据

java - 哪个 rdfa 解析器支持当前使用的 rdfa 属性？
我正在使用 Jena 使用 Java 构建一个应用程序来抓取语义信息。我正在寻找可以让我正确提取所有 RDFa 语句的 RDFa 解析器。具体来说，提取有关所用 namespace 的信息并假定 RD
专门用于汽车的 rdfa 命名空间
我想对汽车站点实现 RDFA。三元组会是这样的: 这张图片是关于本田的此页面是关于本田的此评级适用于本田思域 ...等等... 我似乎找不到在我的情况下使用的命名空间。例如，我可以很容易地看到
validation - RDFa 面包屑导航和验证器的正确文档类型
我需要弄清楚 HTML 文档类型。在此页面中:http://kovo.intl.uk.to我使用 RDFa 添加面包屑导航。但随后页面不再有效。我用谷歌搜索，发现将文档类型更改为: 现在页面 100
extract - RDFa Reader提取工具
我是 RDF 初学者，我想从 HTML 中提取 RDF我正在使用 GRDDL，但它不太适合我，我每次都会收到安全异常:(您能向我推荐另一个工具吗？感谢您的帮助。最佳答案我通常使用说唱歌手，你可以
validation - RDFa 面包屑导航和验证器的正确文档类型
我需要弄清楚 HTML 文档类型。在本页中:http://kovo.intl.uk.to我使用 RDFa 添加面包屑导航。但随后页面不再有效。我用谷歌搜索，发现要将 doctype 更改为: 现在页
javascript - RDFa 属性的事件监听器
有没有办法为特定 HTML 页面中的所有 RDFa 属性实现事件监听器机制？也就是说，当我点击一个单词/句子时，如果该文本属于嵌入在 HTML 页面中的某些 RDFa 属性，则会调用 JavaScr
seo - RDFa 面包屑
当您使用 ul 元素来格式化面包屑(旨在获得更好的 Google 搜索结果)时，您如何定义 RDFa 标记？我问的原因是 li 元素是彼此的 sibling ，而不是 child 。我正在做类似的事情
html - 微数据与 RDFa
我有一个关于 RDFa 和微数据的快速问题。我目前的理解是 RDFa 是在 HTML 中实现的 RDF，但对于像我这样的新开发人员来说很复杂，微数据似乎很容易实现。这两种语义格式的其他优缺点是什么
semantic-markup - RDFa、微数据和微格式。
RDFa、微格式和微数据提供了包含语义标记的简单方法。还有其他类似的技术吗？谢谢最佳答案 RDFa 和微数据并没有做非常不同的事情。所有三种格式都以不同的方式做大致相同的事情，RDFa 和微数据非
rdf - RDF、RDFa、Microformats和Microdata之间的关系是什么
我做了很多研究，但我无法理解这 3 个之间的确切关系。另外，既然 W3C 已经正式认可 RDFa，考虑到它与 Microdata 的功能相匹配等等，您是否会推荐它而不是 Microdata？最佳答案
microformats - RDFa/微格式 - 配方标记标准
我想知道是否有人可以帮忙？ After Google announced它将注意到在线食谱的 RDFa/微格式，我一直在研究我运行的几个基于食谱的网站。然而，我们根本没有满足任何标准所需的所有数据。
html - 谷歌的主页和当前页面的 RDFa 面包屑？
由于我无法在任何地方找到合适的 RDFa 示例，我想我应该在这里问一个问题。在 Google's page有使用微数据或 RDFa 标记的面包屑示例。当您单击“示例 2”旁边的“RDFa”下的“查看标
html - 将 RDFa 应用于包含位置的已完成项目列表
某人如何将模式应用于已完成项目的列表，例如由建筑公司完成的项目列表。假设您有一个已完成项目的列表，其中包含日期、地点、描述等信息。我不知道它是否一定被视为 CreativeWork 或 Place
seo - RDFa DRY 引用的概念
我最近开始深入研究 RDFa，并尝试用语义信息为我的网站增添趣味。该网站提供服务、事件、博客，并可能在未来提供产品。幸运的是 schema.org 有粗略但足够的类别。但现在涉及到实际问题。所有示例
html - 如何混合描述同一对象的本体(使用 rdfa？)
想象一下，我开始使用本体是因为它提供了一些有用的词汇来描述我感兴趣的对象，例如FOAF 来描述一个人(我)。我立即遇到了两个问题。我遇到了另一个本体，它也有描述一个人的词汇。问题 1:其中一些术语在
xml - 产品的 RDFa 内容实现
我深陷产品信息的 RDFa 实现的噩梦中，我很好奇是否有人可以提供一些见解。 Google 断言不会仅仅为了向机器提供数据而隐藏信息，除非它是特定于机器的信息。不过，为了提供此数据，我找不到有关具有空
javascript - 在 Javascript 中创建 rdfa
我正在从 dbpedia 获取数据，并且需要创建一个 rdfa 来链接回原始来源。我真的不明白该怎么做。我需要展示主题、关系等。有人能给我一个清晰的例子吗？ http://dbpedia.org/pa
rdf - 可以将 sparql 用于 RDFa
是否可以查询我自己网站上的内容？我读过你的评论，我知道这没有多大意义，但我只想模拟 2 个站点之间的这个过程，并了解它是如何工作的。我想用 sparql 从一个站点到另一个站点查询内容endpint
rdf - 如何在 rdfa lite 节点之间建立关系
尝试在语义上标记有关特定地址的报告页面。该页面提供有关地址能源消耗的报告，并提供与能源消耗相关的服务。我想在语义上表示该地点的地址、与该地址相关的能源报告以及该地址可用的优惠。现在，我有一个标记，其中
semantic-web - 了解要使用的 RDFA 词汇
我们如何知道使用哪个词汇/命名空间来描述带有 RDFa 的数据？我看过很多使用 xmlns:dcterms="http://purl.org/dc/terms/" 的例子或 xmlns:sioc="

首页

博学

6Ren·AI

商城

html - 在 html/xhtml 中解析 RDFa？