gpt4 book ai didi

rdf - 在加载到 apache-jena TDB Triplestore 之前清理 YAGO 文件

转载 作者:行者123 更新时间:2023-12-02 08:46:29 35 4
gpt4 key购买 nike

我想使用 tdbloader 将 YAGO 3 rdf 三元组(来自 http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/ 的 yago3_entire_ttl.7z )放入 apache-jena 三元组存储 (3.1.0)。

apache-jena 提供的用于验证输入的防暴工具给出了 2 种类型的错误(多次出现):

  1. 非法 unicode 转义序列值:\\(0x5C)
  2. IRI 中存在非法字符(代码点 0x7C,“|”)

我的明显想法是替换 '\\' 和 '|'具有通过防暴验证的可接受的字符序列,但我想知道是否还有其他解决方案?

最佳答案

在这里找到解决方案:

Now the .ttl files needs to get some kind of preprocessed, where non-unicode characters are replaced in order for Jena to accept the data. On Linux run sed -i 's/|/-/g' ./* && sed -i 's/\\/-/g' ./* && sed -i 's/–/-/g' ./* from within the directory where your .ttl files are. On Windows, start the Ubuntu Bash, navigate to the respective directory (e.g. /mnt/c/Users/Ferdinand/yago) and do the same command. It will take several minutes. I mean, really several...

https://ferdinand-muetsch.de/how-to-load-yago-into-apache-jena-fuseki.html

关于rdf - 在加载到 apache-jena TDB Triplestore 之前清理 YAGO 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39664819/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com