gpt4 book ai didi

java - 提取 DBPedia Dump 期间 DBPedia 提取框架失败

转载 作者:行者123 更新时间:2023-11-30 22:50:32 27 4
gpt4 key购买 nike

在使用 DBpedia 提取框架时,我遇到了来自核心数据集的 csv 文件的问题。我有兴趣从 dbpedia 转储(RDF 格式)中提取数据(在我的例子中,是所有公司维基百科页面的摘要)。我正在按照 DBpedia Abstract Extractioin Step-by-step Guide 中的说明进行操作

使用的命令:

$ git clone git://github.com/dbpedia/extraction-framework.git 
$ cd extraction-framework
$ mvn clean install
$ cd dump
$ ../run download config=download.minimal.properties
$ ../run extraction extraction.default.properties

执行最后一个命令“./run extraction extraction.properties.file”时出现以下错误。谁能指出我犯了什么错误。是否有任何我需要处理的特定 csv 文件或一些配置问题。我有完整的“mediawiki-1.24.1”。

另请注意 pages-articles.xml.bz2,我只下载了一部分,最多 256MB。请帮忙

parsing /opt/extraction-framework-master/DumpsD    ata/wikid    atawiki/20150113/wikipedias.csv
java.lang.reflect.Invoc ationTargetException
at sun.reflect.N ativeMethodAccessorImpl.invoke0(N ative Method)
at sun.reflect.N ativeMethodAccessorImpl.invoke(N ativeMethodAccessorImpl.java:62)
at sun.reflect.Deleg atingMethodAccessorImpl.invoke(Deleg atingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:483)
at scala_maven_executions.MainHelper.runMain(MainHelper.java:164)
at scala_maven_executions.MainWithArgsInFile.main(MainWithArgsInFile.java:26)
Caused by: java.lang.Exception: expected [15] fields, found [1] in line [%21%21%21 http://www.w3.org/2000/01/rdf-schema#label !!! l]
at org.dbpedia.extraction.util.WikiInfo$.fromLine(WikiInfo.scala:60)
at org.dbpedia.extraction.util.WikiInfo$$anonfun$fromLines$1.apply(WikiInfo.scala:49)
at org.dbpedia.extraction.util.WikiInfo$$anonfun$fromLines$1.apply(WikiInfo.scala:49)
at scala.collection.Iter ator$class.foreach(Iter ator.scala:743)
at scala.collection.AbstractIter ator.foreach(Iter ator.scala:1195)
at org.dbpedia.extraction.util.WikiInfo$.fromLines(WikiInfo.scala:49)
at org.dbpedia.extraction.util.WikiInfo$.fromSource(WikiInfo.scala:36)
at org.dbpedia.extraction.util.WikiInfo$.fromFile(WikiInfo.scala:27)
at org.dbpedia.extraction.util.ConfigUtils$.parseLanguages(ConfigUtils.scala:83)
at org.dbpedia.extraction.dump.sql.Import$.main(Import.scala:29)
at org.dbpedia.extraction.dump.sql.Import.main(Import.scala)

最佳答案

由于使用 enwiki-20150205-pages-articles.xml.bz2 文件下载不完整,我遇到了上述问题

$ ../run download config=download.minimal.properties

但未能解决摘要提取问题,因为我期待从 bdpedia 转储中提取很长的摘要。

$ ../run extraction extraction extraction.abstracts.properties

它完全构建并执行超过 1 个 cr+ 页面的提取,但不反射(reflect) long_abstracts_en.nt 中的任何数据

我按照说明安装了 mediawiki php 和 mysql 等。

关于java - 提取 DBPedia Dump 期间 DBPedia 提取框架失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28318185/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com