- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我在为斯坦福解析器创建新模型时遇到了一些问题。
我还从斯坦福下载了最新版本: http://nlp.stanford.edu/software/lex-parser.shtml
这里,Genia Corpus 有 2 种格式,xml 和 ptb (Penn Treebank)。
Standford Parser 可以使用 ptd 文件进行训练;然后我下载了 Genia Corpus,因为我想处理生物医学文本:
http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (链接不再可用) (genia_ptb.tar.gz)
然后,我有一个简短的 Main 类来获取一个生物医学句子的依赖表示:
String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";
Treebank tr = op.tlpParams.diskTreebank();
tr.loadPath(treebankPath);
LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);
我尝试了不同的方法,但总是得到相同的结果。
最后一行有错误。这是我的输出:
Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false PA=true GPA=false selSplit=true (400.0; deleting [VP^SQ, VP^VP, VP^SINV, VP^NP]) mUnary=1 mUnaryTags=false sPPT=false tagPA=true tagSelSplit=false (0.0) rightRec=true leftRec=false collinsPunc=false markov=true mOrd=2 hSelSplit=true (10) compactGrammar=3 postPA=false postGPA=false selPSplit=false (0.0) tagSelPSplit=false (0.0) postSplitWithBase=false fractionBeforeUnseenCounting=0.5 openClassTypesThreshold=50 preTransformer=null taggedFiles=null
Using EnglishTreebankParserParams splitIN=4 sPercent=true sNNP=0 sQuotes=false sSFP=false rbGPA=false j#=false jJJ=false jNounTags=false sPPJJ=false sTRJJ=false sJJCOMP=false sMoreLess=false unaryDT=true unaryRB=true unaryPRP=false reflPRP=false unaryIN=false sCC=1 sNT=false sRB=false sAux=2 vpSubCat=false mDTV=2 sVP=3 sVPNPAgr=false sSTag=0 mVP=false sNP%=0 sNPPRP=false dominatesV=1 dominatesI=false dominatesC=false mCC=0 sSGapped=4 numNP=false sPoss=1 baseNP=1 sNPNNP=0 sTMP=1 sNPADV=1 cTags=true rightPhrasal=false gpaRootVP=false splitSbar=0 mPPTOiIN=0
Binarizing trees...done. Time elapsed: 141 ms
Extracting PCFG...done. Time elapsed: 56 ms
Compiling grammar...done Time elapsed: 1 ms
Extracting Lexicon...Exception in thread "main" edu.stanford.nlp.util.ReflectionLoading$ReflectionLoadingException: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:39)
at edu.stanford.nlp.parser.lexparser.BaseLexicon.initializeTraining(BaseLexicon.java:335)
at edu.stanford.nlp.parser.lexparser.LexicalizedParser.getParserFromTreebank(LexicalizedParser.java:800)
at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:226)
at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:237)
at ABravoDemo.main(ABravoDemo.java:35)
Caused by: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:353)
at edu.stanford.nlp.util.MetaClass.createInstance(MetaClass.java:370)
at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:37)
... 5 more
Caused by: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
at java.net.URLClassLoader$1.run(URLClassLoader.java:200)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:188)
at java.lang.ClassLoader.loadClass(ClassLoader.java:303)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
at java.lang.ClassLoader.loadClass(ClassLoader.java:248)
at java.lang.ClassLoader.loadClassInternal(ClassLoader.java:316)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:169)
at edu.stanford.nlp.util.MetaClass$ClassFactory.construct(MetaClass.java:119)
at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:192)
at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:53)
at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:349)
... 7 more
我怎样才能用这个语料库创建一个新模型?
最佳答案
正如 andrucz 在他的评论中所说,您的问题的真正原因似乎源于缺少类(class)。
尝试检查您是否正确导入了库(并确保它在 EnglishUnknownWordModelTrainer
中包含类 edu.stanford.nlp.parser.lexparser
。
(如果您使用的是 Maven,请验证您是否正确添加了依赖项 - 一个快速的谷歌 brugt 这个:Stanford Parser Maven Repo)
关于java - 如何使用 Genia Corpus 训练 Stanford Parser?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10850997/
已关闭。这个问题是 off-topic 。目前不接受答案。 想要改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 已关闭12 年前。 Improve th
我已经安装了NLTK。这是安装日志的图像。 当我使用import nltk时,我收到错误: "No module named NLTK.corpus" 这是屏幕截图。 可能是什么原因? 最佳答案 我想
我的代码引用了 nltk.corpus.words.words()。 哪个NLTK data设置为我需要下载才能访问它? 现在我告诉下载器通过执行 python -m nltk.downloader
我真的是编程新手,这就是为什么我的问题可能很无聊或愚蠢,对此感到抱歉!我正在尝试在 Gephi 中构建共同作者图(graphml 格式)。一切都很好,但我不明白如何在同一文件中导入日期。我的代码如下:
nltk.corpus.wordnet 中哪个相似度函数适用于查找两个词的相似度? path_similarity()? lch_similarity()? wup_similari
本文整理了Java中se.lth.cs.srl.corpus.Yield类的一些代码示例,展示了Yield类的具体用法。这些代码示例主要来源于Github/Stackoverflow/Maven等平台
我已经开始研究 Moses,并尝试制作我认为会是相当标准的基线系统。 the steps described on the website我基本都关注了,但我没有使用 news-commentary,
我找到了一个在大型维基百科数据集上使用 word2vec 的教程 http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/ 我想构建一个类似于
背景: 给定一个语料库,我想使用 word2wec (Gensim) 的实现来训练它。 想要了解 2 个标记之间的最终相似性是否取决于语料库中 A 和 B 的频率(保留所有上下文),还是不可知。 示例
您好,我正在使用 NLTK、nps_chat 语料库。 我知道我可以像下面这样访问 nps 聊天语料库 posts = nltk.corpus.nps_chat.xml_posts() 我准备了Lab
我一直在阅读不同的问题/答案(尤其是 here 和 here),但没有设法将任何问题/答案应用于我的情况。 我有一个 11,390 行的矩阵,其中包含属性 id、作者、文本,例如: library(t
我想知道 R 的文本挖掘包是否有可能具有以下功能: myCorpus ),control=...) # add docs myCorpus.addDocs(DirSource(),control=..
我正在使用 tm 包通过以下代码清理一些数据: mycorpus corpus")" to a data.frame 如何将语料库转换为数据框? 最佳答案 你的语料库实际上只是一个带有一些额外属性的
有没有一种简单的方法如何不仅可以找到最常用的术语,还可以在 R 的文本语料库中找到表达式(所以不止一个单词,单词组)? 使用 tm 包,我可以找到最常见的术语,如下所示: tdm <- TermDoc
我的问题是在给定两个训练数据 good_reviews.txt 和 bad_reviews.txt 的情况下对文档进行分类。因此,首先我需要加载并标记我的训练数据,其中每一行本身就是一个文档,对应于评
当我使用 Python 2.7(Anaconda、Windows)运行 nltk.corpus.gutenberg.fileids() 时,出现以下错误: File "C:\Anaconda\lib\
我在为斯坦福解析器创建新模型时遇到了一些问题。 我还从斯坦福下载了最新版本: http://nlp.stanford.edu/software/lex-parser.shtml 这里,Genia Co
本文整理了Java中se.lth.cs.srl.corpus.Yield.contains()方法的一些代码示例,展示了Yield.contains()的具体用法。这些代码示例主要来源于Github/
本文整理了Java中se.lth.cs.srl.corpus.Yield.first()方法的一些代码示例,展示了Yield.first()的具体用法。这些代码示例主要来源于Github/Stacko
本文整理了Java中se.lth.cs.srl.corpus.Yield.size()方法的一些代码示例,展示了Yield.size()的具体用法。这些代码示例主要来源于Github/Stackove
我是一名优秀的程序员,十分优秀!