gpt4 book ai didi

java - 多个文件输入到 stanford NER 保留每个输出的命名

转载 作者:行者123 更新时间:2023-12-01 11:40:21 24 4
gpt4 key购买 nike

我有很多文件(“05”、“06”和​​“07”的《纽约时报》语料库),我想通过 Stanford NER 运行它们。 ,“简单”你可能会想,“只需按照README文档中的命令操作即可”,但如果你刚才这么认为,那你就错了,因为我的情况有点复杂。我不希望它们全部输出成一些大困惑,我想保留每个文件的命名结构,例如,一个文件名为 1822873.xml 我之前使用以下命令:

java -mx600m -cp /home/matthias/Workbench/SUTD/nytimes_corpus/stanford-ner-2015-01-30/stanford-ner-3.5.1.jar edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier classifiers/english.all.3class.distsim.crf.ser.gz -textFile /home/matthias/Workbench/SUTD/nytimes_corpus/1822873.xml -outputFormat inlineXML >> output.curtis

如果我跟随 this question ,即命令中一个接一个地列出许多文件,然后将其通过管道传输到某个地方,这不是将它们全部发送到同一个文件吗?这听起来像是一场最严重的头痛灾难。

是否有某种方法可以将每个文件发送到单独的输出文件,例如,我们的老 friend 1822873.xml将从这个过程中出现,例如1822873.output.xml ,对于其他一千个奇怪的文件也是如此。请记住,我正在努力实现这一目标 expeditiously .

我想这应该是可能的,但是最好的方法是什么?使用某种终端命令,或者编写一个小脚本?

也许你们当中有人对这类事情有一些经验。

感谢您的考虑。

最佳答案

如果您使用-filelist选项和-outputDirectory选项,您可以读取您想要处理的文件列表以及您要处理的目录。喜欢保存处理过的文件。示例:

java -cp "*" -mx5g edu.stanford.nlp.pipeline.StanfordCoreNLP -prop annotators.prop -filelist list_of_files_to_process.txt -outputDirectory "my_output_directory"

以下是 list_of_files_to_process.txt 的内容,供引用:

C:/Users/dduhaime/Desktop/pq/analysis/data/washington_correspondence_data/collect_full_text/washington_full_text\02-09-02-0334.txt
C:/Users/dduhaime/Desktop/pq/analysis/data/washington_correspondence_data/collect_full_text/washington_full_text\02-09-02-0335.txt
C:/Users/dduhaime/Desktop/pq/analysis/data/washington_correspondence_data/collect_full_text/washington_full_text\02-09-02-0336.txt
C:/Users/dduhaime/Desktop/pq/analysis/data/washington_correspondence_data/collect_full_text/washington_full_text\02-09-02-0337.txt

以下是我的 annotators.prop 文件的内容:

annotators = tokenize, ssplit, pos, lemma, ner, parse, dcoref, gender, sentiment, natlog, entitymentions, relation

my_output_directory 的内容如下所示: enter image description here

关于java - 多个文件输入到 stanford NER 保留每个输出的命名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29577238/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com