作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
据我了解,要创建训练文件,您需要将单词放入文本文件中。然后在每个单词之后,添加一个空格或制表符以及标签(例如 PERS、LOC 等...)
我还将示例属性文件中的文本复制到字板中。我如何将它们放入一个 gz 文件中,我可以将其输入到分类器中并使用?
请指导我。我是新手,对技术相当不熟练。
最佳答案
您的训练文件(例如 training-data.tsv
)应该如下所示:
I O
drove O
to O
Vancouver LOCATION
BC LOCATION
yesterday O
其中 O
表示“外部”,因为不是命名实体。
列之间的空间是一个制表符
。
您不要将它们放在 ser.gz
文件中。 ser.gz 文件是训练过程创建的分类器模型。
训练分类器运行:
java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties
my-classifier.properties
看起来像这样:
trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...
关于stanford-nlp - 斯坦福 NER : How do I create a new training set that I can use and test out?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17220087/
我是一名优秀的程序员,十分优秀!