gpt4 book ai didi

linux - Stanford POS Tagger 不标记中文文本

转载 作者:IT王子 更新时间:2023-10-29 01:19:38 28 4
gpt4 key购买 nike

我正在使用 Stanford POS Tagger(这是第一次),虽然它正确地标记了英文,但它似乎无法识别(简体)中文,即使在更改模型参数时也是如此。我是否忽略了什么?

我已经从这里下载并解压了最新的完整版本: http://nlp.stanford.edu/software/tagger.shtml

然后我将示例文本输入到“sample-input.txt”。

这是一个测试的句子。这是另一个句子。

然后我就跑

./stanford-postagger.sh models/chinese-distsim.tagger sample-input.txt

预期的输出是用词性标记每个单词,但它会将整个文本字符串识别为一个单词:

Loading default properties from tagger models/chinese-distsim.tagger

Reading POS tagger model from models/chinese-distsim.tagger ... done [3.5 sec].

這是一個測試的句子。這是另一個句子。#NR

Tagged 1 words at 30.30 words per second.

感谢任何帮助。

最佳答案

我终于意识到标记化/分割不包含在这个 pos 标记器中。在将单词提供给标注器之前,单词似乎必须以空格分隔。对中文最大熵分词感兴趣的 friend ,这里有一个单独的包:

http://nlp.stanford.edu/software/segmenter.shtml

谢谢大家

关于linux - Stanford POS Tagger 不标记中文文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16074238/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com