我正在使用斯坦福解析器进行词性标记,我想从标记器所做的标记中获取名词、形容词动词、副词的单独同义词集。例如
如果我的输入查询是
“恒河是印度最大的河流,人们过去将它视为神”
标记器的输出是:
“恒河/NNP是/VBZ印度/NNP的/POS最大/JJS河/NN和/CC人/NNS使用/VBN/TO考虑/VB它/PRP作为/IN a/DT上帝/NNP”
从中我想分离名词、动词、副词和形容词,并希望分别获得相应的同义词集。
如何使用 JAVA 编程来做到这一点?
private void btnShowTagActionPerformed(java.awt.event.ActionEvent evt) {
Pattern NounPat=Pattern.compile("[A-Za-z]+/NN");
Pattern AdvPat=Pattern.compile("[A-Za-z]+/RB");
Pattern AdjPat=Pattern.compile("[A-Za-z]+/JJ");
Pattern VerbPat=Pattern.compile("[A-Za-z]+/VB.");
String StrToken;
Matcher mat;
StringTokenizer PosToken;
String TempStr;
int j;
for(int line=0;line<SAPosTagging.tagedReview.length;line++)
{
try{
PosToken=new StringTokenizer(SAPosTagging.tagedReview[line]);
while(PosToken.hasMoreTokens())
{
StrToken=PosToken.nextToken();
mat=NounPat.matcher(StrToken);
if(mat.matches())
{
TempStr=StrToken;
txtareaExTagText.append("Noun=>"+StrToken); //textarea to be appended
j=TempStr.indexOf("/");
TempStr=TempStr.substring(0,j);
System.out.print("\tNoun=>"+TempStr);
}
mat=VerbPat.matcher(StrToken);
if(mat.matches())
{
txtareaExTagText.append("\tVerb=>"+StrToken);
TempStr=StrToken;
j=TempStr.indexOf("/");
TempStr=TempStr.substring(0,j);
System.out.print("\tVerb=>"+TempStr);
}
mat=AdvPat.matcher(StrToken);
if(mat.matches())
{
txtareaExTagText.append("\tAdverb=>"+StrToken);
TempStr=StrToken;
j=TempStr.indexOf("/");
TempStr=TempStr.substring(0,j);
System.out.print("\tAdVerb=>"+TempStr);
}
mat=AdjPat.matcher(StrToken);
if(mat.matches())
{
txtareaExTagText.append("\tAdjective=>"+StrToken);
TempStr=StrToken;
j=TempStr.indexOf("/");
TempStr=TempStr.substring(0,j);
System.out.print("\tAdjective=>"+TempStr);
}
}
System.out.println();
txtareaExTagText.append("\n\n");
}catch(Exception e){}
}
}
我是一名优秀的程序员,十分优秀!