gpt4 book ai didi

java中文分词之正向最大匹配法实例代码

转载 作者:qq735679552 更新时间:2022-09-28 22:32:09 25 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章java中文分词之正向最大匹配法实例代码由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

前言 。

基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典.

所谓词典正向最大匹配就是将一段字符串进行分隔,其中分隔 的长度有限制,然后将分隔的子字符串与字典中的词进行匹配,如果匹配成功则进行下一轮匹配,直到所有字符串处理完毕,否则将子字符串从末尾去除一个字,再进行匹配,如此反复.

算法流程图如下:

java中文分词之正向最大匹配法实例代码

下面给大家主要讲一下中文分词里面算法的简单实现,废话不多说了,现在先上代码 。

示例代码 。

java" id="highlighter_468380">
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
package com;
 
 
import java.util.arraylist;
import java.util.list;
 
 
public class segmentation1 {
  private list<string> dictionary = new arraylist<string>();
  private string request = "北京大学生前来应聘" ;
 
  public void setdictionary() {
  dictionary.add( "北京" );
  dictionary.add( "北京大学" );
  dictionary.add( "大学" );
  dictionary.add( "大学生" );
  dictionary.add( "生前" );
  dictionary.add( "前来" );
  dictionary.add( "应聘" );
  }
 
  public string leftmax() {
  string response = "" ;
  string s = "" ;
  for ( int i= 0 ; i<request.length(); i++) {
   s += request.charat(i);
   if (isin(s, dictionary) && aheadcount(s, dictionary)== 1 ) {
   response += (s + "/" );
   s = "" ;
   } else if (aheadcount(s, dictionary) > 0 ) {
   
   } else {
   response += (s + "/" );
   s = "" ;
   }
  }
  return response;
  }
 
  private boolean isin(string s, list<string> list) {
  for ( int i= 0 ; i<list.size(); i++) {
   if (s.equals(list.get(i))) return true ;
  }
  return false ;
  }
 
  private int aheadcount(string s, list<string> list) {
  int count = 0 ;
  for ( int i= 0 ; i<list.size(); i++) {
   if ((s.length()<=list.get(i).length()) && (s.equals(list.get(i).substring( 0 , s.length())))) count ++;
  }
  return count;
  }
 
  public static void main(string[] args) {
  segmentation1 seg = new segmentation1();
  seg.setdictionary();
  string response1 = seg.leftmax();
  system.out.println(response1);
  }
}

可以看到运行结果是:北京大学/生前/来/应聘/ 。

算法的核心就是从前往后搜索,然后找到最长的字典分词.

总结 。

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对我的支持.

原文链接:http://blog.csdn.net/xiaoyeyopulei/article/details/25194021 。

最后此篇关于java中文分词之正向最大匹配法实例代码的文章就讲到这里了,如果你想了解更多关于java中文分词之正向最大匹配法实例代码的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com