序号 logo 名称 访问量 同步日期  
1 Word分词器 Word分词器
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。
30 2016-12-05
2 Jcseg Jcseg
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene, solr, elasticsearch的分词接口!Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等!
12 2016-12-07
3 IKAnalyzer IKAnalyzer
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。
10 2016-12-05
4 Ansj Ansj
Ansj是一个基于n-Gram+CRF+HMM的中文分词的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化。
9 2016-12-07
5 Paoding Paoding
庖丁解牛分词器是基于lucene的中文分词系统的软件。为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding中文分词追求分词的高效率和用户良好体验。目前托管于Google。
9 2016-12-07