HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。不仅仅是分词,而是提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP v1.5.3的特征
最高分词速度2,000万字/秒(极速分词,2.0GHz i7)
35万词典,覆盖现代汉语常用词、网络新词等
337万接续BiGram文法模型
500 ms 词典加载
训练自2014年人民日报切分语料
词语标注集兼容《ICTPOS3.0汉语词性标记集》
词语标注集兼容《现代汉语语料库加工规范——词语切分与词性标注》
最低内存要求120 MB(-Xms120m -Xmx120m -Xmn64m)
基于双数组Trie的AhoCorasick自动机算法实现O(n)多模式匹配
运行于Java6+
提供Lucene插件,兼容Lucene4.x
Apache License Version 2.0
∨ 展开