结巴分词

2025 / 6 / 6

结巴分词 (jieba)

结巴分词是一个优秀的中文分词Python库，由孙健开发并开源。它是目前最流行的中文分词工具之一。

支持三种分词模式：

支持繁体分词

支持自定义词典

MIT授权协议

基于前缀词典实现高效的词图扫描

生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

采用了动态规划查找最大概率路径

对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法

文本预处理

搜索引擎

文本挖掘

情感分析

关键词提取

文档分类

机器翻译预处理

结巴分词是中文自然语言处理的重要工具，为中文文本分析提供了强大的基础支持。