建站知识库

中文分词

中文分词
中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。

中文分词算法
中文分词算法属于自然语言处理范畴,基于词典的方法、基于统计的方法、基于规则的方法、传说中还有基于理解的-神经网络-专家系统。事实上,目前不管是基于规则的算法、还是基于 HMM、CRF 或者 Deep Learning 等方法,分词效果在具体任务中的差距并没有那么明显。