中文文本语料NLP及话题聚类模型 测试数据集有: 20newsgroups, http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html 另外要使用ICTCLAS进行分词的话,还需要一个License,版本问题,这里不便共享