gensim – Topic Modelling in PythonGensim是一个Python库,用于主题建模、文档索引和大型语料库的相似性检索。 目标受众是自然语言处理(NLP)和信息检索(IR)社区。Github项目地址:https://github.com/RaRe-Technologies/gensim 特点所有算法都是与语料库大小(可以处理大于RAM的输入,流式传输,核外)有关而不是与内存有关,直观的界面容易插入你自己输入的语料库/数据流(简单的流API)易于使用其他的Vector Space算法扩展(简单的转换API)流行算法的高效多核实现,例如在线潜在语义分析(LSA / LSI / SVD),潜在Dirichlet分配(LDA),随机投影(RP),分层Dirichlet过程(HDP)或word2vec深度学习。分布式计算:可以在计算机集群上运行潜在语义分析和潜在Dirichlet分配。丰富的文档和Jupyter Note
………………………………