看啥推荐读物
专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
今天看啥  ›  专栏  ›  机器学习初学者

【TF-IDF】传统方法TF-IDF解决短文本相似度问题

机器学习初学者  · 公众号  ·  · 2020-03-16 11:00
机器学习算法与自然语言处理出品@公众号原创专栏作者 刘聪NLP学校 | 中国药科大学 药学信息学硕士知乎专栏 | 自然语言处理相关论文前几天写了一篇短文本相似度算法研究的文章,不过里面介绍的方法基本上都是基于词向量生成句子向量的方法。今天在这里就介绍一下传统算法TF-IDF是如何计算短文本相似度的。TF-IDF是英文Term Frequency–Inverse Document Frequency的缩写,中文叫做词频-逆文档频率。那么,TF-IDF是怎么产生的?又是从何而来呢?在一个文本中,当一个词汇出现很多次时,我们往往认为这个词是重要的,可以代表该文本。但是事实不是这样的,比如:“的”这个词,虽然在一个文本中出现很多次,但是它依然没有什么实际意义。而人们想要给文本中 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照