专栏名称: 活水智能
AI生产力专家。致力于通过AI教育、软件及社群提高知识工作者的生产力。 官网:huoshuiai.com
今天看啥  ›  专栏  ›  活水智能

外行如何速成专家?Embedding之BM25、splade稀疏向量解读

活水智能  · 公众号  · AI  · 2024-12-14 10:42
    

文章预览

在 《孙悟空 + 红楼梦 - 西游记 = ?一文搞懂什么是向量嵌入》 这篇文章中,我们已经知道了文本怎么变成稠密向量,并且还能够表达文本的语义。但是,对于嵌入模型的“专业领域”外的文本,它的效果不尽如人意。 打个比方,假设你身体不舒服去看医生,医生完全理解你的描述,他会判断病因然后做出诊断。但是,如果你问医生“人工智能如何影响汽车行业?”,医生大概会觉得你不仅身体不舒服,脑子也需要治一治。医生不懂这方面的知识。 想要获得答案,你可以去找人工智能或者汽车领域的专家。当然,你还有另一个选择,去找一位聪明的门外汉,“冒充”专家。 01. 聪明的门外汉——BM25 稠密向量(Dense Vector)的维度较低,一般在几百到上千左右,每个维度的元素一般都不为零。相对的,还有一种稀疏向量(Sparse Vector),它的维度远远 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览