文章预览
在 RAG 领域, 多向量 模型 ColB ERT 通 过为文 档的每个 token 生成独立的向量,带来了检索精度的提升。 但同样 也 带来了存储需求的剧增,并且仅支持英文,限制了其应用范围。 为解决这些问题,我们 改进了 ColBERT 的架构和训练流程,特别是在多 语言处理方面取得了突破。 最新的 Jina-ColBERT-v2 支持 89 种语言,并引入了自定义输出维度选项,显著减少存储需求,提升了多语言检索的效率和准确性。 新版本的核心亮点 性能增强 :与原始 ColBERT-v2 相比,英文检索性能提升了 6.5%;相较于前代 jina-colbert-v1-en,性能也提升了 5.4%。 多语言支持 :新版本支持多达 89 种语言,涵盖阿拉伯语、中文、英语、日语、俄语等多种语言,同时支持编程语言。 输出维度可定制 :新版本采用“俄罗斯套娃”式表征学习技术(Matryoshka Representation Learning, MRL),提供 128
………………………………