专栏名称: Hugging Face
The AI community building the future.
今天看啥  ›  专栏  ›  Hugging Face

社区供稿 | 全球首个多语言 ColBERT: Jina ColBERT V2 和它的“俄罗斯套娃”技术

Hugging Face  · 公众号  ·  · 2024-09-09 10:30
    

文章预览

在  RAG 领域, 多向量 模型   ColB ERT   通 过为文 档的每个 token 生成独立的向量,带来了检索精度的提升。 但同样 也 带来了存储需求的剧增,并且仅支持英文,限制了其应用范围。 为解决这些问题,我们 改进了 ColBERT 的架构和训练流程,特别是在多 语言处理方面取得了突破。 最新的 Jina-ColBERT-v2 支持 89 种语言,并引入了自定义输出维度选项,显著减少存储需求,提升了多语言检索的效率和准确性。 新版本的核心亮点 性能增强 :与原始 ColBERT-v2 相比,英文检索性能提升了 6.5%;相较于前代 jina-colbert-v1-en,性能也提升了 5.4%。 多语言支持 :新版本支持多达 89 种语言,涵盖阿拉伯语、中文、英语、日语、俄语等多种语言,同时支持编程语言。 输出维度可定制 :新版本采用“俄罗斯套娃”式表征学习技术(Matryoshka Representation Learning, MRL),提供 128 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览