今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

LongWanjuan:长文本质量的系统测量

大语言模型和具身智体及自动驾驶  · 公众号  · 大数据 科技媒体  · 2024-06-16 00:01
    

主要观点总结

文章介绍了复旦大学和上海AI实验室的论文'LongWanjuan: Towards Systematic Measurement for Long Text Quality',强调训练数据质量对增强基础模型长文本能力的重要性。当前缺乏专门评估长文本的系统方法,因此文章提出了从连贯性、凝聚性和复杂性三个维度评估长文本质量的指标,并构建LongWanjuan双语数据集用于增强长文本任务的语言模型训练。文章还介绍了数据集的构建流程,包括数据筛选、指标评估、阈值确定和数据分类等步骤,最终得到包含整体长文本、聚合长文本和混乱长文本的LongWanjuan数据集。

关键观点总结

关键观点1: 训练数据质量对基础模型的长文本能力至关重要。

目前缺乏专门评估长文本质量的系统方法,因此提出了从连贯性、凝聚性和复杂性三个维度进行评估的方法,并构建LongWanjuan双语数据集用于训练。

关键观点2: LongWanjuan数据集的构建流程包括数据筛选、指标评估、阈值确定和数据分类等步骤。

数据集包含整体长文本、聚合长文本和混乱长文本,旨在提高语言模型处理长文本的能力。

关键观点3: LongWanjuan数据集包含1606亿个tokens,其中整体文本占85.7%,聚合文本占13.6%,混乱文本占0.7%。

该数据集旨在提高语言模型在长文本任务上的性能。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照