看啥推荐读物
专栏名称: AIforResearch
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
今天看啥  ›  专栏  ›  AIforResearch

昨天 Llama3 刚刚开源,今天 Llama3-8b 中文版本上线了!

AIforResearch  · 公众号  ·  · 2024-04-20 16:11
不得不说,现在哪里都卷,这不,24小时前大家还沉浸在开源界GPT4来临的欢呼里,都在尝试LLAMA 3带来的惊喜,测试效果如何炸裂,想着下周部署本地跑一版看看效果,一觉醒来,好家伙,中文版已经被放出来了来看看作者的介绍说明:训练数据集一共5个1、firefly-train-1.1M:包含了23种常见的中文NLP任务的数据,并且构造了许多与中华文化相关的数据,如对联、作诗、文言文翻译、散文、金庸小说等。对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万。2、shareAI/CodeChat:主要包含逻辑推理、代码问答、代码生成相关语料样本。3、 shareAI/ShareGPT-Chinese-English-90k:中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。4、ruozhiba:弱智吧数据问答,据说比较锻炼模型的心智能力。5、 COIG-CQIA:包含知乎 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照