看啥推荐读物
专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

斯坦福发布大模型Alpaca:A100上训3小时,性能比较GPT-3.5,被挤爆!

夕小瑶科技说  · 公众号  ·  · 2023-03-15 09:56
源|新智元Meta的LLaMA模型开源,让文本大模型迎来了Stable Diffustion时刻。今天,斯坦福发布了一个由LLaMA 7B微调的模型Alpaca,训练3小时,性能比肩GPT-3.5。一觉醒来,斯坦福大模型Alpaca(草泥马)火了。没错,Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。关键是训练成本奇低,不到600美元。具体花费如下:在8个80GB A100上训练了3个小时,不到100美元;生成数据使用OpenAI的API,500美元。斯坦福大学计算机科学副教授Percy Liang称,由于缺乏透明度/无法完全访问像GPT 3.5这样的有能力的指令模型,进而限制了这一重要领域的学术研究。我们在 Alpaca (LLaMA 7B + text-davinci-003)上迈出了一小步。看到又有人在自家大模型上取得了新的成果,Yann LeCun疯狂转发(宣传要到位)。3小时微调70亿参数,600美元搞定话不多说,先试用一波。问 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照