今天看啥  ›  专栏  ›  AIforResearch

全面对比GPT-3.5与LLaMA 2微调

AIforResearch  · 公众号  ·  · 2023-10-20 18:26
本文转自 https://mp.weixin.qq.com/s/364ZeMiyJ4snm5540k-nfA作者 | Sam L'HuillierOneFlow编译翻译|杨婷、宛子琳本文中,将分享在SQL任务和函数表示任务中,对GPT-3.5与LLaMA 2的微调进行基准测试的实验。总体而言: GPT-3.5在SQL任务(https://github.com/samlhuillier/spider-sql-finetune)和函数表示(https://github.com/samlhuillier/viggo-finetune)任务中的表现都略优于用LoRA微调的CodeLLaMA-34B(我发现的效果最好的模型)。GPT-3.5的训练成本要高出4-6倍(部署成本甚至更高)。为什么要做这个对比?因为GPT-3.5的微调十分昂贵,我想通过实验来验证,手动微调的模型能否以较低的成本接近GPT-3.5的性能水平。有趣的是,手动微调的模型性能确实更接近GPT-3.5!1 实验结果CodeLLaMA-34B和训练至收敛的GPT-3.5模型在SQL任务和函数表示任务中的表现。GPT-3.5在这两个任务上的准确性都要略优于CodeLLaMA-34B。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照