注册登录

看啥推荐读物

专栏名称: AIforResearch

每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

高分子科学前沿 · 光敏聚合物，凭什么登上Nature！· 20 小时前

高分子科技 · 西安工大张红梨/西工程大杨杰 ...· 昨天

化学加 · 五篇Nature齐发！北京大学、中国科大、西 ...· 2 天前

高分子科技 · 浙江大学单体中/周民：可食用的“微藻-磷脂酰 ...· 5 天前

高分子科学前沿 · 中国青年学者联手，最新Science：仿生触 ...· 5 天前

今天看啥 › 专栏 › AIforResearch

全面对比GPT-3.5与LLaMA 2微调

AIforResearch · 公众号 · · 2023-10-20 18:26

本文转自 https://mp.weixin.qq.com/s/364ZeMiyJ4snm5540k-nfA作者 | Sam L'HuillierOneFlow编译翻译｜杨婷、宛子琳本文中，将分享在SQL任务和函数表示任务中，对GPT-3.5与LLaMA 2的微调进行基准测试的实验。总体而言： GPT-3.5在SQL任务（https://github.com/samlhuillier/spider-sql-finetune）和函数表示（https://github.com/samlhuillier/viggo-finetune）任务中的表现都略优于用LoRA微调的CodeLLaMA-34B（我发现的效果最好的模型）。GPT-3.5的训练成本要高出4-6倍（部署成本甚至更高）。为什么要做这个对比？因为GPT-3.5的微调十分昂贵，我想通过实验来验证，手动微调的模型能否以较低的成本接近GPT-3.5的性能水平。有趣的是，手动微调的模型性能确实更接近GPT-3.5！1 实验结果CodeLLaMA-34B和训练至收敛的GPT-3.5模型在SQL任务和函数表示任务中的表现。GPT-3.5在这两个任务上的准确性都要略优于CodeLLaMA-34B。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

高分子科学前沿 · 光敏聚合物，凭什么登上Nature！

20 小时前

高分子科技 · 西安工大张红梨/西工程大杨杰 SPT：共价桥连的MXene/COF杂化膜用于有机染料的高效分离

昨天

化学加 · 五篇Nature齐发！北京大学、中国科大、西湖大学、上海药物所、长春光机所

2 天前

高分子科技 · 浙江大学单体中/周民：可食用的“微藻-磷脂酰胆碱”复合食品材料 - “低胆固醇、高多不饱和脂肪酸” 肌内脂肪

5 天前

高分子科学前沿 · 中国青年学者联手，最新Science：仿生触觉传感器！

5 天前

人民网 · 【#西安人如何掰馍# #从掰馍的姿势认出西安人#】怎么认出西安人-20201228131403

3 年前

独角兽早知道 · 万国数据通过港交所聆讯，摩根大通、美银美林、中金和海通证券为联席保荐人，国内最大的中立第三方数据中心服务商

3 年前

何乐不为 · 万豪盛宴，已入佳境。

3 年前

丧心病狂刘老湿 · 晒日常01—— 一个读书狂魔的翻包记

6 年前

捧腹笑话 · 15年不间断求婚！88岁老翁终于娶到93岁女友

6 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号