专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
今天看啥  ›  专栏  ›  AINLP

2024高考数学新I卷、新II卷客观题大模型评测第三弹!不同的格式竟然会影响考生的能力?

AINLP  · 公众号  ·  · 2024-06-12 10:10
    

文章预览

又到一年一度的高考季,这是青春的试金石,也是智慧的盛宴。一批青年学子将在高考的舞台上诠释自己的青春,实现自己的梦想,在此我们预祝广大考生都能金榜题名! ——全新出炉的高考试题具备高度的 独创性 和 保密性 ,是用来评测大模型的 绝好评测集合 。 复旦NLP实验室LLMEVAL团队将持续推出对2024高考数学真题的 系列评测 。 本次评测的主题是研究问题的不同格式对于模型性能的影响,我们在前两次评测中,对数学题目中的公式部分采用了转义符格式,本次评测则使用了Latex格式进行了横向对比评测。 转义符格式是测试人员将题目通过ocr识别后输出的格式;Latex格式则是测试人员通过人工输入为符合Latex语法的格式。 评测结果发现,大多数模型在两次测试中的结果出现较大出入,但是Latex格式更符合人类实际使用大模型时所采用的格式, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览