主要观点总结
本文介绍了通用模型法律能力测评活动的目的和测评内容,以及针对不同模型(DeepSeek深度思考模式、DeepSeek深度思考模式+联网搜索、DeepSeek法研适配版)在法律领域的表现进行了详细的分析和比较。文章还提到了法律大模型的落地实践以及法律AI智能体的应用等相关内容。
关键观点总结
关键观点1: 通用模型法律能力测评活动目的
为大模型在法律领域的水平、潜力、提升方向等关键问题,提供更加全面、多元的审视。
关键观点2: 测评内容
通过500个样本,对DeepSeek等模型在不同模态下的法律能力进行测评,包括正确性、完整性、相关性和有效性等方面。
关键观点3: 不同模型的表现
DeepSeek等模型在测评中表现出不同的优势和不足,通过对比分析,发现知识库和参数量对模型的表现有重要影响。
关键观点4: 法律大模型的落地实践
法律大模型在法律行业的应用性能提升需要高质量的知识库和专业领域的训练数据集的支持。
文章预览
前段时间,我们筹备了一场 通用模型法律能力测评活动 ,旨在 为大模型在法律领域的水平、潜力、提升方向等关键问题,提供更加全面、多元的审视。当前测评工作已经完毕,团队正在紧锣密鼓地整理和撰写测评报告,还请期待😁。 作为前瞻,我们先聚焦一个模型,DeepSeek, 从正确性、完整度、相关度和有效性四个维度,一起来看看不同模态下DS的法律能力。 01 测评方案 测评目的: 本次测评旨在对比 DeepSeek在不同模态下,在法律领域的应用效果。 对比版本 : ① DeepSeek深度思考模式(671B) ② DeepSeek深度思考模式 +联网搜索 (671B) ③ DeepSeek法研适配版(671B),即基于原DeepSeek-R1模型,融合了法观知识库。 ④ DeepSeek法研适配版(千问 32B蒸馏版), 即基于Deepseek-R1-Distill-qwen-32B蒸馏版模型,融合了法观知识库 测评内容:500个问答, 本文以一个样
………………………………