专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

合成数据的前景与风险

AI前线  · 公众号  · AI  · 2024-12-31 13:40
    

文章预览

作者 | Kyle Wiggers 译者 | 平川 策划 | 褚杏娟 AI 是否有可能只使用另一个 AI 生成的数据进行训练?这听起来可能很愚蠢。但这种想法已经存在了相当长一段时间了——因为真实的新数据越来越难以获得,所以这种想法也越来越受重视。 Anthropic 就使用一些合成数据来训练他们其中的一个旗舰模型 Claude 3.5 Sonnet。Meta 也使用 AI 生成的数据对他们的 Llama 3.1 模型做了微调。据说,为了即将推出的 Orion,OpenAI 正在从其 “推理 ”模型 o1 中获取合成训练数据。 但是,为什么 AI 首先需要数据——它需要什么样的数据?这些数据真的能用合成数据代替吗? 标注的重要性 AI 系统是统计机器。在使用大量实例进行训练后,它们可以习得这些实例中的模式并据此做出预测,比如电子邮件中的 “to whom”通常会出现在 “it may concern”之前。 在这些示例中, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览