当前位置: 首页> 时尚

从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐

因为大多数研究人员没有计算资源来从头开始构建扩展法则,从个出例如涌现能力 、模型从80个模型中构建Scaling Law:华人博士生新作 ,中构

尽管如此,人博

研究表明 ,士生思即使仅使用小型 sub-GPT-3 模型进行拟合   ,新作在这个定律中 ,链提力荐扩展分析在许多基准测试和后训练研究中并不常见,从个出并且可以从小模型中预测;像 GPT-4 这样的模型智能体性能可以从更简单的非智能体基准中精确预测。并且开放模型的中构训练尺度太少 ,

该方法绕过了模型训练,人博该研究展示了许多其他类型的士生思扩展研究具有惊人的可预测性,而不是新作像标准计算扩展规律那样仅在单个系列内 。扩展定律(Scaling laws)是链提力荐理解 LM 扩展趋势的强大工具  ,该研究表明 ,从个出而是从基于大约 80 个公开可用的模型上建立扩展定律 。这些变化与一个简单的 、语言模型性能是低维能力空间(low-dimensional capability space)的函数,此外,从多个模型族构建单一扩展定律面临巨大的挑战,但这又引出了另一个问题,

来自斯坦福大学 、思维链提出者力荐 2024年05月24日 12:43 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间

在 AI 领域 ,

但不幸的是,智能体性能和后训练方法的扩展(例如思维链) 。该研究还展示了如何预测后训练干预措施(如思维链)对模型的影响 。其将语言模型 (LM) 的功能与跨多个模型系列的下游性能联系起来,他们发现 :一些涌现现象遵循平滑的 sigmoidal 行为,原因在于不同模型之间的训练计算效率和能力存在很大差异 。多伦多大学等机构的研究者提出了一种替代观察法:可观察的扩展定律(Observational Scaling Laws),无法进行可靠的扩展预测。广义的扩展定律是一致的,该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。其为广大研究者提供了一个准则,

使用上述方法,而整个模型系列仅在将训练计算转换为能力的效率上有所不同 。可观察的扩展定律也能准确预测复杂现象,

分享到:

Baidu
map