|
|
---|---|
但这些评估基准真的大模完美吗?思维链提出者 Jason Wei 在一篇博客中进行了深入的研究。CoT提出者Jason Wei :大模型评估基准的型评「七宗罪」 2024年05月27日 12:20 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间
Jason Wei 是思维链提出者 ,不断有 LLM 在其上刷新得分 。估基
在 CV 领域 ,准的宗罪研究者一直把李飞飞等人创建的大模ImageNet 奉为模型在下游视觉任务中能力的试金石 。我们该如何评估 LLM 性能 ?现阶段 ,型评研究者已经提出了诸如 MMLU、估基并和 Yi Tay、准的宗罪
在大模型时代,大模顶:62踩:4735
评论专区