大模型从0到1|第十一讲:如何用好 Scaling Law (Scaling - Case Study and Details)
大模型从0到1|第十一讲:如何用好 Scaling Law (Scaling - Case Study and Details) 课程链接:Stanford CS336 Spring 2025 - Lecture 11 课程信息 课程: CS336 讲师: Tatsu H 主题: 深入探讨 Scaling Law 在实际工程中的应用,包括 muP 参数化、WSD 学习率调度以及 Chinchi