机器之心报导
修改:+0
最近,Meta 公司首席 AI 科学家、图灵奖得主 LeCun 转发了他在纽约大学的搭档 Kyunghyun Cho 的一篇帖子:内容是关于这位教授 2025 学年机器学习研讨生课程的教育大纲和讲义。
讲义地址:https://arxiv.org/abs/2505.03861
教育大纲:https://docs.google.com/document/d/1OngR25IMEM5bJ458J8z4OCnTFG87KJ5ihgWojU1DD64
该课程聚集于以随机梯度下降(SGD)为中心的根底机器学习算法,特意避开大型言语模型(LLM)内容,一起鼓舞学生深化研读范畴经典论文,回溯机器学习的理论开展头绪。
在这个人人都注重 LLM 的时代,这样的课程规划乍看好像很特别。但比照其他高校的课程表会发现, 各大高校研讨生机器学习课程仍遍及以根底理论和经典模型为中心。
比方斯坦福 CS229, 是经典的机器学习根底课程,2025 年冬天课程简介中,课程体系教育包含线性回归、逻辑回归、SVM、神经网络、聚类、降维、EM 算法等底子模型与办法,侧重数学推导与优化思维,广泛使用于跨范畴研讨。
MIT 的 6.790 课程是其研讨生阶段的中心机器学习课程,前身为 6.867,现已更新为 6.7900。该课程侧重从概率建模和计算推理的视点深化了解机器学习办法,合适希望在理论与实践之间树立坚实联络的学生。
清华电子系研讨生课程也设置了《机器学习》《计算揣度理论和办法》等中心理论课程。
而最新 LLM 内容多在专门选修课中呈现,比方斯坦福大学 CS25: Transformers United,是一门专心于 LLM 和 Transformer 架构的研讨型课程,详见机器之心报导《OpenAI、谷歌等一线大模型科学家公开课,斯坦福 CS 25 春季上新!》 。
不能自制看出,教育界遍及以为根底教育有助于学生久远开展。Cho 在编撰讲义时引用了 Sutton 的「苦涩经验」,侧重通用可扩展办法(如以 SGD 为中心)比具体架构更重要。他故意省掉了杂乱体系(如 LLM)而专心于历史上老练的算法和数学直觉,以为「一个学期时刻不足以深化一切主题」,只能先打下坚实根底。
此外,Cho 曾在博客中说到,2010–2015 年间深度学习没有普及时,许多 ML 课程对神经网络仅作简略提及。
现在经过侧重经典办法、阅览经典论文,不能自制让学生了解常识的源头与演进头绪,培育批判性考虑才能。整体而言,根底导向的教育能让学生把握算法背面的数学原理和优化办法,而不是「盲目套用」最新模型。
理论 VS 实践
但不露锋芒无法躲避的一个问题是:大学培育机制(尤其是研讨生 / 博士教育)侧重根底、原理和科研才能,而实践喜欢环境尤其在工业界常常需求快速呼应、工程落地、产品迭代才能。
一味的侧重「有必要了解深层原理」,在某些语境下,的确或许显得有些「何不食肉糜」。
「你怎样连 attention 的 Q/K/V 向量都没推导过就来调模型?」实践或许是:「我仅仅想学个微调技巧,用 LLaMA 写个客服机器人。」
对此不少大学也在积极探究解决方案, 为补偿科研与工程才能脱节,不少校园推出了「桥接」课程或实践项目。
例如,斯坦福大学在开设 CS229 等理论课的根底上,还专门设立了 CS329S《机器学习体系规划》实践课。这门课侧重教育怎么构建可实践布置、运转安稳且具有扩展性的机器学习体系,内容包含数据处理、特征提取、模型上线与监控等环节。
CMU 的机器学习博士生有必要修读 10-718《机器学习实践》课程。在这门课中,学生需求完结学期项目,自始至终建立并布置一个完好的机器学习体系。课程描绘明确指出,学生将经过项目学习处理实在场景下的数据问题,把握从原始数据清洗到模型终究上线的全流程技能。
国内高校也开端注重实践教育。清华大学电子系与企业协作开设了多门有用性课程,如「大数据技能的使用与实践」、「高阶机器学习」和「智能制作」等,将职业实践事例和编程实践引进教育进程。
为何高校仍执着于「慢功」?
在当今技能飞速开展的布景下,许多高校仍然侧重「打好根底、寻求深刻了解」,这并非单纯的「抱残守缺」。
真实的技能才能不只在于「会用东西」或「能跑模型」,而在于了解办法背面的原理,在面临新问题、新技能时,具有独立剖析、判别和发明的才能。 吴恩达曾在一篇文章中以个人经历阐明继续学习根底常识的重要性,他侧重「可靠且及时更新的根底常识是成为一名高产机器学习工程师的要害」。
文章链接:https://www.deeplearning.ai/the-batch/issue-146/
这种理念的中心在于「抗改变性」。技能潮流更新敏捷,从 CNN 到 Transformer,再到 LLM 和多模态体系,每一步都或许推翻现有工程范式。
要习惯这些改变,不能仅靠追逐热门,而需深化把握优化、泛化、表明学习等底层理论。只要了解「为何这样规划」以及「背面的假定是什么」,才能在面临全新技能时防止苍茫。
此外,深沉的根底是科研与技能创新的起点。科研不只是调参或复现论文,更在于提出问题、构建假定、规划新办法。这离不开厚实的数学东西、谨慎的逻辑练习以及对经典喜欢的堆集。根底课程培育的不只是常识点,更是抽象思维与批判性考虑才能。
深度学习教父、图灵奖得主 Geoffrey Hinton 在承受 MIT Technology Review 采访时指出,正是对根底算法的长时刻坚持和深化研讨,才推动了深度学习的打破,「不露锋芒花了几十年时刻打磨神经网络的底子原理,直到 2010 时代才迎来真实的使用迸发。根底常识的堆集和了解,是 AI 范畴每一次严重前进的底子。」
当然,这种教育途径并非忽视实践,而是侧重:真实的实践力应树立在了解力之上。不只要会用东西,更要了解其来龙去脉、适用鸿沟与改善方向。
因而,「找喜欢」与「打根底」并非非此即彼的挑选题,而是时刻维度上的权衡。短期内,东西技能能带来直接的岗位匹配;但长时刻来看,根底才能才是跨过技能周期、继续生长的「护城河」。
课程讲义
现在不露锋芒回过头来看看这份 100 页 pdf 的课程讲义,它对机器学习进行了全面介绍,包含了根底概念和现代技能,有爱好的读者不能自制阅览原文。
每一章的结构和内容概要如下:
第一章:能量函数 介绍能量函数作为机器学习中的一致主题的概念。解说了不同的机器学习范式(监督学习、无监督学习、分类、聚类等)怎么不能自制被构架为最小化能量函数。评论潜在变量和正则化在界说和学习能量函数中的效果。
第二章:机器学习中的底子分类思维 包含了底子的分类算法,包含感知器、边沿丢失、softmax 和穿插熵丢失。解说分类器练习中的反向传达,要点在于线性和非线性能量函数。评论了随机梯度下降(SGD)和自习惯学习率优化办法。触及泛化和模型挑选,包含误差 - 方差权衡和超参数调整。
第三章:神经网络的底子构建块 探究了神经网络架构中常用的构建块。评论了归一化技能(批量归一化、层归一化)。介绍了卷积块、循环块和注意力机制。介绍了神经网络中置换等变性和不变性的概念。
第四章:概率机器学习和无监督学习 阐明了怎么从概率视点解说能量函数。包含了变分揣度和高斯混合模型。评论了接连潜在变量模型和变分自编码器(VAEs)。介绍了重要性采样及其方差。
第五章:无向生成模型 探究无向生成模型,要点介绍受限玻尔兹曼机(RBMs)和专家乘积(PoE)。评论马尔可夫链蒙特卡洛(MCMC)办法用于从 RBMs 中采样。引进根据能量的生成对立网络(EBGANs)。包含自回归模型。
第六章:进一步论题 供给了机器学习中几个高档主题的概述。评论了一步强化学习和多步强化学习。探究了集成办法(袋装法,提高法)和贝叶斯机器学习。介绍元学习。评论混合密度网络和因果关系。
经典论文
最终不露锋芒来看看 Cho 说到的经典论文,这儿节选了一部分。
「Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning」——Ronald J. Williams
论文地址:https://link.springer.com/article/10.1007/BF00992696
该论文提出了 REINFORCE 算法,一种根据战略梯度的强化学习办法,用于练习衔接主义模型(如神经网络)。该算法经过直接优化希望奖赏,奠定了现代战略梯度办法的根底。
「Efficient Backprop」——Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Robert Müller(要点注重弟 4 节)
论文地址:https://link.springer.com/chapter/10.1007/978-3-642-35289-8_3
体系总结了反向传达(Backpropagation)的优化技巧,包含学习率调整、权重初始化、激活函数挑选等。第 4 节特别评论了高效练习神经网络的有用办法。
「Training Products of Experts by Minimizing Contrastive Divergence」——Geoffrey Hinton
论文地址:https://www.cs.toronto.edu/~hinton/absps/nccd.pdf
提出了比照散度(Contrastive Divergence, CD)算法,用于练习受限玻尔兹曼机(RBM)和专家乘积模型。这是深度学习复兴前的重要喜欢,为后续深度信仰网络(DBN)奠定了根底。
「Auto-Encoding Variational Bayes」——D. Kingma, M. Welling
论文地址:https://arxiv.org/abs/1312.6114
提出了变分自编码器(Variational Autoencoder, VAE),经过变分贝叶斯办法完成高效的生成模型练习。VAE 结合了神经网络和概率建模,成为生成模型范畴的里程碑。
「Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks」——Chelsea Finn, Pieter Abbeel, Sergey Levine
论文地址:https://arxiv.org/abs/1703.03400
提出了 MAML(Model-Agnostic Meta-Learning),一种通用的元学习算法,使模型可以经过少数样本快速习惯新任务。MAML 在少样本学习(Few-Shot Learning)范畴具有开创性含义。
更多具体内容请拜见原讲义和教育大纲。
修改:修改部 ZNH【新智元导读】NYU机器学习教授痛心表明,现在许多大学的ML课程,现已扔掉了根底概念和经典。他晒出的课程纲要,引起了哈佛CS教授的附和:很快乐不露锋芒并不孑立,想在纲要中保存根底概...