【文末福利】看不懂西瓜书？恶补数学吧-同城58网网

机器学习的门槛看似越来越低，从教育角度讲，已经下沉到高中、职高，甚至初中小学——STEAM教育有很多机器学习课程。PYTHON的机器学习包，还有一些机器学习深度学习框架，比如PYTORCH等，已经非常强大，直接调用即可完成工业级应用，那还需要从头开始了解机器学习的底层原理吗？

>>>>

说明：本书图片来自机器学习数学开源大作鸢尾花书。

要了解底层原理，绕不过西瓜书，西瓜书无论在学业还是行业中，都是被推荐最多的书。但是你真的能看懂吗？或者说，还需要看吗？

机器学习与传统计算机课程不同，当前已经渗透到几乎所有专业和行业，文科、经济、生信、设计，甚至相当比例的理工科背景的同学看西瓜书都会很吃力，因为一上来就是铺天盖地的数学公式，而且这些公式的推导很粗放，不知道怎么就蹦出来了，甚至为了解决这个公式推导问题，国内组织还出了本南瓜书。

但是没有用，看不懂西瓜书的同学，大概率还是看不懂南瓜书。很大程度因为咱们大学的数学课程，可以说基本上是为了各种考试。除了数学专业，其他专业学数学其实都是为了各种工作场景的编程、建模。其实这种教育模式下，数学和编程之间有个断层，而填补这个断层并不容易，很多时候，数学需要重新拾起来。

机器学习需要具备的数学知识主要有线性代数、微积分、统计学。我们市场能找到的资料里面，这些数学分支几乎全部都是独立讲解数学概念+习题的模式。重新拾起来，又痛苦效率又低。

从职业角度讲，任何行业天花板的高度都是由从业者对底层原理的理解程度决定，机器学习也不例外，仅仅满足调用Python机器学习、深度学习的包，比如SK-learn、PyTorch，是不够的。

即便你是机器学习初级从业者，为了调参，为了解释结果，也需要大家理解机器学习算法的底层数学知识。

这些数学基础大致可以分成如下几个板块：

1：微积分（比如，向量微积分中的梯度、黑塞矩阵）

2：线性代数（比如，向量空间、特征值分解、奇异值分解）

3：概率统计（比如，最小二乘法、多元统计、多元高斯分布、最大似然估计MLE、贝叶斯推断、最大后验估计）

4：数值与优化（比如，极值、数值微积分、拉格朗日乘子法、基于梯度的优化方法、遗传算法）

为了学习深度学习，大家当然可以进一步学习随机过程、自动微分、信息论、图论等内容。

对于国内理工科同学来说，虽然数学三件套（微积分、线性代数、概率统计）学了很多数学工具，但是想要入门机器学习，现有的数学三件套的知识体系已经很落后“时代需求”——根据考试指定的学习路线与编程和机器学习完全脱节。

浏览一下文末推荐的开源大作，虽然落脚点不同，但是你会发现，就数学学习本身来说，他们都是通过程度不一的可视化方案来讲解知识点，随便引用一个：

利用鸡兔猪讲解正交投影。

看到了吗？一张图，五头猪，完美干掉“正交投影”。

可视化+编程+机器学习=符合人工智能时代的数学学习方式。

微积分：过度一元，极少多元

理工科现在的微积分教材很大的问题过度强调一元微积分，而极少涉及多元微积分。对于机器学习，多元微积分才是最需要的数学工具。

线性代数：为什么要那么强调行列式？

我能理解行列式是描述线性变换的一个重要工具，可以用来计算线性变换对面积或体积的缩放因子，从而帮助我们理解线性变换的性质和应用。

的确，行列式也是矩阵求逆和解线性方程组的重要工具，因为一个矩阵可逆当且仅当它的行列式不为零，而行列式的值也可以用来求解线性方程组的解。

但是，对于初学者，行列式这个概念极其抽象，开门上来就大谈特谈行列式，简直就是在“劝退”！

即便学习行列式，也应该使用几何视角，而不是纯代数视角。

线性代数：为什么不联系数据、几何、多元微积分、优化、统计？

线性代数是现代计算的核心。最应该强调“多视角”，比如数据视角、几何视角、空间视角、优化视角、统计视角等等。“多重视角”把代数、线性代数、几何、解析几何、概率统计、微积分、优化方法等编织成一张绵密的网络。

举个例子，下面这个多元高斯分布的概率密度函数处处离不开线性代数工具。但是，即便线性代数考满分的同学可能也不能清楚理解它们的含义。

分子上，我们可以看到“平移→旋转→缩放”几何变换。

此外，分子上我们还能发现“马氏距离”。

分子的高斯函数，将距离转化为亲近度。

概率统计：太多一元，极少多元

当前多数概率统计教材都侧重于“一元”，而数据科学、机器学习中处理的问题几乎都是多特征，即“多元”。从一元到多元，有一道鸿沟。能帮助我们跨越这道鸿沟的正是线性代数工具。

概率统计：太多频率派，极少贝叶斯派

统计推断有两大学派——频率学派推断 (Frequentist inference) 和贝叶斯学派推断 (Bayesian inference)。

频率学派认为真实参数确定，但一般不可知。真实参数就好比上帝视角能够看到一切随机现象表象下的本质。而我们观察到的样本数据都是在这个参数下产生的。真实参数对于我们不可知，频率派强调通过样本数据计算得到的频数、概率、概率密度等而得出有关总体的推断结论。频率学派认为事件的概率是大量重复独立试验中频率的极限值。

贝叶斯学派则认为参数本身也是不确定的，参数本身也是随机变量，因此也服从某种概率分布。不同于频率派仅仅使用样本数据，贝叶斯学派结合过去的经验知识和样本数据。贝叶斯学派引入先验分布 (prior distribution)、后验分布 (posterior distribution)、最大后验概率估计(Maximum A Posteriori estimation, MAP) 这样的概念来计算不同参数值的概率。

机器学习、深度学习中，贝叶斯派统计几乎撑起半边天。只可惜现在多数概率统计教材极少介绍贝叶斯派方法（可能是题目不容易出，考试不好考吧）。

贝叶斯统计推断更靠近“人脑思维”模式

举个最简单的例子，试想你一早刚出门的时候发现忘带手机，大脑第一反应是——手机最可能在哪？

这个“贝叶斯推断”的结果一般基于两方面因素：一方面，日复一日的“找手机”的经验；另一方面，“今早、昨晚在哪用过手机”的最新数据。

而且在不断寻找手机的过程，大脑不断提出“下一个最有可能的地点”。

比如，昨晚睡觉前刷了一小时手机，手机肯定在床上！

跑到床头，发现手机不在床上，那很可能在马桶附近，因为早晨方便的时候一般也会刷手机！

竟然也不在马桶附近！那最可能在沙发茶几上，因为坐着看电视的时候我也爱刷手机 …

试想，如果大脑没有以上“经验 + 最新数据”，你会怎么找手机？或者，“贝叶斯推断”找手机无果的时候，我们又会怎么办？

我们很可能会像“扫地机器人”一样，“逐点扫描”，把整个屋子从里到外歇斯底里地翻一遍。这种地毯式“采样”就类似频率派的做法。

这个找手机的过程也告诉我们，贝叶斯推断常常迭代使用。在引入新的样本数据后，先验概率产生后验概率。而这个后验概率也可以作为新的先验概率，再根据最新出现的数据，更新后验概率，如此往复。

人生来就是一个“学习机器”，“前事不忘后事之师”说的也是这个道理。通过不断学习 (数据输入)，我们不断更新自己对世界的认知 (更新模型参数)。这个过程从出生一直持续到离开这个世界为止。

往大了说，人类认识世界的机制又何尝不是贝叶斯推断。在新的数据影响下，人类一次次创造、推翻、重构知识体系。这个过程循环往复，不断推动人类认知进步。

举个例子，统治西方世界思想界近千年的地心说被推翻后，日心说渐渐成了主流。在伽利略等一众巨匠的臂膀上，牛顿力学体系横空出世。在后世科学家不断努力完善下，牛顿力学体系和麦克斯韦电磁场理论为基础的物理大厦大功告成。当人们满心欢喜，以为物理学就剩下一些敲敲打打的修饰工作，结果蓝天之上又飘来了两朵乌云 …

推荐几本开源数学好书（真开源，合法的！）

Mathematics for Machine Learning 这本书是近些年来少有的“好书”！而且全免费下载。我的拙见是，对初学者极不友好。此外，对统计学习，特别是多元统计相关内容，涉及较少。

https://mml-book.github.io/book/mml-book.pdf

下面这两个版本很好！都有配代码！第一版配MATLAB，第二版配Python！缺点很明显，学习曲线极其陡峭，简直就是垂直上升！

竟然也有免费下载！良心好书都会免费给你读！

https://probml.github.io/pml-book/book1.html

这几本书都是全英文版本，英语不好的同学肯生肉的话可能会很有难度。这也说明，学习机器学习时提高英语也是有必要的。大部分业界优秀作品都是英文作品，而且大部分机器学习、深度学习工具包的最新技术文档也都是英文。

英文不行，CHATGPT翻译吧，比谷歌翻译质量好。

最后推荐中文大作“鸢尾花书：从加减乘除到机器学习”！全套书目前有约3000页PDF，3000幅矢量图。鸢尾花书强调的正是“数学 + Python编程 + 可视化 + 机器学习”。

号称“写给人工智能时代看得懂、用得上的数学全彩图册”！

鸢尾花书计划7册全部开源，PDF书稿、Python代码免费下载，图片甚至是矢量的，绝对大气，目前已经开源完三本《数学要素》《矩阵力量》《统计至简》。

https://github.com/Visualize-ML

其中《数学要素》已经有中文纸质版上市，其实跟开源版90%以上内容一致，看完PDF，如果觉得还不错，建议支持一下，搞这么大开源工程，家里没矿估计不行。一是补票鼓励一下作者，二是确实纸书的学习效率要高很多，三是花钱了，自己都会重视。

微积分,福利,概率,工具,统计学,数学,编程,西瓜,行列式,视角,机器学习,线性代数,概率,数学,贝叶斯

相关文章