Introduction

Statics: Model-based
ML: Model-freed

Statics View

$f_\theta(x)=ax+b$ $\hat{\beta}=(X^TX)^{-1}X^TY$

最小二乘因子

高斯-马尔科夫定理
$X \in R^{n \times d}$, $Y \in R^{n \times 1}$

何时用统计

预测X与Y的一种关系
具体知道参数满足的不同的分布规律。

ML Views

当数据量很大时，不能通过这个方法来计算得到$\hat{\beta}$:

$\hat{\beta}=(X^TX)^{-1}X^TY$

不需要模型，只有一个目标去学习参数。

$L_n = \frac{1}{n} \sum_{i=1}^n (ax_i+b-y_i)^2$

利用梯度下降。
$h_i=ax_i+b$

$\frac{\partial L_n}{\partial a} = \frac{1}{n}\sum_{i=1}^n(h_i-y_i) \frac{\partial h_i}{\partial a} =\frac{1}{n}\sum_{i=1}^n(h_i-y_i)x_i$

Gradient Desent

$a^{t+1} = a^t - \eta \frac{\partial L_n}{\partial a}$ $b^{t+1} = b^t - \eta \frac{\partial L_n}{\partial b}$

Basic Concepts

Supervised learning: learning with labels
Unsupervised learning: wio labels(聚类)
Reinforcement learning: learn to make optimal decision
Loss Funtion
Empirical Risk Minimization(ERM)即为training loss

Two-layer Neural Network

$f_\theta(x) = \sum_{j=1}^m a_j\sigma(\omega_jx+b_j)$

input_layer(not counted) hidden_layer output_layer
n refers to nums of Samples
m refers to nums of Neurals
为了增强模型的表达性，激活函数不能采用线性的，要使用非线性的
1989年证明一个隐藏层可以逼近任何一个函数。

General Deep Neural Network

$f_\theta(x) = w^{[L-1]}\sigma( \cdots w^{[1]}\sigma(w^{[0]}x+b^{[0]})+b^{[1]}\cdot)+b^[L-1]$

对于每一层节点：

$f_\theta^{[0]}(x) = x$ $f_\theta^{[1]}(x) = \sigma(w^{[0]}x+b^{[0]})$ $f_\theta^{[L]}(x) = \sigma(w^{[L-1]}f_\theta^{[L-1]}(x)+b^{[L-1]})$

对于最后一层的输出：

$f_\theta(x) = f^{[L]}(x) = w^{[L-1]}f^{[L-1]}(x)+b^{[L-1]}$

Training：SGD(Stochastic)
只使用一个batch数据进行训练

Error Analysis

Approxicimation Error
consider no cost

Frequency Principle

模型复杂度会把噪声也考虑了进去，导致过拟合。
DNN：从低频开始训练，可以不训练到高频成分。(从轮廓到细节)
多项式拟合：高频成分也会模拟到,就会导致过拟合
万有逼近：Single hidden layer can fit any function
卡通图片：警察问路人在干嘛？回答在找赢不。你是在这丢的吗？不，我是在两个街区外丢的。为啥在这找？因为这里路灯比较亮。
有人以此讽刺深度学习，灯亮的地方就是低维的问题。
但是也可以回答说是为了分析出道路的结构，硬币有可能滑到哪里。

应用到高维函数，图片自变量是二维像素点，因变量是该点的灰度值。
输入维度是所有的像素点，输出维度是类别数目。
No free Lunch Theorem对于药物，不能只谈毒性不谈剂量
对于泛化，不能只谈算法不谈数据

深度学习提供了一种通用的学习框架，可用来表示世界、视觉和语言学信息。
语言模型：说一句话的概率的大小。问题在于：1.数据过于稀疏 2。参数空间太大
n-gram=1 下一个词出现的概率只依赖于它前面的一个词P(w2|w1)
n-gram=2 下一个词出现的概率依赖于它前面的两个词P(w3|w1,w2)
word2vector:

Asswei's blog

XuZhiQin