0%

XuZhiQin

Introduction

Statics: Model-based
ML: Model-freed

Statics View

最小二乘因子

  1. 高斯-马尔科夫定理
    $X \in R^{n \times d}$, $Y \in R^{n \times 1}$

何时用统计

  1. 预测X与Y的一种关系
  2. 具体知道参数满足的不同的分布规律。

ML Views

当数据量很大时,不能通过这个方法来计算得到$\hat{\beta}$:

不需要模型,只有一个目标去学习参数。

利用梯度下降。
$h_i=ax_i+b$

Gradient Desent

Basic Concepts

  1. Supervised learning: learning with labels
  2. Unsupervised learning: wio labels(聚类)
  3. Reinforcement learning: learn to make optimal decision

    Loss Funtion

    Empirical Risk Minimization(ERM)即为training loss

Two-layer Neural Network

input_layer(not counted) hidden_layer output_layer
n refers to nums of Samples
m refers to nums of Neurals
为了增强模型的表达性,激活函数不能采用线性的,要使用非线性的
1989年证明一个隐藏层可以逼近任何一个函数。

General Deep Neural Network

对于每一层节点:

对于最后一层的输出:

Training:SGD(Stochastic)
只使用一个batch数据进行训练

Error Analysis

  1. Approxicimation Error
    consider no cost

Frequency Principle

模型复杂度会把噪声也考虑了进去,导致过拟合。
DNN:从低频开始训练,可以不训练到高频成分。(从轮廓到细节)
多项式拟合:高频成分也会模拟到,就会导致过拟合
万有逼近:Single hidden layer can fit any function
卡通图片:警察问路人在干嘛?回答在找赢不。你是在这丢的吗?不,我是在两个街区外丢的。为啥在这找?因为这里路灯比较亮。
有人以此讽刺深度学习,灯亮的地方就是低维的问题。
但是也可以回答说是为了分析出道路的结构,硬币有可能滑到哪里。

应用到高维函数,图片自变量是二维像素点,因变量是该点的灰度值。
输入维度是所有的像素点,输出维度是类别数目。
No free Lunch Theorem对于药物,不能只谈毒性不谈剂量
对于泛化,不能只谈算法不谈数据

深度学习提供了一种通用的学习框架,可用来表示世界、视觉和语言学信息。
语言模型:说一句话的概率的大小。问题在于:1.数据过于稀疏 2。参数空间太大
n-gram=1 下一个词出现的概率只依赖于它前面的一个词P(w2|w1)
n-gram=2 下一个词出现的概率依赖于它前面的两个词P(w3|w1,w2)
word2vector: