Posted onEdited onViews: Symbols count in article: 954Reading time ≈1 mins.
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
链表 1.malloc函数 stdlib.h free(p) int p =(int)malloc(sizeof(int)); node p =(node)malloc(sizeof(node)); 2.new delete(p) int p =new int; node p =new node; 静态链表
Reinforcement learning: learn to make optimal decision
Loss Funtion
Empirical Risk Minimization(ERM)即为training loss
Two-layer Neural Network
input_layer(not counted) hidden_layer output_layer n refers to nums of Samples m refers to nums of Neurals 为了增强模型的表达性,激活函数不能采用线性的,要使用非线性的 1989年证明一个隐藏层可以逼近任何一个函数。
General Deep Neural Network
对于每一层节点:
对于最后一层的输出:
Training:SGD(Stochastic) 只使用一个batch数据进行训练
Error Analysis
Approxicimation Error consider no cost
Frequency Principle
模型复杂度会把噪声也考虑了进去,导致过拟合。 DNN:从低频开始训练,可以不训练到高频成分。(从轮廓到细节) 多项式拟合:高频成分也会模拟到,就会导致过拟合 万有逼近:Single hidden layer can fit any function 卡通图片:警察问路人在干嘛?回答在找赢不。你是在这丢的吗?不,我是在两个街区外丢的。为啥在这找?因为这里路灯比较亮。 有人以此讽刺深度学习,灯亮的地方就是低维的问题。 但是也可以回答说是为了分析出道路的结构,硬币有可能滑到哪里。
应用到高维函数,图片自变量是二维像素点,因变量是该点的灰度值。 输入维度是所有的像素点,输出维度是类别数目。 No free Lunch Theorem对于药物,不能只谈毒性不谈剂量 对于泛化,不能只谈算法不谈数据