线性回归

网络流量分析

银行风险分析

基金股价预测

优化方法：梯度下降

                       初始点很重要

凸函数

凸函数wiki

一元连续可微函数在区间上是凸的，当且仅当函数位于所有它的切线的上方：对于区间内的所有x和y，都有f(y) ≥ f(x) + f '(x) (y − x)。特别地，如果f '(c) = 0，那么c是f(x)的最小值

一元可微函数在某个区间上是凸的，当且仅当它的导数在该区间上单调不减

一元二阶可微的函数在区间上是凸的，当且仅当它的二阶导数是非负的（二阶可微：二阶导数存在且连续）

凸函数的任何极小值也是最小值。严格凸函数最多有一个最小值

局限性

无法适应非线性数据

多目标学习

多目标学习，通过合并多个任务loss，一般能够产生比单个模型更好的效果

从线性到非线性

引入非线性激励（sigmod，relu等等）

非线性激励

选择标准：

对输入的调整，让输入数据经 过激励后有可比性**

反向梯度损失(在进行梯度下降时，不同layer学习的速度不同，导致梯度消失或者梯度爆炸)

tanh函数：数据映射到-1~1,缺点：x = 0 时，，没有了梯度输入

relu函数：正向截断负值，损失大量特征，反向梯度没有损失

Leaky relu ：保留更多参数，少量梯度反向传播

神经元-神经网络

神经网络介绍

有没有线性回归的网络？

没有

神经网络为什么不是最后线性的？

因为每一层有非线性激励

神经网路的配件

损失函数 Loss

合适的损失函数能够使得深度学习模型收敛

Softmax??????

分类问题的预测结果更明显，收敛比较快

Corss entropy(交叉熵)??????

图中的0.05是为了防止函数爆炸

用途

目标为[0,1]区间的回归问题，以及生成图片等

loss函数的优化与设计

例如针对不同loss设计不同的weight，帮助某几项loss有更好的识别能力

比赛的话大多夺冠的是使用各种RestNet，vgg，Google net等结合在一起，然后调整参数

比较狠的方法：刷库，很多个神经网络结合在一起，效果会很好，（比较吃机器）

学习率

1:固定的

2：不同的阶段，学习率不同

3：自适应的learning rate

动量

调整动量和直接调大学习率的区别

方向不同，找的更准确

过拟合

应对（目标是是参数更均衡）-正则化

Dropout

参数过多，将其中一些参数置为0，随机置为0，某种程度上和Reguliazation效果很像

与Pooling的区别

Pooling的本质是降维，Dropout的本质是Regularization

Fine-tuning

找一个训练好的数据，model，只针对特定的一些layer进行update会有很好的效果

如果只是自己准备数据，然后开始从头训练会有很多问题

fcn(完全摒弃传统神经网络，全部使用卷积)

神经网络