本周以mnist数据为样本,从实现普通DNN,简单CNN(2个卷积层,两个池化层,2个全连接层),到实现AlexNet。3种不同网络的accuracy在每个py文件里最后有注释出来。
遇到的问题:
- 在搭一个神经网络的时候,为什么第一个中间层的激活函数一般用tanh?最后一层是softmax?每一层都应该用什么激活函数?本来用softmax但发现梯度下降没有改变accuracy
- 什么时候用dropput?是否每个全连接层都是尽量用?概率多大比较合适?
- 不知道alexnet是怎么改进出来的,是一点一点试出来的吗?
- 电脑没有gpu,不知道怎么拆成2个/多个GPU上运行
- Alexnet每次迭代都没有改变精度,不知道是optimizer的问题还是其他问题,暂时没找到