Posts

Motion Feature Network: Fixed Motion Filter for Action Recognition

在商汤实习也有两个多月了,主要在做一些视频行为分析的工作。这段时间也看了不少的文章,但是由于一直没能把数据集的精度刷到足够高,所以也就一直懒得动笔写笔记。最近终于把两个主要的数据集精度提高了一些,有时间来写写最近看过的一些论文的笔记了。

深度网络中常用的normalization总结

今天看了些常用的normalization方法,顺便做个笔记记录一下。

MobileNet v1 & v2

MobileNet是Google推出的一种比较适合在移动设备上使用的小型化网络,具有较少的计算量和较低的带宽延迟。目前已经出到了第二版。本文会首先回顾一下v1的设计思想,然后与v2对比看看有什么升级的地方。

R-FCN

R-FCN主要的贡献在于保证精度基本不变的前提下,inference的速度有了两倍以上的提升。

YOLO v2

这篇文章主要想记录一下YOLO算法的工作流程,文章主要基于YOLO v2来写的。

在网易实习的点滴

实习时间:2018.6-2018.10

实习部门:网易易盾计算机视觉算法组

Faster RCNN

Faster RCNN是RCNN系列的第三篇,提出了Region Proposal Networks(RPN)替代传统的Selective Search算法,将检测的速度提升到了5fps.

Fast RCNN

Fast RCNN是RCNN系列的第二篇,一定程度解决了RCNN第一篇论文训练和检测速度慢的问题。

DeepBox

DeepBox主要基于edgebox和fast-rcnn这两篇文章,对region proposal阶段进行了优化。

SPPNet

传统的CNN网络由于全连接层的限制,要求输入的图片尺寸是固定的。因此使用时如果图片尺寸不同,就需要对图片先进行裁剪或者缩放,这往往会影响网络的性能。在本文中作者提出在最后的conv layer和fc layer之间加入spatial pyramid pooling layer来使网络可以接收任意大小的输入。