阮少辉的博客 | Slade Blog Slade Blog | 计算机视觉,深度学习 CV & DL 这里是阮少辉的个人博客,与你一起发现更大的世界。

Slade Blog

Stay hungry, Stay foolish.

论文笔记--Scene text recognition with sliding convolutional character models

Scene text recognition with sliding convolutional character models

简介 没有用现在流行的CNN-RNN的结构,而是采用了滑窗的做法,模拟人类的阅读习惯。 loss还是用的CTC loss,可以认为是用滑窗来部分代替了RNN。 相比CNN-RNN模型,要好训练很多。 加入了character model提升精度。 模型很小,识别速度非常快。模型仅0.41M 方法 整体网络结构如图1所示。一共由3部分组成,sliding win...

Spatial Transformer Networks 空间变换网络

最近准备读一下牛津VGG组的Spatial Transformer Networks这篇文章,arxiv地址, 记在这当个笔记~ 简介 CNN目前通过max pooling 这种方式,只能在一定程度上提供空间不变性,尤其是偏底层的特征层,空间不变性是比较差的。因为这篇paper提出了一个Spatial Transformer Networks(空间变化网络)来赋予CNN空间不变性,使得网...

论文阅读与实现--DDR

Deep direct regression for multi-oriented scene text detection

简介 论文地址:arxiv 这篇论文首创性的提出了一种直接回归的方法进行场景文本检测。相较于之前的方法,比如那些基于Faster RCNN的方法,一般来说都只能检测水平文本,比如说之前博客里介绍过的CTPN。当然也有不少算法进行了改进,用RRPN,RROI之类的技巧来实现倾斜文本的检测。但是这些方法的pipeline都很复杂,效果也一般。 为了解决倾斜场景文本的检测,作者提出了将现有检测方...

论文阅读与实现--CTPN

detecting text in natural image with connectionist text proposal network

简介 本文将对CTPN这篇文章的思路做一个详细的介绍,同时对代码进行解读。 论文地址:arxiv 作者github地址:github tensorflow版本地址:tensorflow 作者提供的版本使用的caffe,没有提供训练的代码,但是有一个online的demo 论文的关键idea 文本检测的其中一个难点就在于文本行的长度变化是非常剧烈的。因此如果是采用基于faste...

场景文本检测文章 scene text detection paper reading list

场景文本检测 Deep Direct Regression for Multi-Oriented Scene Text Detection TextBoxes: A Fast Text Detector with a Single Deep Neural Network Detecting Text in Natural Image with Connectionist Te...

Hello 2017

"Hello World, Hello Blog"

“Yeah It’s on. ” 前言 说了很久要弄一个个人博客,到今天终于有空弄了一下,模板是github上fork的黄玄大神,在此表示感谢。 正文 博客上主要打算记载一些读研期间碰到的技术问题,以及解放方法。既留做自己保存,也与众多的朋友们分享。如果有各位感兴趣的,不要犹豫请联系我。 后记 To be a better man —— Slade 于 2017.05