【汉字文本识别】：基于卷积神经网络和循环神经网络的深度学习方法：CRNN

前言之前参加深度学习比赛的时候，对计算机视觉有一些小小的积累。虽然不足道，但是还是记录一下，以便以后碰到这方面的岗位问题时，可以有一些展示的东西。之前参加了华为赞助的一个汉字识别大赛，要求通过神经网络，识别出图片中的汉字。其中每张图片的汉字数量不一。我这里先采用了 CRNN的方法，这篇博文记叙一下。代码本文的代码全部分享于 github。已经配备了简单的训练集和验证集作为示例，

B417科研笔记

3500人浏览 · 2020-06-07 00:43:59

B417科研笔记 · 2020-06-07 00:43:59 发布

前言

之前参加深度学习比赛的时候，对计算机视觉有一些小小的积累。虽然不足道，但是还是记录一下，以便以后碰到这方面的岗位问题时，可以有一些展示的东西。之前参加了华为赞助的一个汉字识别大赛， 要求通过神经网络，识别出图片中的汉字。其中每张图片的汉字数量不一。我这里先采用了 CRNN的方法，这篇博文记叙一下。

代码

本文的代码全部分享于 github。已经配备了简单的训练集和验证集作为示例，确保可以直接下载后使用。读者可以用自己的数据集替代，来实现一个自己的课堂demo。

背景

需要识别的图片大致如下：是竖着写的，果然是中国传统文化。目标就是用这些图片作为输入，输出识别的汉字结果。
在这里插入图片描述

CRNN介绍

CRNN，即 CNN + RNN 的缩写（注意不要和另一著名网络RCNN搞混）。该网络在https://arxiv.org/pdf/1507.05717.pdf 中提出，其核心思路在于：

图片中提取特征，那显然由CNN来完成这一操作。
既然是文字，往往前后有所联系，那从特征再输出文字这一节，认为每个字都和前后的字有关联，因此，使用RNN来实现特征到输出文字这一步。（个人觉得这个古文的话，比如上面的示例图片，上下文字没什么关系，其实RNN不太合适，但也没什么影响。本文重点还是介绍下CRNN的应用。）

网络模型

在这里插入图片描述
这是截取自文中的网络模型，描述一下步骤：

首先用经典的CNN 卷积神经网络，提取图片中的特征，得到图中的 feature maps。在我的github代码中，我使用了 四层卷积网络，具体参数见代码。输入的维度是 $640\times 64\times 3$ ，即尺寸为 640 * 64， RGB颜色。（这里我个人感觉其实可以不指定尺寸，这样就可以应用于各种不同尺寸的样本了）。经过四层CNN网络后，输出维度是 $160\times4\times512$ （经过了池化）。
通过全连接层（Dense层），把提取的512个channel的特征，整理成维度维 $32\times 64$ 的数据，等待输入到接下来的RNN网络中。（可以理解为 $64$ 个时刻的输入，每个时刻的输入维度是 32。）
用BiLSTM网络，即双向LSTM网络进行最后的处理。用双向LSTM的意思就是每一位置的信息输出，和之前位置及之后位置的信息输出相关。得到 $32\times 512$ 的输出数据。
最后，用全连接层，输出结果。

具体实现

由于我们采用的是汉字，因此，在制作标签的时候，我们要把汉字转为数字表示的标签。
思路很简单： 比如所有样本中，我们共有9000个不同的汉字。那么我们就以1~9000个整数，来一一对应这每个汉字。 而由于每张图的汉字数量不一，我们可以进行补零操作——首先，统计出样本中单张图片最大汉字数，比如30。那么每张图的标签的维度就是 $30\times1$ ，其中前 $K$ 维就对应于图片中 $K$ 个汉字的序号（1~9000），而后则用0填充。当输出再映射回汉字时，去掉0即可。

损失函数

使用了经典的CTC损失函数，这里有几篇讲的比较好的文章：
https://blog.csdn.net/huangyiping12345/article/details/102668605
语音识别：深入理解CTC Loss原理

简单来说，就是使用这个损失函数，可以解决 输出与标签之间的对齐问题。

九章云极普惠算力

更多推荐

使用Claude Code Action进行依赖管理：自动更新与安全检查的终极指南

在现代软件开发中，依赖管理是确保项目安全与稳定性的关键环节。Claude Code Action作为一款强大的GitHub Action工具，能够自动化处理依赖更新和安全检查，帮助开发者轻松维护健康的项目依赖生态。本文将详细介绍如何利用Claude Code Action实现依赖的自动更新与安全检查，让你的项目保持最新状态并远离安全漏洞。## 为什么依赖管理至关重要？依赖管理不仅仅是保持库

九章云极普惠算力

BigDL语言学研究：探索语言演化与方言识别的创新模型

在当今人工智能快速发展的时代，自然语言处理技术正深刻改变着我们与语言交互的方式。BigDL作为一款强大的深度学习框架，不仅在通用AI领域表现卓越，更在语言学研究领域开辟了新的可能性。本文将深入探讨BigDL如何助力语言演化分析与方言识别模型的构建，为语言研究提供高效、准确的技术支持。## 语言演化研究的技术挑战语言作为人类文明的重要载体，其演化过程复杂而微妙。传统的语言演化研究主要依赖于历

九章云极普惠算力

posting代码质量：终端工具的测试覆盖率与代码规范

在软件开发领域，高质量的代码是项目成功的关键。对于像posting这样的现代化终端HTTP客户端工具来说，保持代码质量尤为重要。本文将深入探讨posting项目如何通过完善的测试策略和代码规范，确保终端工具的稳定性和可靠性。## 测试覆盖率：保障终端工具稳定性的关键posting项目采用了全面的测试策略，以确保其在各种使用场景下的稳定性。项目使用pytest作为主要测试框架，结合pytes