使用深度学习的离线手写文本识别：综述（翻译）

使用深度学习的离线手写文本识别：综述（翻译）摘要1. 简介2. 离线手写文本识别框架3. 使用深度学习的离线手写文本识别4. 离线手写文本数据集5. 总结致谢参考文献来源：Wang Y, Xiao W, Li S. Offline Handwritten Text Recognition Using Deep Learning: A Review[C]//Journal of Physics: C

Limulの小白笔记

1378人浏览 · 2023-04-13 22:46:55

Limulの小白笔记 · 2023-04-13 22:46:55 发布

使用深度学习的离线手写文本识别：综述（翻译）

摘要
1. 简介
2. 离线手写文本识别框架
3. 使用深度学习的离线手写文本识别
4. 离线手写文本数据集
5. 总结
致谢
参考文献

来源：Wang Y, Xiao W, Li S. Offline Handwritten Text Recognition Using Deep Learning: A Review[C]//Journal of Physics: Conference Series. IOP Publishing, 2021, 1848(1): 012015.

地址：https://iopscience.iop.org/article/10.1088/1742-6596/1848/1/012015/meta

作者：Yintong Wang，Wenjie Xiao，Shuo Li

摘要

离线手写文本识别（OHTR）领域在过去的几十年里得到了广泛的研究，但它仍然是一个重要的研究问题。OHTR系统的目标是将文档图像转换为文本数据。与在线手写识别相比，OHTR中没有关于书写轨迹的动态信息。文献中提出了许多先进的方法，最值得注意的是深度学习方法在OHTR中的应用。在本文中，我们介绍了过去几十年如何处理这个问题，分析了该领域的最新进展和未来研究的潜在方向。

1. 简介

离线手写文本识别被认为是最早被研究处理的计算机视觉问题之一[1-3]。在它作为一个研究领域诞生后的半个多世纪里，研究人员从未停止过对其的研究。其原因一般可归结为以下两个方面。首先，OHTR的应用需求正在快速增长[4, 5]，包括手稿识别、银行表格识别和历史文件处理。其次，OHTR 本身长期存在的复杂性[6, 7]，包括写作风格的可变性、大量的字符类型和文本的复杂结构。

本文回顾了现有的使用深度学习的离线手写文本识别方法，希望为该问题的进一步发展提供一些参考。我们专注于基于深度神经网络学习的方法，因为它们在过去几十年中一直是最先进的。尤其是这些基于循环神经网络（RNNs）和卷积神经网络（CNNs）的方法已经主导了所有的 OHTR 问题，并成为该问题的事实标准[8]。

本文的其余部分安排如下。第 2 节回顾了离线手写文本识别的框架。在第 3 节中，我们总结了这些离线手写文本识别的方法。在第 4 节中，我们介绍了离线手写文本识别的常用实验数据集。最后，我们在第 5 节中得出结论和未来的工作。

2. 离线手写文本识别框架

通常，OHTR 可以定义为识别系统将文本图像数据转换为其等效的字符表示，然后以 ASCII文本的形式进行处理和存储的过程。通常，OHTR系统由三个主要部分组成：预处理、特征提取和分类[6, 9]。图1给出了离线手写文本识别的流程图。在预处理阶段，我们可以改进和增强离线手写文本图像的质量，以供下一步适当的分析[10]。需要强调的是，它可以分解为许多更小的任务，例如段落检测、文本行分割、单词/字符分割、图像归一化等。

在特征提取阶段，我们从文本图像中提取具有代表性的特征，以确保这些特征可以用来获得分类系统的良好性能。根据代表性特征是否与无需重新训练的分类任务相关，它分为手工提取的基于特征的方法[1]和自动学习的基于特征的方法[11]。前者有限性高，因为它们需要关于特征位置信息和相关性信息的先验知识。显然，这些方法容易受到手写风格变化、背景颜色等文本图像不均匀问题的影响。CNNs和RNNs作为后者的两种代表技术，这些技术充分利用深度神经网络学习架构自动获取代表性特征，解决平移、缩放和失真问题，使其成为最强大的系统之一。然而，基于自动学习特征的方法通常存在一个缺点，就是在训练阶段需要更多的计算资源来获取代表性特征。

在分类阶段，将代表性特征输入到经过训练的分类器中，该分类器可以预测字符/词类。文本图像的识别方法有很多，一般分为无分割方法[12]和基于分割的方法[13]。作为传统方法的基于分割的方法在使用经过训练的分类器识别单个字符的类别之前将文本行图像显式分割成许多单个字符。值得注意的是，这些方法的性能与单词/字符分割的性能高度相关，任何分割错误都会累积起来，直接影响分类器的识别准确率。相比之下，无分割方法（将单词/行/多行图像作为输入数据）允许在不执行显式分割的情况下识别文档图像。似乎这些方法是最常用的，尤其是当行/字符之间的分隔难以确定时，例如复杂的背景、接触的文本行、重叠的字符。这些方法常用的方法是CNNs和RNNs结合隐马尔可夫模型（HMM）或连接时间分类（CTC）。随着文本识别研究的不断深入，它们被认为在使用上下文信息方面表现更好，这些信息包括基于连接字符或单词的过去和未来上下文在每个时间步计算的输出。

图1 离线手写文字识别流程图

3. 使用深度学习的离线手写文本识别

众所周知，目前大多数最先进的成果都使用CNN、RNN或其混合架构来执行文本识别任务。本节从字符识别、字/行识别和多行识别来介绍OHTR中现有的这些方法。

3.1. 字符识别方法
深度神经网络学习的成就使研究人员能够在OHTR领域成功使用CNN，然后该方法大大优于改进的二次判别函数（MDQF）方法[1]。多列深度神经网络[14, 15]是第一个成功将CNN应用于OHTR的报告方法。吴等人[16]为OHTR提出了一种交替训练的松弛卷积神经网络。钟等人[9, 11]随后使用浅版本的GoogLeNet将传统的Gabor特征与离线手写字符集成为输入数据。李等人[17]介绍了一种封闭的离线手写字符识别方法，使用改进的GoogLeNet和深度卷积生成对抗网络进行识别。王等人[18]提出了具有密集连接架构的部首分析网络，以利用离线手写汉字二维结构及其部首。与上述大多数基于CNN的方法不同，王等人[19]引入了一种编码器-解码器架构，即部首聚合网络，以利用离线手写汉字的部首级构成。虽然上述字符识别方法的准确率接近人类理解水平，但他们在HWDB1.0和HWDB1.1数据集上报告了96.74%的准确率，深度神经网络方法必须面临高计算成本和大量数据的参数。

为解决上述问题，周等人[20]提出了一个新的框架，它应用了一个Kronecker全连接层来替换四个初始组之后的层。张等人[4]引入了一个投票模块来结合CNN和传统的归一化合作方向分解的特征图。肖等人[21]提出了全局监督低秩扩展来加速网络卷积层中的计算。实验结果表明，它有效地降低了神经网络的计算成本，压缩了网络规模，而分类精度仅略有下降。李等人[13]引入加权平均池来平衡网络参数的数量和分类精度，并通过增加额外的中间输出层在单个CNN中设计了级联模型，显着减少了平均推理时间。

随着手写识别需求的变化，单字识别准确率和速度的提升和优化已经不能满足实际应用需求。它们面临着许多新的挑战，例如由错误分割导致的错误累积、不可分割的字符和文本行以及复杂的上下文信息等。因此，我们需要在现有单字符识别的基础上进一步探索新的方法，以满足离线手写文本识别的实际需求。

3.2. 词/行识别方法
离线手写文档的识别通常通过使用顺序模式识别技术来实现。通过利用其内部状态序列作为记忆单元的学习模型沿时间序列处理文本行，以便能够处理可变长度的输入信号。第一个手写词/行识别方法是基于HMM[12]，一种基于加窗伯努利混合HMM的新型手写字符序列识别方法。比安等人[22]使用HMM、决策树和一组专家知识构建了一个手写文本行识别器。博鲁彻等人[23]介绍了一种基于HMM和CNN的手写文字识别方法。

随着神经网络学习的兴起，用于处理字符序列数据的RNNs[24]开始变得越来越流行。在这些方法中，BLSTM[25]或MDLSTM[26]是两个最常用的模型。通过比较基于1D-LSTM和2D-LSTM层的两种方法，普塞弗[27]证明，离线手写字符序列识别可能不需要多维循环层来获得良好的分类精度。哈桑和阿卜杜勒卡里姆[28]构建了一个结合深度CNN和RNN的文本识别架构。乔杜里等人[29]介绍了一种新颖的方法，该方法将CNN与循环编码器-解码器网络相结合，将图像映射到与文本行图像对应的字符序列。昆杜等人[30]对生成器使用改进的RNN架构，对具有不同损失函数组合的判别器使用补丁GAN架构。尽管所有这些方法都使用循环架构来适当地隐藏和学习串行信息，但它们可能会在训练阶段缺乏并行化，并且需要大量标记的训练数据。

目前，大多数离线手写字/行识别方法都结合了递归神经网络和连接主义时间分类层[31]。卡内尔等人[7]引入了一种端到端的OHTR模型，该模型集成了单阶段目标检测神经网络和用于识别文档数据和命名实体的分支，因此它可以在学习共享特征的同时获得每个任务的训练误差。普塞弗[27]提出了一种复合架构，将CNN与深度一维RNN-CTC模型相结合。刘等人[32]为具有挑战性的离线手写中文文本识别任务提出了一种新的高效且有效的OHTR算法，该算法具有纯CNN网络。与其他方法一样，基于CTC的方法必须正视其局限性，例如高复杂度和缓慢的训练速度，才能在离线手写字/行识别过程中获得合理的性能[3]。

3.3. 多行识别方法
对于OHTR问题，分割和识别的耦合性是最重要的挑战之一。文本行/词的分割仍然是一个容易出错的过程，这将极大地影响文本识别系统的性能[5,33,34]。幸运的是，这个问题已经被无分割的OHTR模块逐步解决，这也证明了标记数据的成本要低得多，而且分类精度更高。

对于OHTR的多行识别，很多方法训练单个文本段落检测、文本行分割、文本行识别，然后将上述步骤组合成一个文本识别系统。莫伊斯特等人[35]介绍了一种多行识别方法，它集成了基于全卷积神经网络的文本行定位网络和基于MDLSTM的文本识别。博鲁彻等人 [36, 37] 提出了对MDLSTM的修改，它可以识别完整的段落或多行文档，而无需显式分割。该方法通过折叠卷积神经网络层将二维多行表示转换为单个预测序列，可以一次识别一行文本。威金顿等人[6]介绍了一种结合区域提议网络的多行手写文本识别方法，以获取每个文本行的起始位置，通过行跟随网络对文本行进行归一化，并使用CNN-LSTM网络完成文本识别。显然，该方法是通过将相关的单个网络分开，然后将它们联合训练在一起来实现多行文本识别。上述方法虽然在一定程度上实现了多行识别，但仍面临一些问题。他们需要在多行版本训练之前在单行文档上预训练他们的编码器子网络，并且与当前大多数基于文本行分割的文本识别方法相比非常慢。

针对上述问题，坦斯迈耶和威金顿[38]提出了一种无需文本行分割的弱监督方式的自适应文本识别方法，它解决了预测文本行转录与其基本事实之间的文本对齐问题。彭等人[2]提出了一种使用全卷积网络的端到端离线手写中文文本识别，可以同时获取文本行分割和文本识别结果。优素福等人[8, 39]提出了一种基于现有神经网络识别模型的多线识别方法，它提供了足够的空间容量，可以在不丢失基本特征信息的情况下将2D提取特征折叠成1D，并完全使用其原始程序进行训练。

4. 离线手写文本数据集

本节重点介绍六种常见的OHTR数据集，它们汇总信息如表1所示，详细信息如下：
（1） IAM数据集[40]，从LOB语料库中提取的英文文档，由多个不同作者共同制作。该数据库包括1199个文档图像，其中459308个字符分布在10373个文本行中，以及79种不同的符号。
（2）Bentham数据集[41]，作为注释手写历史文件，在tranScriptorium项目期间构建。该数据库包括433幅历史文献图像，其中524065个字符分布在11473个文本行中，93种不同的符号。
（3） BH2M数据集[42]，作为巴塞罗那历史上的手写婚姻文件，由一位作者撰写。该数据集包含174个手写文档。该数据库由XML层次结构中的注释图像组成。
（4） HIT-MW数据集[43]，作为中国离线手写文档的第一个集合，由哈尔滨工业大学人工智能实验室收集。数据集包括853个由780多位作者撰写的手写文档，其中8664行文本，186444个字符。
（5） HWDB1.0-1.1，作为CASIA-HWDB数据集[44]的一部分，由中国科学院自动化研究所建设。该数据集由720位作者编写，包含2853165个字符，4052个类别，其中，3881种汉字和171种字母数字和符号。
（6） HWDB 2.0-2.2，作为CASIA-HWDB数据集[44]的一部分，由中国科学院自动化研究所建设。该数据集包含5091页，其中1349414个字符分布在52230个文本行中，以及2703 种不同的符号。

表1 OHTR通用数据集的信息

数据库	页数	行数	词数	字符数	种类数	语言
IAM	1199	10373	89896	459308	79	英文
Bentham	433	11473	96155	524065	93	英文
BH2M	174	5498	56645	—	3360	巴塞罗那文
HIT-MW	853	8664	—	186444	3041	中文
HWDB1.0-1.1	—	—	—	2853165	4052	中文
HWDB2.0-2.2	5091	52230	—	1349414	2703	中文

5. 总结

在过去十年中，许多研究人员提出了多种使用深度学习进行离线手写文本识别的方法。尽管无拘无束的手写文本识别仍然是一个具有挑战性的识别问题，但分类准确率在过去十年中显着提高，这主要归功于深度学习技术的进步，包括新思想、算法和模型结构。分析最近对离线手写文本识别领域的贡献，我们大致可以将他们的研究重点总结为以下两个方面：（1）弱监督手写文本识别。深度学习的根本目的是在较少的领域知识或专家经验的基础上，获得同等或更好的学习效果。这是大多数从事OHTR的研究人员所追求的目标。（2）更快、更紧凑的手写文本识别模块。深度学习网络直观的来说需要存储大量参数，需要更长的训练时间，然后会产生高计算成本。从作者的角度来看，这种趋势将在未来的工作中继续下去，研究人员将探索更好的手写文本特征提取和识别方法，并在离线手写文本标记信息有限的情况下改进分类方法。

致谢

该工作得到江苏省自然科学基金（BK20180142）、江苏省政府留学奖学金（JS-2019-104）的资助。

参考文献

[1] Kimura, F., Takashina, K., Tsuruoka, S., Miyake, Y. (1987) Modified quadratic discriminant functions and the application to Chinese character recognition. IEEE transactions on pattern analysis and machine intelligence, 9(1): 149-153.
[2] Peng, D., Jin, L., Wu, Y., Wang, Z., Cai, M. (2019) A Fast and Accurate Fully Convolutional Network for End-to-End Handwritten Chinese Text Segmentation and Recognition. International Conference on Document Analysis and Recognition, pp. 25-30.
[3] Kang, L., Riba, P., Villegas, M., Fornés, A., Rusiñol, M. (2020) Candidate fusion: Integrating language modelling into a sequence-to-sequence handwritten word recognition architecture. Pattern Recognition, 112: 107790-1-12.
[4] Zhang, X., Bengio, Y., Liu, C. (2017) Online and offline handwritten Chinese character recognition: A comprehensive study and new benchmark. Pattern Recognition, 61: 348-360.
[5] Moysset, B., Kermorvant, C., Wolf, C. (2018) Learning to detect, localize and recognize many text objects in document images from few examples. International Journal on Document Analysis and Recognition, 21(3): 161-175.
[6] Wigington, C., Tensmeyer, C., Davis, B., Barrett, W., Price, B., Cohen, S. (2017) Start, Follow, Read: End-to-End Full-Page Handwriting Recognition. Proceedings of the European Conference on Computer Vision, pp. 367-383.
[7] Carbonell, M., Fornés, A., Villegas, M., Lladós, J. (2020) A Neural Model for Text Localization, Transcription and Named Entity Recognition in Full Pages. Pattern Recognition Letters, 136: 219-227.
[8] Yousef M., Bishop, T. E. (2020) OrigamiNet: Weakly-Supervised, Segmentation-Free, OneStep, Full Page Text Recognition by learning to unfold. Conference on Computer Vision and Pattern Recognition, pp. 14710-14719.
[9] Zhong, Z., Jin, L., Xie, Z. (2015) High performance offline handwritten chinese character recognition using googlenet and directional feature maps. International Conference on Document Analysis and Recognition, pp. 846-850.
[10] Wang Y., Xiao, W. (2019) Handwritten Text Line Segmentation Method by Writing Pheromone Diffusion and Convergence. Cognitive Cities Conference, pp. 105-113: Springer.
[11] Min, F., Zhu, S., Wang, Y. (2020) Offline Handwritten Chinese Character Recognition Based on Improved Googlenet. International Conference on Artificial Intelligence and Pattern Recognition, pp. 42-46.
[12] Giménez, A., Khoury, I., Andrés-Ferrer, J., Juan, A. (2014) Handwriting word recognition using windowed Bernoulli HMMs. Pattern Recognition Letters, 35: 149-156.
[13] Li, Z., Teng, N., Jin, M., Lu, H. (2018) Building efficient CNN architecture for offline handwritten Chinese character recognition. International Journal on Document Analysis and Recognition, 21(4):233-240.
[14] Cireşan, D., Meier, U., Schmidhuber, J. (2012) Multi-column deep neural networks for image classification. Conference on computer vision and pattern recognition, pp. 3642-3649.
[15] Cireşan, D., Meier, U. (2015) Multi-Column Deep Neural Networks for Offline Handwritten Chinese Character Classification. Joint Conference on Neural Networks, pp. 1-6.
[16] Wu, C., Fan, W., He, Y., Sun, J., Naoi, S. (2014) Handwritten character recognition by alternately trained relaxation convolutional neural network. International Conference on Frontiers in Handwriting Recognition, pp. 291-296.
[17] Li, J., Song, G., Zhang, M. (2020) Occluded offline handwritten Chinese character recognition using deep convolutional generative adversarial network and improved GoogLeNet. Neural Computing and Applications, 32(9): 4805-4819.
[18] Wang, W., Zhang, J., Du, J., Wang, Z., Zhu, Y. (2018) DenseRAN for Offline Handwritten Chinese Character Recognition. International Conference on Frontiers in Handwriting Recognition, pp. 104-109.
[19] Wang, T., Xie, Z., Li, Z., Jin, L., Chen, X. (2019) Radical aggregation network for few-shot offline handwritten Chinese character recognition. Pattern Recognition Letters, 125: 821-827.
[20] Zhou, S., Wu, J., Wu, Y., Zhou, X. (2015) Exploiting local structures with the kronecker layer in convolutional networks. arXiv preprint arXiv:1512.09194, pp.1-17.
[21] Xiao, X., Jin, L., Yang, Y., Yang, W., Sun, J., Chang, T. (2017) Building fast and compact convolutional neural networks for offline handwritten Chinese character recognition. Pattern Recognition, 72: 72-81.
[22] Bianne, A., Menasri, F., Mohamad, R., Mokbel, C., Kermorvant, C., Likforman, L. (2011) Dynamic and contextual information in HMM modeling for handwritten word recognition. IEEE transactions on pattern analysis and machine intelligence, 33(10): 2066-2080.
[23] Bluche, T., Ney, H., Kermorvant, C. (2013) Tandem HMM with convolutional neural network for handwritten word recognition. IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 2390-2394.
[24] Lipton, Z., Berkowitz, J., Elkan, C. (2015) A critical review of recurrent neural networks for sequence learning. arXiv preprint arXiv:1506.00019, pp. 1-38.
[25] Graves, A., Liwicki, M., Fernández, S., Bertolami, R., Bunke, H., Schmidhuber, J. (2008) A novel connectionist system for unconstrained handwriting recognition. IEEE transactions on pattern analysis and machine intelligence, 31(5): 855-868.
[26] Graves A., Schmidhuber, J. (2009) Offline handwriting recognition with multidimensional recurrent neural networks. Advances in neural information processing systems, pp. 545-552.
[27] Puigcerver, J. (2017) Are multidimensional recurrent layers really necessary for handwritten text recognition?. Conference on Document Analysis and Recognition, pp. 67-72.
[28] Bahi, H., Zatni, A. (2019) Text recognition in document images obtained by a smartphone based on deep convolutional and recurrent neural network. Multimedia tools and applications, 78(18): 26453-26481.
[29] Chowdhury, A., Vig, L. (2018) An efficient end-to-end neural model for handwritten text recognition. arXiv preprint arXiv:1807.07965, pp. 1-11.
[30] Kundu, S., Paul, S., Bera, S., Abraham, A., Sarkar, R. (2020) Text-line extraction from handwritten document images using GAN. Expert Systems with Applications, 140: 112916.
[31] Graves, A., Fernández, S., Gomez, F., Schmidhuber, J. (2006) Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. Proceedings of International Conference on Machine Learning, pp. 369-376.
[32] Liu, B., Xu, X., Zhang, Y. (2020) Offline Handwritten Chinese Text Recognition with Convolutional Neural Networks. arXiv preprint arXiv:15619, pp. 1-6.
[33] Carbonell, M., Mas, J., M., Villegas, Fornés, A., Lladós, J. (2019) End-to-end handwritten text detection and transcription in full pages. International Conference on Document Analysis and Recognition Workshops, 5: 29-34.
[34] Chung, J., Delteil, T. (2019) A Computationally Efficient Pipeline Approach to Full Page Offline Handwritten Text Recognition. International Conference on Document Analysis and Recognition Workshops, pp. 35-40.
[35] Moysset, B., Kermorvant, C., Wolf C. (2017) Full-page text recognition: Learning where to start and when to stop. Conference on Document Analysis and Recognition, pp. 871-876.
[36] Bluche, T., Louradour, J., Messina, R. (2017) Scan, attend and read: End-to-end handwritten paragraph recognition with mdlstm attention. International Conference on Document Analysis and Recognition, pp. 1050-1055.
[37] Bluche, T. (2019) Joint line segmentation and transcription for end-to-end handwritten paragraph recognition. Advances in Neural Information Processing Systems, pp. 838-846.
[38] Tensmeyer, C., Wigington, C. (2019) Training Full-Page Handwritten Text Recognition Models without Annotated Line Breaks. International Conference on Document Analysis and Recognition, pp. 1-8.
[39] Yousef, M., Hussain, K., Mohammed, U. (2020) Accurate, data-efficient, unconstrained text recognition with convolutional neural networks. Pattern Recognition, 108: 107482.
[40] Marti, U., Bunke, H. (2002) The IAM-database: an English sentence database for offline handwriting recognition. Journal on Document Analysis and Recognition, 5(1): 39-46.
[41] Sánchez, J. (2013) TranScriptorium: a european project on handwritten text recognition. ACM symposium on Document engineering, pp. 227-228.
[42] Fernández, D., Almazán, J., Cirera, N., Fornés, A., Lladós, J. (2014) Bh2m: The barcelona historical, handwritten marriages database. Conference on Pattern Recognition, pp. 256-261.
[43] Su, T., Zhang, T., Guan, D. (2007) Corpus-based HIT-MW database for offline recognition of general-purpose Chinese handwritten text. International Journal of Document Analysis and Recognition, 10(27): 0037-1-6.
[44] Liu, C., Yin, F., Wang, D., Wang, Q. (2011) CASIA online and offline Chinese handwriting databases. International Conference on Document Analysis and Recognition, pp. 37-41.

九章云极普惠算力

更多推荐

Qwen3-VL 目标检测 | 生成训练标签 | LabelMe格式 | COCO格式

九章云极普惠算力

毕设开源基于深度学习的人脸识别【全网最详细】

本文介绍了一个基于深度学习的人脸识别毕业设计项目。首先概述了人脸识别的常用实现技术，包括基于几何特征的方法、初级神经网络方法和深度学习方法，并分析了各自优缺点。接着重点探讨了人脸识别算法的三大缺陷：光照影响、姿态变化和数据规模问题。随后详细阐述了人脸识别的完整流程，包括数据集准备、对齐处理、仿射变换、目标检测、特征提取（介绍了DeepFace、FaceNet等模型）和特征分类（欧氏距离、余弦距离等