OCR

✍ dations ◷ 2024-12-23 03:45:57 #OCR
光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。对于不同的图像格式,有着不同的存储格式、不同的压缩方式,当前有OpenCV、CxImage等。如今数码摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,较为不适用于OCR技术。对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的、更好地进行OCR相关计算,我们需要先对彩色图进行处理,使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。对于不同的图像,噪点的定义可能不同,根据噪点的特征进行去噪的过程,称为降噪。由于一般用户,在拍照文档时,难以拍摄得完全符合水平平齐与竖直平齐,因此拍照出来的图片不可避免的产生倾斜,这就需要图像处理软件进行校正。将文档图片分段落,分行的过程称为版面分析,由于实际文档的多样性、复杂性,此步骤当前仍待优化。由于拍照、书写条件的限制,经常造成字符粘连、断笔,直接使用此类图像进行OCR分析将会极大限制OCR性能。因此需要进行字符切割,即:将不同字符之间分割开。早期已模板匹配为主,后期以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响,极大地影响特征提取难度。人们希望识别后的文字,仍然像原始文档图片那样排列,段落、位置、顺序不变地输出到Word文档、PDF文档等,这一过程称为版面还原。根据特定的语言上下文的关系,对识别结果进行校正。将识别出的字符以某一格式的文本输出。OCR的概念是在1929年由德国科学家Tausheck最先提出来,并申请了专利。后来美国科学家Handel也提出了利用技术对文字进行识别的想法。中国最早的OCR商业应用是由科学家王庆人教授在南开大学开发出来的,并在美国市场投入商业使用。日本在20世纪60年代开始研究OCR识别理论,开发了邮政编码识别系统。

相关

  • 遗传病遗传性疾病是指以基因为主要致病原因的疾病。依据成因又可以细分成:其中因单一基因缺陷而引起的遗传疾病,又称为孟德尔型病症。临床上大多透过遗传基因检测来辅助诊断以及带因
  • 心血管循环系统(英语:circulatory system),也称为心血管系统(英语:cardiovascular system)或血管系统(英语:vascular system)是负责血液循环,在细胞间传送养分(如氨基酸及电解质)、氧气、二氧化
  • 达尔文-华莱士奖章达尔文-华莱士奖章(英语:Darwin–Wallace Medal)是一个由伦敦林奈学会设立的、旨在奖励在进化生物学领域里作出过重要贡献的科学家的奖项。奖章的正反两面分别印有达尔文和华莱
  • 拉雪兹神父公墓拉雪兹神父公墓(法语:Cimetière du Père-Lachaise,官方名称:cimetière de l'Est,意指“东公墓”)是法国巴黎市区内最大的墓地,位于巴黎第20区,面积超过43万平方米。它是巴黎第一
  • 超滤作用超滤(ultrafiltration (UF) )在膜过滤方法中,一种膜孔径尺寸大致在1.5纳米到0.2微米范围内的过滤,其过滤动力为液体的压力差,过滤机理是通过膜孔筛除作用进行分离。维基共享资源
  • 中华真地鳖中华真地鳖又名中华地鳖,俗称土鳖虫、蟅虫、过街、地乌龟、接骨虫,在中药中称为土元,有行瘀化血功效,尤其对接骨续筋,故名“接骨虫”。除中华真地鳖外,冀地鳖、金边地鳖等地鳖类亦
  • 过继过继,亦作过房、过嗣、立嗣(立继及命继),是传统宗族观念中的一种收养行为,主要目的出于“为宗”延续宗嗣,使祖先可继续不受中断地享有祭祀,故立男性继承人而为之。古人因考量祖先不
  • 纽塞拉纽塞拉(Nyuserre Ini)是古埃及第五王朝的法老,继承了兄长兰尼弗雷夫的王位。现代学者对他的在位年数意见不一,大约至少有30年。他在西奈半岛的Magharah有铜矿和绿松石矿。其位于
  • 稳恒态理论稳态理论(英语:Steady State Theory),又译为稳恒态理论、恒稳状态学说,是物理宇宙学中的一个宇宙模型假说。稳态理论假设,随着宇宙扩张,新的物质会不断产生,使宇宙符合完美宇宙学原
  • 约翰·哥特弗雷德·赫尔德约翰·戈特弗里德·赫尔德(德语:Johann Gottfried Herder,姓或译赫德;1744年8月25日-1803年12月18日),德国哲学家、路德派神学家、诗人。其作品《论语言的起源》(德语:Abhandlung üb