OCR

✍ dations ◷ 2025-02-23 16:48:22 #OCR
光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。对于不同的图像格式,有着不同的存储格式、不同的压缩方式,当前有OpenCV、CxImage等。如今数码摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,较为不适用于OCR技术。对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的、更好地进行OCR相关计算,我们需要先对彩色图进行处理,使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。对于不同的图像,噪点的定义可能不同,根据噪点的特征进行去噪的过程,称为降噪。由于一般用户,在拍照文档时,难以拍摄得完全符合水平平齐与竖直平齐,因此拍照出来的图片不可避免的产生倾斜,这就需要图像处理软件进行校正。将文档图片分段落,分行的过程称为版面分析,由于实际文档的多样性、复杂性,此步骤当前仍待优化。由于拍照、书写条件的限制,经常造成字符粘连、断笔,直接使用此类图像进行OCR分析将会极大限制OCR性能。因此需要进行字符切割,即:将不同字符之间分割开。早期已模板匹配为主,后期以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响,极大地影响特征提取难度。人们希望识别后的文字,仍然像原始文档图片那样排列,段落、位置、顺序不变地输出到Word文档、PDF文档等,这一过程称为版面还原。根据特定的语言上下文的关系,对识别结果进行校正。将识别出的字符以某一格式的文本输出。OCR的概念是在1929年由德国科学家Tausheck最先提出来,并申请了专利。后来美国科学家Handel也提出了利用技术对文字进行识别的想法。中国最早的OCR商业应用是由科学家王庆人教授在南开大学开发出来的,并在美国市场投入商业使用。日本在20世纪60年代开始研究OCR识别理论,开发了邮政编码识别系统。

相关

  • 系统生物系统(Biological system),又称身体系统(Body system)、器官系统(Organ system),是生物的其中一个组成部分,是由许多不同的器官共同组合而成,执行某种特定的生理作用。人体的系统是
  • 神经康复神经可塑性(英语:Neuro-plasticity)是指重复性的经验可以改变大脑的结构,由Richard J. Davidson 在 1992 年提出。神经可塑性是近期的发现,过去的科学家往往认为在婴儿关键期后,大
  • 脂肪酸合酶1XKT, 2CG5, 2JFD, 2JFK, 2PX6, 3HHD, 3TJM· fatty acid synthase activity · · · 3-oxoacyl- · 3-oxoacyl- · 3-hydroxypalmitoyl- · enoyl- · oleoyl-
  • 吡咯赖胺酸吡咯赖氨酸(Pyrrolysine;简称:Pyl 或 O)是一种自然存在而少见的编码氨基酸,其编码为UAG(琥珀),该密码子通常为终止密码子。这是人们到目前为止发现的第22种,也是最后一种编码氨基酸(第
  • 华纳兄弟电视网WB电视网(英语:The WB Television Network)是美国的一家电视台。于1995年1月11日开始播出。由华纳兄弟公司经营。2006年1月24日,CBS集团与华纳兄弟公司宣布将在秋季开播新的电视
  • 惠更斯克里斯蒂安·惠更斯(荷兰语:Christiaan Huygens,1629年4月14日-1695年7月8日),荷兰物理学家、天文学家和数学家,土卫六的发现者。他还发现了猎户座大星云和土星光环。惠更斯于1629
  • 旁氏表旁氏表(Punnett square),又称棋盘法,是用于预测特定杂交或育种实验结果的一种图表。这种图表以发明者Reginald C. Punnett的姓名来命名,并被生物学家用于确定后代中拥有特定基因
  • Cosub3/subOsub4/subCoO·Co2O3四氧化三钴是一种黑色固体,分子式为Co3O4。它是一种混合价态化合物,同时含有二价钴和三价钴,分子式也可以记为CoIICoIII2O4或CoO·Co2O3。Co3O4晶体结构为尖晶石构型
  • 管晓宏管晓宏(1955年11月3日-),中国科学院院士,网络化系统特别是能源电力系统优化与安全理论与应用方面的研究学者。1955年出生于四川泸州,毕业于清华大学,后留学美国康乃狄克大学。他目
  • 白雪公主与七个小矮人《白雪公主与七个小矮人》(英语:Snow White and the Seven Dwarfs)发行于1937年,是迪士尼首部经典动画长片,也是美国电影史上第一部彩色动画长片,改编自欧洲《格林童话》故事版本