OCR

✍ dations ◷ 2025-10-20 10:46:31 #OCR
光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。对于不同的图像格式,有着不同的存储格式、不同的压缩方式,当前有OpenCV、CxImage等。如今数码摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,较为不适用于OCR技术。对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的、更好地进行OCR相关计算,我们需要先对彩色图进行处理,使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。对于不同的图像,噪点的定义可能不同,根据噪点的特征进行去噪的过程,称为降噪。由于一般用户,在拍照文档时,难以拍摄得完全符合水平平齐与竖直平齐,因此拍照出来的图片不可避免的产生倾斜,这就需要图像处理软件进行校正。将文档图片分段落,分行的过程称为版面分析,由于实际文档的多样性、复杂性,此步骤当前仍待优化。由于拍照、书写条件的限制,经常造成字符粘连、断笔,直接使用此类图像进行OCR分析将会极大限制OCR性能。因此需要进行字符切割,即:将不同字符之间分割开。早期已模板匹配为主,后期以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响,极大地影响特征提取难度。人们希望识别后的文字,仍然像原始文档图片那样排列,段落、位置、顺序不变地输出到Word文档、PDF文档等,这一过程称为版面还原。根据特定的语言上下文的关系,对识别结果进行校正。将识别出的字符以某一格式的文本输出。OCR的概念是在1929年由德国科学家Tausheck最先提出来,并申请了专利。后来美国科学家Handel也提出了利用技术对文字进行识别的想法。中国最早的OCR商业应用是由科学家王庆人教授在南开大学开发出来的,并在美国市场投入商业使用。日本在20世纪60年代开始研究OCR识别理论,开发了邮政编码识别系统。

相关

  • 水净化水净化(英语:Water purification),是指从原水中除去污染物的净化过程,其目的是以特定的程序达到把水净化的效果,并用水作不同的用途;大多数的水都是提供人类饮用的。净化水亦可作很
  • 性成熟障碍性成熟障碍(英语:Sexual maturation disorder)是一种焦虑症或抑郁症,与一个人的性别认同或性取向的不确定性有关。世界卫生组织在“与性发育和性取向相关的心理和行为障碍(英语:Ps
  • 弗雷格弗里德里希·路德维希·戈特洛布·弗雷格(德语:Friedrich Ludwig Gottlob Frege,宽式IPA:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","S
  • 辐射适应适应辐射(英语:Adaptive Radiation)在进化生物学中指的是从原始的一般种类演变至多种多样、各自适应于独特生活方式的专门物种(不包括亚物种,就是说它们相互之间不能交配的物种)的
  • 卡拜Carbon(I) hydride Carbyne Methylyne卡拜(Carbyne)是拥有三个自由电子的电中性单价碳活性中间体HC及其衍生物(如EtO2C-C)的统称。卡拜可通过很多方法获得。它可以短寿命的活性
  • 纳豆纳豆是日本常见的传统发酵食品,由黄豆通过Bacillus subtilis natto(枯草杆菌亚种之一)借由菌种发酵所释放的酵素转化蒸煮过黄豆的营养成分所制成的豆制品,气味浓烈,有黏性,不仅保
  • 基督科学箴言报《基督科学箴言报》(英语:The Christian Science Monitor)是美国的一份国际性日报,每周一至周五出版,由基督科学教会创始人玛丽·贝克·埃迪于1908年创立,总部位于波士顿。创始人
  • 金娃娃黑青斑河鲀,又名暗绿鲀、金娃娃,为辐鳍鱼纲鲀形目四齿鲀亚目四齿鲀科的其中一种,生活在近海淡水或淡咸水,原生地分布于泰国、柬埔寨、马来西亚、缅甸、中国等地区之流域。栖息在
  • 二异丁基氢化铝二异丁基氢化铝(DIBAL、DIBAL-H、DIBAH)是有机合成中常用的有机金属还原剂之一,化学式(i-Bu2AlH)2,室温下为无色液体。由烯烃聚合反应的共催化性质而被研究,一般以它溶于有机溶剂
  • 米尔则亚耶夫沙夫卡特·米罗莫诺维奇·米尔济约耶夫(俄语:Шавкат Миромонович Мирзиёев;1957年7月24日-)是一位乌兹别克斯坦政治人物,现任乌兹别克斯坦总统。1996年