首页 >
OCR
✍ dations ◷ 2024-11-05 19:38:30 #OCR
光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。对于不同的图像格式,有着不同的存储格式、不同的压缩方式,当前有OpenCV、CxImage等。如今数码摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,较为不适用于OCR技术。对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的、更好地进行OCR相关计算,我们需要先对彩色图进行处理,使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。对于不同的图像,噪点的定义可能不同,根据噪点的特征进行去噪的过程,称为降噪。由于一般用户,在拍照文档时,难以拍摄得完全符合水平平齐与竖直平齐,因此拍照出来的图片不可避免的产生倾斜,这就需要图像处理软件进行校正。将文档图片分段落,分行的过程称为版面分析,由于实际文档的多样性、复杂性,此步骤当前仍待优化。由于拍照、书写条件的限制,经常造成字符粘连、断笔,直接使用此类图像进行OCR分析将会极大限制OCR性能。因此需要进行字符切割,即:将不同字符之间分割开。早期已模板匹配为主,后期以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响,极大地影响特征提取难度。人们希望识别后的文字,仍然像原始文档图片那样排列,段落、位置、顺序不变地输出到Word文档、PDF文档等,这一过程称为版面还原。根据特定的语言上下文的关系,对识别结果进行校正。将识别出的字符以某一格式的文本输出。OCR的概念是在1929年由德国科学家Tausheck最先提出来,并申请了专利。后来美国科学家Handel也提出了利用技术对文字进行识别的想法。中国最早的OCR商业应用是由科学家王庆人教授在南开大学开发出来的,并在美国市场投入商业使用。日本在20世纪60年代开始研究OCR识别理论,开发了邮政编码识别系统。
相关
- 转染转染(英语:Transfection)是将外源遗传物质(DNA或RNA)植入细胞的一种过程,常用来描述非病毒入侵的转基因方式,相较于转化(英语:transformation,又译转型)用于植物、细菌及癌细胞的扩散,转
- 坑鳒鳗鲶,学名Plotosus lineatus,异名:Plotosus arab, Plotosus anguillaris, Silurus lineatus,又称线纹鳗鲶(Striped eel catfish),俗称沙毛、坑鳒、海塘虱,是鲶形目鳗鲶科的其中一种
- 边音边音(英语:lateral consonant,古汉语:半舌音)是发音方法的一种。发音时,口腔的气流通路的中间被阻塞,气流从舌头的两边通过。中古汉语的来母,普通话的l都是边音。当符号成对出现时,左
- 临床药学临床药学(英语:Clinical Pharmacy)是药学的一个分支。临床药学是以病人为对象研究药物及其剂型与病体相互作用和应用规律的综合性学科,旨在用客观科学指标来研究具体病人的合理
- 埃特纳火山埃特纳火山(意大利语:Etna),是欧洲著名的活火山,属层状火山。它位于意大利西西里岛东海岸的墨西拿和卡塔尼亚之间,是欧洲最高的活火山,海拔3326米,其高度随喷发活动而变化。埃特纳火
- 观赏植物园艺植物指为了装饰而种植在花园、庭院或室内的可供观赏的植物。园艺植物的种植和培育是园艺学的重要组成部分。大多数的小型园艺植物的种植是出于美学的目的,如花卉、大叶植
- 旺代战争1795年6月24日 - 1796年3月29日 1799年10月15日 - 1800年1月18日旺代战争(法语:Guerre de Vendée),又称旺代暴动(法语:Révolte Vendéenne)、旺代叛乱(法语:Rébellion Vendéenne
- 新布尼亚病毒新布尼亚病毒(SFTS Virus),又称发热伴血小板减少综合征病毒,是布尼亚病毒科白蛉病毒属(英语:Phlebovirus)的一种病毒,其引发的病症称为发热伴血小板减少综合征,为一种经由蜱虫传染给
- 暴风雪雪暴(英语:Blizzard),又称暴风雪、飞雪,-5℃以下大降水量天气的统称,且伴有强烈的冷空气气流。雪暴的形成类似于与暴风雨相似。在冬天,当云中的温度变得很低时,使云中的小水滴结冻。
- 罗姆苏丹国罗姆苏丹国(波斯语:سلجوقیان روم,现代土耳其语:Anadolu Selçuklu Devleti)为在安那托利亚的塞尔柱帝国延续政权,在1077年至1307年间统治安那托利亚内陆大部分区域,初