OCR

✍ dations ◷ 2025-08-13 03:14:58 #OCR
光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。对于不同的图像格式,有着不同的存储格式、不同的压缩方式,当前有OpenCV、CxImage等。如今数码摄像头拍摄的图片,大多数是彩色图像,彩色图像所含信息量巨大,较为不适用于OCR技术。对于图片的内容,我们可以简单的分为前景与背景,为了让计算机更快的、更好地进行OCR相关计算,我们需要先对彩色图进行处理,使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。对于不同的图像,噪点的定义可能不同,根据噪点的特征进行去噪的过程,称为降噪。由于一般用户,在拍照文档时,难以拍摄得完全符合水平平齐与竖直平齐,因此拍照出来的图片不可避免的产生倾斜,这就需要图像处理软件进行校正。将文档图片分段落,分行的过程称为版面分析,由于实际文档的多样性、复杂性,此步骤当前仍待优化。由于拍照、书写条件的限制,经常造成字符粘连、断笔,直接使用此类图像进行OCR分析将会极大限制OCR性能。因此需要进行字符切割,即:将不同字符之间分割开。早期已模板匹配为主,后期以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响,极大地影响特征提取难度。人们希望识别后的文字,仍然像原始文档图片那样排列,段落、位置、顺序不变地输出到Word文档、PDF文档等,这一过程称为版面还原。根据特定的语言上下文的关系,对识别结果进行校正。将识别出的字符以某一格式的文本输出。OCR的概念是在1929年由德国科学家Tausheck最先提出来,并申请了专利。后来美国科学家Handel也提出了利用技术对文字进行识别的想法。中国最早的OCR商业应用是由科学家王庆人教授在南开大学开发出来的,并在美国市场投入商业使用。日本在20世纪60年代开始研究OCR识别理论,开发了邮政编码识别系统。

相关

  • 灰黄霉素灰黄霉素(英语:Griseofulvin),是一种抗真菌的口服药物。在动物和人类中,它是用来治疗真菌感染的皮肤(癣的俗称)和指甲。它是在1939年由灰黄青霉被分离的部分菌株所培养而成。灰黄霉
  • 分解代谢异化作用(英语:Catabolism),又称作分解代谢,是生物的新陈代谢途径,将分子分解成更小的单位,并被氧化释放能量的过程,或用于其他合成代谢反应释放能量的过程。 异化作用将大分子(例如
  • 腱鞘囊肿腱鞘囊肿(ganglion cyst)是一种出现在关节或腱鞘上的肿块,内容物是液体。手腕背侧最容易发生腱鞘囊肿,其次是手腕的掌侧。腱鞘囊肿一般会持续一月以上。一般来说,腱鞘囊肿发生后
  • 飞部,为汉字索引中的部首之一,康熙字典214个部首中的第一百八十三个(九划的则为第八个)。就正体中文中,飞部归于九划部首,而简体中文则归在三划。飞部只以左方、下方为部字。且无
  • 汉弥尔顿路径问题哈密顿路径问题(Hamiltonian path problem)与哈密顿回圈问题(Hamiltonian cycle problem)属于数学中的图论。此问题是用来决定一个哈密顿图上的路径或回圈。两个问题皆为NP完全
  • 中国宰相列表*本篇应指历代最高官职者,并非单指“宰相”一职。伯益 彭伯寿 武罗 伯姻 熊髡 尨圉 寒浞 关龙逢 终古伊尹 仲虺 伊陟 臣扈 巫咸 巫贤 甘盘 傅说 箕子 微子 商容 比干 费仲 飞
  • CD22n/an/an/an/an/an/an/an/an/an/aCD22,名为分化簇-22(英语:cluster of differentiation-22),是成熟B细胞表面的一种跨膜受体,属于SIGLEC(英语:SIGLEC)家族。CD22表现于成熟B细胞的表面
  • 黎乐民黎乐民(1935年12月6日-),广东电白人,中国物理无机化学家,北京大学化学学院教授。1959年北京大学技术物理系毕业,1965年在该校技术物理系研究生毕业。1991年当选为中国科学院学部委
  • 妯娌姻亲指基于婚姻关系而生之亲属型态,一方配偶与他方配偶之亲属间,因双方缔结婚姻后,成为相互具法律上亲属关系的情况。《中华民国民法》第969条规定,包括配偶的血亲、血亲的配偶
  • 英国医学总会医学总会(英语:General Medical Council,缩写作 GMC)是英国一个收费的注册慈善团体,根据《1858年医学法令》成立,拥有法定义务管有英国执业医生的登记名册。医学总会也负责管制英