从0到1搭建一款人工智能OCR应用
yaozulv(吕耀祖)
腾讯云前端开发工程师
主要内容
OCR基础原理及应用场景介绍
开源OCR引擎Tesseract 介绍及使用示例
基于腾讯云OCR服务开发Web应用
开发准备
运行环境:Node.js
开发编辑器:Visual Studio Code
云平台:注册腾讯云账号并完成实名认证
关注腾讯云AI公众号,回复关键字“新用户+云账号ID”
可以免费领取腾讯云100元代金券
扫码关注
OCR (Optical Character Recognition,光学字符识别)
OCR
飞机飞过天空天空之城
落雨下的黄昏的我们
此刻我在异乡的夜里
感觉着你忽明忽暗
对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程
利用深度学习技术将图片中的文字内容智能的识别出来
OCR技术发展
传统OCR
基于图像处理和和统计模型
深度学习OCR
基于深度学习
场景适应能力差,准确率不高
抗干扰能力强,识别准确率高
适用于图片文字单一,质量较高
适用于各类场景
OCR基础实现
图像
预处理
文本检测
文字识别
结果
几何校正
去除模糊
图像增强
灰度二值化
版面布局
文本位置
文本范围
特征提取
文本分类
文本后处理
OCR分类: 通用OCR和结构化OCR
通用OCR
版式不固定
内容按行提取
OCR分类: 通用OCR和结构化OCR
结构化OCR
版式固定
从固定区域识别提取内容
识别结果字段结构化