Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）—附Java源码实现及真实测试数据和训练集下载地址

时间:2019-12-26 CoderBaby 人气:0

OCR(Optical character recognition) —— 光学文字识别，是图像处理的一个重要分支，中文的识别具有一定挑战性，特别是手写体和草书的识别，是重要和热门的科学研究方向。可惜国内的科研院所，基本没有大量的高识别率的训练集—笔者联系过北京语言大学研究生一篇论文的作者，他们说有%90的正确识别率，结果只做了简单的2000字。真的是为了论文而论文。

斯坦福大学有个工程项目，专门做中文汉字的识别——欧美发达国家的科研院所更有研究精神

提高识别率，训练集是关键！

提高识别率，训练集是关键！！

提高识别率，训练集是关键！！！

下载训练集—traineddata请移步：

https://github.com/tesseract-ocr/tessdata

中文请选如下4个：

chi_sim.traineddata （简体— 对于宋体，像素>= 300dpi:识别率高达%100，同时对英文及阿拉伯数字识别率高达百分之90以上）
chi_sim_vert.traineddata （简体，竖排）
chi_tra.traineddata （繁体）
chi_tra_vert.traineddata（繁体，竖排）【CoderBaby】

经过测试得出如下结论：

对于宋体，白色背景，非倾斜等，像素大于等于300dpi—识别率%100
英文和数字，识别率超过90%
特殊字符识别率不高
像素太低，识别率急剧下降
多种背景颜色变化，识别率极低
字体换成草书等，识别率大幅降低
电影屏幕字幕和网页截图识别率较低
扫描件如果字体太淡，太小，完全识别不出来
提高识别率，需要自己做训练集，工作量巨大的体力活（简体汉字最少6753个，混合一些复杂的，至少要10000个字符；不同字体要重新做，因为本质上是图形几何计算，国内科研院所和开源的做的不多—待确认）

Java源码实现，tika结合Tesseract-OCR

（1）源码如下(支持多个图片识别）

    @Test
    public void testCode() throws IOException, SAXException, TikaException, InterruptedException {
        List<String> fileNames = new ArrayList<>();
        fileNames.add("chi_eng.png");
        fileNames.add("chi_eng01.png");
        fileNames.add("chi_old.png");
        fileNames.add("chi-scan-75dpi.jpg");
        fileNames.add("chi-scan-100dpi.jpg");
        fileNames.add("chi-scan-300dpi.jpg");
        fileNames.add("chi-smartphone.jpg");
        fileNames.add("chi-subtitle-v1.jpg");
        fileNames.add("english00.png");
        fileNames.add("pdf_shaomiao.png");
        fileNames.add("test.tiff");
        fileNames.add("weather.png");

        // 转载请注明出处：https://www.cnblogs.com/NaughtyCat/p/how-to-install-tesseract-ocr-on-windows-and-centos.html
        TesseractOCRParser parser = new TesseractOCRParser();

        TesseractOCRConfig config = new TesseractOCRConfig();
        // 设置简体中文训练集
        config.setLanguage("chi_sim");
        // 设置Tesseract 安装路径
        config.setTesseractPath("C:/Program Files/Tesseract-OCR");
        // 设置train data 路径
        config.setTessdataPath("C:/Program Files/Tesseract-OCR/tessdata");

        ParseContext context = new ParseContext();
        context.set(TesseractOCRConfig.class, config);
        context.set(TesseractOCRParser.class, parser);

        fileNames.forEach(filename -> {
            BodyContentHandler handler = new BodyContentHandler();
            File file = new File("E:/tika/testData" + File.separator + filename);
            if (file.exists()) {
                Metadata metadata = new Metadata();
                try (InputStream stream = new FileInputStream(file)) {
                    parser.parse(stream, handler, metadata, context);
                } catch (Exception e) { }
                handler.toString();
            }
        });
    }
}

测试数据（图片）说明及下载地址

具体说明及测试效果请参见：https://ocr.space/blog/2015/03/best-ocr-software-for-chinese.html

相关测试图片请参见：https://github.com/A9T9/OCR-Benchmark

如何做自己的测试数据集

请参考官网：https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02

(2)原始图片及效果

图1

转换效果如下：

【结论】

300dpi，识别率：%100

图2

转换效果如下：

Brief history

Tesseractwes orginally developed at HewlettPackard Laboratones Bristol and
atHewettPackard Co Greeley Colorado beween 1985 and 1994 wthsome
more changes made in 1996 to portto Windows and some C++zing in1998
In2005 Tesseract was open sourced by HP Since 2006 itis developed by Goosgle

Thelatest (LSTM based]j stableversionis4.10, released on July 7.2019.Latest source codes avaable from
master branch on GlHub.Openissues can be foundin ssue racker and Planning iki

Thelatest35 version 5 3.05.02 released onjune 19,2018.Latestsource code for3.055 avaable from
305 branch on GlHHub.There sno development forthisversion,butitcan be used forspecial cases .
see Regression offeatures from 30x

See Release Notes and Change Log formore detas ofthe releases-
Installing Tesseract

You can ettherInstall Tesseractvia prepulltbinary package or pulld iLfrom sourcey
Supported Complersare:

* GCC48 and above
* ang34and above
* MSVC 2015.2017.2019

Othercompllersmightwork butare notofially supportedl
Running Tesseract
Basiccommand line usage:

tesseract inagenane outputbase [-1 ]ang】 [--osn ocrenginenode] [--psn pagesegnode
[configfiles...]

Formore information aboutthe various command line options use esseract --henp or man tesseract .

Examples can befoundin thewiki
For developers

Developers can use Tbtessaract Cor

【结论】
英文，特殊符号等会识别失败。识别率：>%80

图3.

转换效果如下：

E g 气

Even as Tvanja praised 8e parties Envoyed i 功 i5 7el gzamt7 comgpi 地 08
Qchieveze1 Q 7W7Der- Ofsocial media lsers appeared crilical of er as-
Sesszet 0f 加 e Trip adiistration「5 role 加功 i5 endeavou7
IBM 表示不服 ,Google 不 care。下而让我们逐字逐句来看他们的论文
吧 , 对于争论的事情 , 自己下功夫搞清楚。

松贵莹坊办少
忠 : https:/ww.cnblogs-com/NaughtyCatpytranslate-of-google-
Quantum-supremacy-article-published-on-nature.html

Quantum supremacy using
a programmable

superconducting
processor

基于可编程的超导处理器实现的量子霸
权

动关盘源 ,https:/https://img.qb5200.com/download-x/doorg/10.1038/s41586-019-1666-5
煌收船 2019 乐 7 历 20 历
旋准 8 船 2019 乐 9 历 20 厂
坊终发疗 2019 知 10 月 23 厅

Abstract
引言

量子计算机吹牛遢说 , 对于特定的计算任务 , 基于量子处理器的计算
机 , 其速度相较于经典处理器呈指数级增长。根本的挑战在于构建一

【结论】
宋体，加粗，黑色——识别率%100；倾斜，绿色等——识别率：%70

图4（扫描件）.

转换效果如下：

节 P a
为客户服务是华为存在的睢一理由” 从公司层面
看 , 为客户创造价值的主业务流只有一个!

Ipo - nisgniedProductDevelopment

B croeis PaFA 4 辜蒙扁)

Unc - LomdTocash
芸 a npe waa8 2 菅墨

E Ig - ssueToResoliton 林
P L a 颤〉

n i t t

6 P: 01

IP0 主业务流包括 : MW 流程、0R 流程、IPD 流程

D
4 一

【结论】
pdf扫描件，只有比较大，比较粗的字能识别出来，颜色较淡的识别不出来
识别率：约%10

图5.

转化效果如下：

大行佳孔当自弼不。

。

巧者劳而春者忱 , 无能者无所必 , 作食而邀
游 , 陆若不系之舟。

。

Chacgyuisdt.

。

124565.

。
12256 dogdogunnn
。
。

【结论】
汉字、英文、数字混合
识别率：%60~%70

图6（天气网页截图）

转换效果如下：

L f

全国 > 囚川 > 尿膳 > 坂区
今夺伟 8-15 天

llc/4rc

208 238 028 058
人 [ [ 92
s
c E E
无 RR 无 RR 无 RR 无 RR

< < < <

【结论】
背景颜色（蓝色，灰色，黑色、橙色）；字体颜色（黑色、白色）。识别率：不到%10

图7.

转换效果如下：

机器人餐厅

cra arenzanmu nnanmes
seeu xraguagpt. ssepumes
人吊 pahs ztpznaapsus anea
an sro an sessuassnet
e ssoangm crmazees aas
iusiaanorg.mmouz rpeae
snreenatesezur eeae t
+ngszensenapenecieme
矿 svapgzanohat

【结论】
75dpi，识别率：约为%5 【CoderBaby】

图8（电影字幕截图）.

转换效果如下：

E
1 30
E
55

【结论】

背景颜色（渐变灰），字体为白色——识别率：%0

图9（古籍）.

转换效果如下：

茂长万灰咆
恍 “ 望泷 “ 松驱
明匹一图抚札狐
东非 “ 柳一吴
埕跃 X“ 埋煌弟
仪怀坂称鸟场 “
下泊聪遇林固 “
| 靴犹 “

【结论】

竖排，古籍版（需要“chi_tra.traineddata及“chi_tra_vert.traineddata”）——识别率：%0

图9（手机拍照图片）.

转换效果如下：

在中国 , 餐厅里的菜通常很特别 , 但是有时候做菜和服务
的人也很特别 : 不久前昆山一家餐厅开业 , 这家餐厅从欢迎宰
人、点菜、制作到上菜 , 大部分工作都由机器人完成。餐厅经理
宋育刚对他的 “ 员工 “ 很满意。这些机咤人能理解 40 句日常生

活用语 , 因此可以与顾客交流。让宋育刚最满意的是 , 他的这些
员工们既不会生病也不会请假。充电两个小时后 , 它们就又能
投入使用了 , 因此它们要比普通员工优秀。对于顾客来说 , 技术
水平有没有达到能使这些机蹇人厨师很好地调味还不得而知。
不过 , 机器人厨师倒是非常令人期待。

【结论】
手机拍照图片，还算清晰的——识别率：%100

转载请注明出处：https://www.cnblogs.com/NaughtyCat/p/tika-support-Tesseract-OCR-with-source-code-and-test-data.html

参考：

1）https://stackoverflow.com/questions/23792373/installing-tesseract-ocr-on-centos-6

2）http://www.zmonster.me/2015/04/17/tesseract-install-usage.html

*****************************************************************************************************

精力有限，想法太多，专注做好一件事就行

我只是一个程序猿。5年内把代码写好，技术博客字字推敲，坚持零拷贝和原创
写博客的意义在于打磨文笔，训练逻辑条理性，加深对知识的系统性理解；如果恰好又对别人有点帮助，那真是一件令人开心的事

*****************************************************************************************************

加载全部内容