Abbyy software FINEREADER 9.0 User Manual

ABBYY FineReader 9.0
指南
© 2008 ABBYY. 保留所有权利。
本文档中的信息如有 本文档中描述的
中有特定许可,否则将本软件复制到任何介质都是违反俄罗斯联邦和国际法中有关软件与数据库的法律保护”法的行
更,恕不另行通知,ABBYY 无须为此承担任何义务。
件将遵照许可协议提供。必须严格按照许可协议的条款使用或复制本软件。除非许可协议或保密
协议
。 未获得 ABBYY
的明书确面许可,不得以任何形式或任何工具(电子或其他)复制或传送该文档的任何部分用作任何目的。
© 2007 ABBYY.保留所有权利。 © 1987-2003 Adobe Systems Incorporated.Adobe® PDF Library Adobe Systems Incorporated
权许
可。
Microsoft Reader Content Software Development Kit © 2004 Microsoft Corporation, One Microsoft Way, Redmond, Washington 98052-6399 U.S.A. 保留所有
利。
Fonts Newton, Pragmatica, Courier © 2001 ParaType, Inc. Font OCR-v-GOST © 2003 ParaType, Inc. © 1999-2000 Image Power, Inc. and the University of British Columbia, Canada.© 2001-2006 Michael David
Adams.保留所有
利。 ABBYYABBYY 标、ABBYY FineReader、ADRT 是 ABBYY Software Ltd 的注册商标或商标。 AdobeAdobe
Adobe PDF 徽标和 Adobe PDF Library Adobe Systems Incorporated
在美国和/或其他国家或地区的注册商标或商标。 MicrosoftOutlookExcelPowerPointWindows Microsoft Corporation
在美国和/或其他国家或地区的注册商
标或商标
Unicode Unicode, Inc. 的商标。
所有其他商标归其各自所有者拥有。
ABBYY FineReader 9.0 用户指南
内容
ABBYY FineReader 入门 ...................................................... 4
什么是 ABBYY FineReader? ............................................................... 5
ABBYY FineReader 9.0 的新功能 ........................................................... 5
使用 ABBYY FineReader 9.0 .................................................. 7
ABBYY FineReader 9.0 渐进教程 ........................................................... 8
将纸质文档转换为 Microsoft Word 文档 ................................................... 10
将图像或 PDF 文档转换为 Microsoft Word 文档 ............................................ 10
将纸质文档转换为 Microsoft Excel 工作表 ................................................ 11
扫描纸质文档以创建 PDF 文档............................................................ 11
将数码照片转换为 Microsoft Word 文档 ................................................... 11
扫描和保存图像......................................................................... 11
从其他程序运行 ABBYY FineReader ........................................................ 12
提高 OCR 质量 ............................................................. 13
考虑纸质文档的某些特性................................................................. 14
获取图像............................................................................... 15
提高 OCR 质量的技巧.................................................................... 21
处理希伯来语、中文、日语和泰语的文字 ................................................... 26
检查和编辑已识别的文本................................................................. 30
保存结果............................................................................... 33
高级功能 .................................................................. 42
自定义工作区........................................................................... 43
使用区域模板........................................................................... 44
用户语言和语言组....................................................................... 45
ABBYY FineReader 文档 .................................................................. 46
识别及训练............................................................................. 48
ABBYY FineReader 自动化任务 ............................................................ 50
局域网中的分组工作..................................................................... 53
ABBYY Hot Folder & Scheduling .......................................................... 54
附录 ...................................................................... 59
支持的保存格式......................................................................... 60
支持的图像格式......................................................................... 60
正则表达式 ................................................................63
术语表................................................................................. 64
键盘快捷键............................................................................. 65
如何购买 ABBYY 产品 ....................................................... 70
ABBYY 办事处和技术支持联系方式......................................................... 70
技术支持 .................................................................. 72
3
ABBYY FineReader 9.0 用户指南

ABBYY FineReader 入门

本章概要介绍了 ABBYY FineReader 及其功能。
章节内容
什么是 ABBYY FineReader?
ABBYY FineReader 9.0 的新功能
4
ABBYY FineReader 9.0 用户指南

什么是 ABBYY FineReader?

ABBYY FineReader 是一套光学字符识别(OCR)应用软件,能将打印文档、PDF文档及文档图像转换成可编辑的电子文件。

ABBYY FineReader 的功能

识别快速精确
ABBYY FineReader 允许使用快速任务将打印文档和 PDF
文档转换成可编辑的电子文档,快速任务可轻松执行所有重要的扫描、转换和识别处理。
ABBYY FineReader 实际上可识别用任意字体打印的文本,且在大多数情况不受打印缺陷的影响。
与 Microsoft Office 完美集成,能直接从 Microsoft Word、Microsoft Excel 或 Microsoft Outlook
中识别文档。
ABBYY FineReader 可检测文件和 PDF 文档中的 Web
链接、电子邮件地址、页眉和页脚,并在生成的电子文本中重新创建相应项目。
操作便捷
ABBYY FineReader 的界面简洁直观,以结果为导向,让您可以迅速掌握软件的主要功能。
软件界面的自定义程度很高,可通过更改窗口的大小与位置、选择颜色主题及自定义工具栏和其他界面元素等方式
来调整工作区。
灵活的设置让大型文件的处理更加快捷轻松。可选择仅识别所选页面而非整篇文档。还可控制输出文件的大小。
本用户指南将介绍这些功能并就非标准或复杂文档转换提供指导和提示。

ABBYY FineReader 9.0 的新功能

ABBYY FineReader 9.0 具有许多重要的改进和功能。某些功能(见下文)是 ABBYY FineReader 9.0 Corporate Edition 或 ABBYY FineReader 9.0 Site License Edition 特有的功能。 智能文档处理
OCR 专利技术 ABBYY FineReader 采用 ABBYY 最新的、划时代的自适应文档识别技术整体分析多页文档,而不是逐页分析。该技术可保持文档的逻辑结构,不仅保留 原始文本和列,还会保留页眉、页脚、字体、样式、脚注及表格和图片的编号标题。用户可轻松编辑和重新使用生成的 电子文档。
字体和样式匹配 对字体识别模块做了重大修改,现在字体识别模块可识别原始文档中使用的字体,并从计算机上的可用字体中查找最匹 配的字体。
多语言识别
新版本可以识别 184 种语言的文字。
轻松使用
文档语言自动检测 启动 OCR 前,FineReader 无需再手动选择文档的识别语言。程序使用高级算法来检测所用语言。
改进的界面 新的 FineReader 界面以结果为导向,这使得操作更简单更直观。可自定义窗口、工具栏、键盘快捷键以及扫描、OCR 和保存选项。新的交互式提示提高了用户学习的效率,帮助其更快获得操作结果。
新的快速任务 FineReader提供了大量预定义快速任务。允许将扫描的纸质文档、PDF文档、图像或数字照片快速转换成Microsoft Word文档、Microsoft Excel工作表或PDF文件。单击鼠标即可启动任意快速任务: – 从 快速任务窗口启动 – 从开始>所有程序>ABBYY FineReader 9.0 中启动 – 或从文件的快捷菜单中启动。
从其他应用程序中运行 OCR ABBYY FineReader 9.0不仅支持从Microsoft Word中运行OCR,现在还支持从Microsoft Excel和Microsoft Outlook中直接运行OCR。
5
ABBYY FineReader 9.0 用户指南
多核处理器支持 ABBYY FineReader 9.0 能充分发挥日益流行的多核处理器的性能。该技术允许用户在不降低系统速度的情况下同时执行多个文档处理步骤。 PDF/A、DjVu、DOCX 和 XLSX 支持
PDF/A 现在能以 PDF/A 格式保存文档,这是档案室和图书馆中用于长期存储文档的一种常用格式。
DjVu ABBYY FineReader 能以流行的 DjVu 电子书格式从文件中提取文本,并以所选的可编辑格式保存文本。
DOCX 和 XLSX 与 Microsoft Office 2007 集成,因此能以 DOCX 和 XLSX 格式保存已识别的文档。 专业功能
法律文本处理 ABBYY FineReader 9.0 能自动识别法律文档中的特殊元素和格式,且可自动识别法律文档并保留其原有属性,如合同的签名和诉讼文档的行号 。
符合 Section 508 标准 ABBYY FineReader 9.0 符合 Section 508 可访问性标准。软件的辅助功能包括自定义键盘快捷键、便于屏幕读者阅读的向导、操作结束时发出蜂鸣信号及根据屏 幕宽度自动缩放文本。 使用 ABBYY Hot Folder & Scheduling 处理电子邮件消息 (仅 ABBYY FineReader 9.0 Corporate Edition 和 ABBYY FineReader 9.0 Site License Edition 有此功能) 可指定哪些由 MFP 或传真发送至您电子邮件信箱的图像需要由 FineReader 自动处理。 Windows Vista 认证 ABBYY FineReader 9.0 经官方认证适用于 Microsoft Windows Vista 设备和软件。Windows Vista 认证徽标确保其与 Microsoft Windows Vista 操作系统的高级功能兼容。
6
ABBYY FineReader 9.0 用户指南

使用 ABBYY FineReader 9.0

本章将教您使用 ABBYY FineReader 9.0 获取纸质文档或 PDF 文档的可编辑电子版本。
章节内容
ABBYY FineReader 9.0 渐进教程
将纸质文档转换为 Microsoft Word 文档
将图像或 PDF 文档转换为 Microsoft Word 文档
将纸质文档转换为 Microsoft Excel 工作表
扫描纸质文档以创建 PDF 文档
将数码照片转换为 Microsoft Word 文档
扫描和保存图像
从其他程序运行 ABBYY FineReader
7
ABBYY FineReader 9.0 用户指南

ABBYY FineReader 9.0 渐进教程

只需四个简单的步骤就可将纸质文档或 PDF 文档转换为可编辑的文件:
获取文档图像
执行 OCR
检查和编辑已识别的文本
将文档以可编辑的格式保存
下面,我们将详细介绍每一个步骤。

获取文档图像

ABBYY FineReader需要文档的图像以便对其执行OCR。可通过数种方法来获取图像。
扫描纸质文档
打开现有的图像文件或 PDF 文档
拍摄纸质文档
扫描纸质文档
1. 确认您的扫描仪已连接并已开启。
请参考扫描仪文档以确保其设置正确。请确保安装扫描仪随附的软件。某些型号的扫描仪必须在开启计算机之前先 开启。
2. 将文档面朝下放置在扫描仪上。
3. 在 ABBYY FineReader 中,单击扫描或从文件菜单中选择扫描页面…。 片刻之后,已扫描页面的图像将出现在 ABBYY FineReader 主窗口中。 提示:识别典型办公文档的最佳扫描分辨率为300dpi。 文档质量和选择的扫描选项会显著影响 OCR 的质量。由于识别质量差的图像会对识别可靠性带来反面影响,请调整以达到可能的最佳效果。
打开图像文件和 PDF 文档 对文档进行扫描或拍摄后,您就可在ABBYY FineReader中打开生成的图像(有关所支持格式的完整列表,请参见支持的图像格式);或者以相同的方式打开PDF文 件。
在 ABBYY FineReader 中,单击打开或从文件菜单中选择打开 PDF 文件/图像…。 在打开图像对话框中,选择一个或多个图像。图像会在文档窗口中以缩略图形式显示。
在 Windows 资源管理器中,右键单击所需的图像,然后从快捷菜单中选择用 ABBYY FineReader 打开。
在 Microsoft Outlook 中,选择带有要打开的图像或 PDF 附件的电子邮件消息,然后单击工具栏上的
。在对话框中,选择一个文件。
在 Microsoft Outlook 或 Windows 资源管理器中,将所需的图像文件拖放到 ABBYY FineReader
主窗口中。图像会被添加到当前的 ABBYY FineReader 文档中。 注:PDF 文件的作者可能会限制对文件的访问。例如,作者可能会创建密码或限制某些功能,如提取文本和图片的功能。为了遵 守版权方面的规定,ABBYY FineReader 会在您打开此类文件时询问密码。
用数码相机拍摄文档 ABBYY FineReader 可对数码相机创建的图像执行 OCR。
1. 对文档进行拍照。
注: 为了成功执行 OCR 过程,需要具备高质量的照片。
2. 将照片保存到硬盘上。
3. 在 ABBYY FineReader 中,单击打开按钮或从文件菜单中选择打开 PDF 文件/图像…。
8
ABBYY FineReader 9.0 用户指南

光学字符识别 (OCR)

ABBYY FineReader 使用光学字符识别技术将文档图像转换为可编辑的文本。在执行 OCR 之前,程序会分析图像并检测含有文本、图片、表格和条码的区域。
当添加新页面到 ABBYY FineReader 文档时,程序会使用当前文档的设置自动对新内容执行 OCR。 提示:可在选项对话框(工具>选项…)的1. 扫描/打开选项卡上关闭“自动分析”和“对新添加图像执行 OCR”。
要获得最佳 OCR 质量,请选择优化 OCR 选项:识别语言、打印类型和读取模式。
如果您已手动绘制图像上的区域或已在选项对话框(工具>选项…)中更改了下列任何选项,则手动启动 OCR 过程:
文档选项卡上的文档语言
文档选项卡上的文档打印类型
2. 读取选项卡上的任何选项
高级选项卡上的字体匹配
要手动启动 OCR 过程:
单击图像窗口中的读取按钮,或
选择文档菜单上的读取文档
提示:单击读取按钮会对选定图像启动 OCR。要对所有文档页面执行 OCR,请单击按钮右侧的箭头,然后选择读取文档。

检查和编辑已识别的文本

已识别的文本会显示在文本窗口中,其中不确定的字符会突出显示。您可在文本窗口或检查拼写对话框中进行更正。
要查看不确定的字符:
1. 在文本窗口中,单击要查看的不确定字符。
ABBYY FineReader
会自动将图像窗口滚动到原始文档中的该位置。在缩放窗口中,将显示相应片段,并以矩形光标标示出不确定字符
2. 在文本窗口中进行必要的更改。 将已识别的文本同原始文档进行比较时,此方法特别方便。
ABBYY FineReader 提供内置的拼写检查器,可帮助更正不确定的字符(工具>检查拼写…)。
ABBYY FineReader 也允许您调整已识别文本的格式。
使用文本窗口顶部工具栏的按钮执行基本的格式操作。要更改文档样式,请右键单击文本窗口中的任意位置,然后从快 捷菜单中选择属性。 注:在执行 OCR 时,ABBYY FineReader 会自动检测文档中使用的样式。所有检测到的样式都显示在文本属性面板上(要使面板可见,右键单击文本窗口的任意 位置,然后从快捷菜单中选择属性)。对样式的调整将应用到整个文本的格式。当以 RTF、DOC、WordML 和 DOCX 格式保存时,ABBYY FineReader 会保留所有样式。

保存已识别的文本

FineReader可将已识别的文本保存到文件、发送到所需的应用程序、复制到剪贴板,或以任何支持的保存格式为附件通 过电子邮件发送。您可保存整个文档或仅保存选定页面。 重要! 注意在单击保存之前选择合适的保存选项。
要保存已识别的文本:
1. 在文本窗口中,单击保存按钮右侧的箭头,然后从菜单中选择所需命令。
2. 从文本菜单顶部的下拉列表中,选择:
文档保存格式
保存选项
精确副本
生成保持原稿格式的文档。
9
ABBYY FineReader 9.0 用户指南
建议对布局复杂的文档使用该选项,如宣传手册。但请注意,该选项限制了更改输出文档文本和格式的能力。
可编辑的副本 生成保持了原始格式和文本流的文档,并可轻松对其进行编辑。
带格式文本 保留字体、字体大小和段落,但不会保留页面上对象的准确位置或间距。将生成左对齐的文本。 (右对齐从右至左的文字。) 注:垂直文本将在该模式下更改为水平文本。
纯文本 不同于带格式文本 模式,该模式不会保留格式。
选项… 打开选项对话框上的3. 保存选项卡,其中提供其他适用于保存格式的选项。
重要! 根据您所选择的保存格式,可用的选项可能会有不同。
3. 单击保存按钮。
注: ABBYY FineReader 允许您保存原始图像以及已识别的文本。

将纸质文档转换为 Microsoft Word 文档

ABBYY FineReader 能让您在数分钟之内将纸质文档转换为 Word 文档。 重要!您的计算机上必须安装有 Microsoft Word,才可运行此快速任务。
1. 启动 ABBYY FineReader。
2. 在文档窗口中,检查所选识别语言是否与文档的语言相对应。
3. 在快速任务对话框中,选择扫描到 Microsoft Word
软件将使用当前的设置完成转换任务。
4. 片刻之后,将自动打开含有已识别文本的新Microsoft Word文档。
要更改程序设置,在运行此快速任务之前请作好任何必要的更改。 注: 您也可通过设置并手动运行每一个处理步骤来获取 Microsoft Word 文档。
提示: 当您安装 ABBYY FineReader 时,程序可集成在 Microsoft Office 应用程序中,以便让您在 Microsoft Word 中便可扫描并识别纸质文档。

将图像或 PDF 文档转换为 Microsoft Word 文档

PDF格式常用于通过电子邮件发送文档、网上发布文档及文档存档。ABBYY FineReader 能够将 PDF 文档转换为可编辑的 Microsoft Word 文件。 重要! 运行此快速任务需要在您的计算机上安装 Microsoft Word。
1. 启动 ABBYY FineReader。
2. 在文档窗口中,选择与您的文档语言相对应的识别语言。
3. 在快速任务对话框中,选择将 PDF/图像转换为 Microsoft Word。
4. 在打开图像对话框中,选择所需的文件。 软件将使用当前的设置完成转换任务。 注:如果 PDF 文档有密码保护,程序将要求输入有效的密码。
5. 片刻之后,将自动打开含有已识别文本的新 Microsoft Word 文档。
要更改某些程序设置,如保存选项,在运行将 PDF/图像转换为 Microsoft Word快速任务之前请作好任何必要的更改。 注:您也可通过设置并手动运行每一个处理步骤来创建 Microsoft Word 文档。
提示:当您安装 ABBYY FineReader 时,程序可集成在 Microsoft Office 应用程序中,以便让您在 Microsoft Word 中便可直接打开图像并转换 PDF 文档。
10
ABBYY FineReader 9.0 用户指南

将纸质文档转换为 Microsoft Excel 工作表

根据纸质文档重新手动创建工作表是一件费时费力的事情。ABBYY FineReader 能让您快速有效地将纸质表格转换为 Microsoft Excel 工作表。 重要! 您的计算机需安装 Microsoft Excel,才可运行此快速任务。
1. 启动 ABBYY FineReader。
2. 在文档窗口中,选择与您的文档语言相对应的识别语言。
3. 在快速任务对话框中,选择扫描到 Microsoft Excel。 软件将使用当前设置开始转换过程。
4. 片刻之后,将自动打开含有已识别文本的新 Microsoft Excel 文档。
如果要更改某些程序设置(如保存选项),在运行扫描到 Microsoft Excel快速任务之前请作好任何必要的更改。 注: 您也可通过设置并手动运行每一个处理步骤来创建 Microsoft Excel 工作表。
提示: 当您安装 ABBYY FineReader 时,程序可集成在 Microsoft Office 应用程序中,以便让您在 Microsoft Excel 中便可直接扫描并识别纸质文档。

扫描纸质文档以创建 PDF 文档

ABBYY FineReader 能让您将纸质文档转换为 PDF 文件。 重要!您的计算机上必须安装有 PDF 查看应用程序,才可运行此快速任务。
1. 启动 ABBYY FineReader。
2. 在文档窗口中,选择与您的文档语言相对应的识别语言。
3. 在快速任务对话框中,选择扫描到 PDF。 软件将使用当前设置开始转换过程。
4. 片刻之后,将打开含有原稿文本的 PDF 文档。
要更改某些程序设置(如保存选项),在运行扫描到 PDF快速任务之前请作好任何必要的更改。 您也可通过设置并手动运行每一个处理步骤来创建 PDF 文档。
提示: 将已扫描的文档保存为 PDF 文件时,您可设置密码,以防在未授权的情况下打开、打印或编辑文档。

将数码照片转换为 Microsoft Word 文档

ABBYY FineReader 能让您将文档的数码照片转换为 Microsoft Word 文件。 重要!您的计算机上必须安装有 Microsoft Word,才可运行此快速任务。
1. 启动 ABBYY FineReader。
2. 在文档窗口中,选择与您的文档语言相对应的识别语言。
3. 在快速任务对话框中,选择将图片转换为 Microsoft Word。
4. 在打开对话框中,选择所需的照片。 软件将使用当前设置开始转换过程。
5. 片刻之后,将打开含有已识别文本的新 Microsoft Word 文档。
要更改程序设置(如保存选项),在运行将图片转换为 Microsoft Word快速任务之前请作好任何必要的更改。 注: 您也可通过设置并手动运行每一个处理步骤来创建 Microsoft Word 文档。
提示: 当您安装 ABBYY FineReader 时,程序可集成在 Microsoft Office 应用程序中,以便让您在 Microsoft Word 中便可直接打开并识别照片。

扫描和保存图像

ABBYY FineReader 允许您保存源图像以及已识别的文本。
1. 启动 ABBYY FineReader。
2. 在快速任务对话框中,选择扫描到图像文件。
将使用当前的程序设置开始图像创建过程。
11
ABBYY FineReader 9.0 用户指南
您也可手动获取和保存文档图像。
1. 扫描纸质文档 — 程序会将生成的图像保存到当前的文档中。
2. 在文件菜单中选择 保存图像…

从其他程序运行 ABBYY FineReader

当您安装 ABBYY FineReader 时,您可选择将程序与 Microsoft Office 应用程序和 Windows 资源管理器集成。程序将在 Microsoft Word、Microsoft Excel 和 Microsoft Outlook 工具栏上安装 ABBYY FineReader 9.0 按钮,并将在 Windows 资源管理器的快捷菜单上添加用 ABBYY FineReader 打开菜单项。这项功能允许您使用常用的Microsoft Office工具检查和编辑已识别的文本,或者直接从Windows资源管理器中用ABBYY FineReader打开图像和PDF文件。
要在 Microsoft Office 应用程序中对文档执行 OCR 操作:
1. 单击工具栏上的
2. 在对话框中,选择您所需的选项并单击开始。
此时将启动ABBYY FineReader,完成OCR后,在当前的Microsoft Office应用程序中打开已识别的文本。
1. 在 Windows 资源管理器中,右键单击所需文件。
2. 在快捷菜单上,选择用 ABBYY FineReader 打开命令。 注:仅在程序支持所选文件格式的情况下,该命令才会出现。
将启动 ABBYY FineReader,会将选定图像添加到新的 ABBYY FineReader 文档中。如果 ABBYY FineReader 9.0 已经在运行,会将图像添加到当前的 ABBYY FineReader 文档中。 如果 Microsoft Office 应用程序的工具栏上没有出现 ABBYY FineReader 按钮...
按钮。
右键单击工具栏,从快捷菜单中选择 ABBYY FineReader 9.0 菜单项。
如果快捷菜单中没有出现 ABBYY FineReader 9.0 菜单项,则在自定义安装过程中未将 ABBYY FineReader 与 Microsoft Office 应用程序集成。
要在安装后将 ABBYY FineReader 与 Microsoft Office 应用程序集成:
1. 转到开始>设置>控制面板,然后双击添加或删除程序。 注:在 Microsoft Windows Vista 中,该命令称作程序和功能。
2. 在已安装程序的列表中,选择 ABBYY FineReader 9.0 并单击更改。
3. 在自定义安装对话框中选择所需组件。
4. 遵照安装程序的说明。
12
ABBYY FineReader 9.0 用户指南

提高 OCR 质量

本章提供选择最佳扫描和OCR设置的实用建议,以得到最佳的非标准文档识别效果。
章节内容
考虑纸质文档的某些特性
获取图像
提高 OCR 质量的技巧
检查和编辑已识别的文本
保存结果
13
ABBYY FineReader 9.0 用户指南

考虑纸质文档的某些特性

OCR 质量在很大程度上取决于源图像质量。考虑以下因素,确定您是否能获得期望的扫描结果:
打印类型 生成打印文档时可能会采用不同设备,而其中一些设备(例如点阵打印机、打字机等)生成的文档很难识别。要获 得最佳效果,需选择正确的 OCR 选项。本部分就如何选择恰当的打印类型提供了建议。
打印质量 OCR 质量可能因“噪声”(有时出现在质量欠佳的文档中)而大打折扣。本部分就如何扫描这些文档提供了建议。
文档语言 一个文档可能包含用多种语言书写的文本。为了进行可靠的识别,程序需要知道使用的是哪种语言。本部分就如何 选择识别语言提供了建议。

打印类型

识别点阵打印机的草稿体文本或打字机生成的文本时,可以通过选择右侧的打印类型改进OCR质量。
对于多数文档,程序会自动正确检测打印类型(需要选中位于工具>选项…>文档中文档打印类型下的自动检测)。但也 可选取手动选择打印类型。
打字机生成的文本示例。所有文字的宽度相等(例如,比较“w”和“a”)。对于此类 文本,请选择打字机。
点阵打印机的草稿体文本示例。字符行由点组成。对于此类文本,请选择点阵打印机。
注:
完成识别后,重新启用自动检测选项识别正常文本。
识别打印的代码文本并输出时,请选择文档打印类型下的读取为带有空格的纯文本。
该模式将左缩进表示为空格,使每行成为单独的段落,原来的段落之间则用空行分开。这样,在以 TXT 格式保存结果时,便能在电子版本中保持纸质原件的外观。

打印质量

质量欠佳的文档,如有“噪声”(即无规则的黑点或斑纹)、模糊和不均匀的文字,或行歪斜和表格边界偏移,则可能 需要指定扫描设置。 显示示例...
传真 报纸
质量欠佳的文档最好采用灰度扫描。采用灰度扫描时,程序将自动选择最佳的亮度值。
灰度色彩模式会在扫描文本中保留文字的详细信息,以在识别质量欠佳的文档时达到最佳 OCR 效果。也可使用编辑图像对话框中的工具纠正某些打印缺陷。
14
ABBYY FineReader 9.0 用户指南

文档语言

ABBYY FineReader 可识别单语言和多语言(例如用两种语言书写)文档。对于多语言文档,必须选择多种识别语言。
从文档窗口的文档语言下拉列表中选择以下语言之一:
自动选择 ABBYY FineReader 将自动从用户自定义的语言列表中选择恰当的语言。要修改此列表:
1. 请选择更多语言…。
2. 在语言编辑器对话框中选择选项从以下列表中自动选择文档语言:。
3. 单击指定…按钮。
4. 在语言列表对话框中选择所需语言。
一种语言或多种语言的组合 选择一种语言或多种语言的组合。语言列表中包含了计算机上最常用的语言以及英语、德语和法语。
更多语言…如果您需要的语言未显示在列表里,请选择该选项。
在语言编辑器对话框中选择手动指定语言选项,然后选中相应对话框以选择所需语言。如果经常使用特定的语言组合, 则可为这几种语言新建一个组。
导致语言未出现在列表中的原因有如下几种:
1. 您的 ABBYY FineReader 副本购买自网上商店。该版本只包括最常用的界面和识别语言。要下载更多语言,请选择开始/程序/ABBYY FineReader 9.0/下载更多语言,然后按照说明操作。
2. ABBYY FineReader 不支持该语言。
3. 该语言在自定义安装过程中被禁用。
安装其他识别语言:
1. 单击开始>设置>控制面板,然后双击添加或删除程序。
2. 在已安装程序的列表中,选择 ABBYY FineReader 9.0 并单击更改。
3. 在自定义安装对话框中选择所需语言。
4. 按照安装说明操作。 注:当程序提示选择目标文件夹时,请选择到已安装 ABBYY FineReader 的文件夹路径。

获取图像

OCR 质量主要取决于图像的质量,而图像质量在很大程度上又受文档扫描过程中所用扫描设置的影响。
选择扫描界面 关于通过 ABBYY FineReader 界面扫描和通过扫描仪驱动程序界面扫描以及两者之间如何切换的详细信息。
选择扫描选项
字体太小
调节亮度
调整图像分辨率
扫描对页
矫直文本行
拍摄文档
本部分将帮助您设置数码相机并拍摄适合 OCR 的文档图像。
减小图像大小

选择扫描界面

ABBYY FineReader 可通过两种方式与扫描仪通讯:
通过 ABBYY FineReader 界面
在这种情况下,从 ABBYY FineReader 对话框中选择扫描选项(包括分辨率、亮度和色彩模式)。此外,还可使用以下选项:
15
ABBYY FineReader 9.0 用户指南
在没有自动送纸器的扫描仪上扫描多页文档
双面扫描(如果扫描仪支持)
注:在使用某些型号的扫描仪时,可能无法使用使用 ABBYY FineReader 界面选项。
通过扫描仪的 TWAIN 或 WIA 驱动程序
在这种情况下,从扫描仪驱动程序提供的扫描界面中选择扫描选项。请参考扫描仪随附的技术文档了解扫描界面及其界 面元素的详细信息。 重要!请参考扫描仪文档以确保其设置正确。请确保安装扫描仪随附的软件。
默认情况下,使用 ABBYY FineReader 扫描界面。
模式切换十分简单:
1. 选择工具>选项…,然后单击 1. 扫描/打开选项卡。
2. 在扫描仪下选择使用 ABBYY FineReader 界面或使用本机界面。

选择扫描选项

ABBYY FineReader 支持选择页面扫描和图像打开选项,以防止诸如图像歪斜和页面方向错误之类的缺陷。此外,如果希望在识别前手动编 辑图像,可以禁用自动分析和 OCR。
可以在选项对话框(工具>选项…)的 1. 扫描/打开选项卡上选择扫描和打开选项。
重要!如果在扫描页面或者打开图像完成后更改扫描或打开选项,请务必再次扫描页面或者打开图像,以应用所做的更 改。
选项对话框的 1. 扫描/打开选项卡有以下可用的选项:
已得图像的自动分析和 OCR ABBYY FineReader 可以自动分析和对图像进行 OCR 处理。如果希望禁用自动处理,则选择最后一项:
自动读取已获取的页面图像
当图像添加到 ABBYY FineReader 文档时,将自动分析图像并对其进行 OCR 处理。
自动分析已获取的页面图像
当图像添加到 ABBYY FineReader 文档时,将自动分析图像。OCR 需要手动启动。
不要自动读取和分析已获取页面的图像
当图像添加到 ABBYY FineReader 文档时,不会自动扫描图像或对其进行 OCR 处理。图像分析和 OCR 需要手动启动。
图像处理
更正图像扭曲
如果扫描的书籍或打开的图像来自数码相机,则选择该选项。ABBYY FineReader 会自动纠正歪斜的行。
检测页面方向
如果希望 ABBYY FineReader 自动检测页面方向,则选择该选项。
拆分双页
扫描对页时选择该选项。ABBYY FineReader 会自动将对页拆分为两个图像。
将彩色和灰度图像转换为黑白图像
如果不需要保留原始图像颜色,则选择该选项。ABBYY FineReader 会自动将彩色图像转换为需要硬盘空间较少的黑白图像。
反转图像颜色
如果源图像包含与暗背景相比较明亮的文本,则选择该选项。ABBYY FineReader 会自动反转图像以获得更佳的 OCR 质量。
用于扫描的扫描仪界面

字体太小

要获得最佳 OCR 效果,请用较高的分辨率扫描那些以很小字体打印的文档。
1. 单击扫描按钮。
2. 在对话框中指定所需分辨率。 根据所用扫描界面,会打开 ABBYY FineReader 扫描对话框或扫描仪驱动程序对话框。
16
ABBYY FineReader 9.0 用户指南
3. 开始扫描文档。
您可能希望在像素到像素模式(视图>缩放窗口>比例>像素到像素)的缩放窗口中比较用不同分辨率打开同一文档时
获得的图像。
源图像 建议分辨率
300 dpi 适合典型文本(以 10pt 或更大字体打印)
400–600 dpi 适合以较小字体(9pt 或更小字体)打印的文本

调节亮度

如果亮度设置错误,ABBYY FineReader 将在扫描时显示警告消息。以黑白模式扫描时可能也需要调节亮度设置。
要调节亮度:
1. 单击扫描按钮。
2. 在对话框中指定所需亮度。 根据所用扫描界面,会打开 ABBYY FineReader 扫描对话框或扫描仪驱动程序对话框。在大部分情况下,约 50% 的中等亮度值就足够了。
3. 开始扫描文档。
如果生成的图像含有太多“撕裂”或“粘合”的文字,可使用下表解除疑难。
图像显示 建议
该图像适合 OCR。
字符“被撕裂”或颜色非常淡
字符出现扭曲、重合或间隙被填充
降低亮度使图像变暗。
灰度扫描。将自动进行亮度调节。
增加亮度使图像变亮。
灰度扫描。将自动进行亮度调节。

调整图像分辨率

图像分辨率显示图像中可辨别的细节精度,以每英寸的点数 (
OCR 的最佳分辨率是 300 dpi。 重要!垂直和水平分辨率相同时,ABBYY FineReader 的 OCR 性能最好。
分辨率设置得很高(大于 600 dpi)并不会显著提高质量,还会使 OCR 过程变慢。低于 150 dpi 的分辨率值会影响 OCR 质量。 在以下情况中,您可能需要调整图像分辨率:
图像分辨率小于 200 dpi 或 大于 600 dpi
图像分辨率不标准。
例如,传真的分辨率可能是 204 x 96 dpi。
要调整分辨率:
1. 单击扫描按钮。
2. 在对话框中指定所需分辨率。 根据所用扫描界面,会打开 ABBYY FineReader 扫描对话框或扫描仪驱动程序对话框。
3. 扫描文档。
dpi
) 为单位。
17
ABBYY FineReader 9.0 用户指南
提示:还可在编辑图像对话框(页面>编辑页面图像…)中调整图像分辨率。

扫描对页

扫描书中的对页时,两个页面将显示为一个图像。参见示例图像。
要提高 OCR 质量,请将对页分成两个独立的图像。ABBYY FineReader 允许自动或手动分离对页图像。 要自动分离对页:
1. 选择工具>选项…,然后单击 1. 扫描/打开选项卡。
2. 在图像处理下选择拆分双页。
3. 扫描对页。
重要!如果图像包含中文或日语文字,则必须手动分离对页。
要手动分离对页:
1. 打开编辑图像对话框(页面>编辑页面图像…)。
2. 使用拆分(S)菜单中的选项和按钮分离图像。

矫直文本行

在扫描很厚的书籍时,靠近装订处的文本可能出现扭曲。同样地,用数码相机拍摄文本时,靠近装订处的文本也可能出 现扭曲。
要在扫描或打开图像时矫正图像歪斜:
1. 选择工具>选项(O)…并单击1. 扫描/打开 选项卡。
2. 确定已在图像处理下面选中 更正图像扭曲(C)。
3. 扫描或打开图像。
如果扫描图像时,禁用了更正图像扭曲(C) 选项,请执行以下操作矫正倾斜:
1. 选择页面>编辑页面图像…
2. 单击歪斜校正与矫直再单击矫直文本行。
注:矫直文本行可能需要一些时间。

编辑图像

如果扫描文档存在“噪声”、扭曲行或反转的颜色,可手动纠正这些缺陷。
要编辑图像:
1. 选择页面>编辑页面图像…
2. 在编辑图像对话框中使用图像编辑工具:
歪斜校正及矫直文本行
旋转图像
分离图像
修剪图像
反转图像
更改图像分辨率
18
ABBYY FineReader 9.0 用户指南
清除部分图像
3. 图像编辑完成后单击
关闭对话框。

拍摄文档

文档的拍摄需要技巧和经验。相机性能和拍摄条件也很重要。 注:有关相机设置的详细信息,请参见相机随附的文档。
拍摄前,请注意以下几点:
1. 确保整个页面都包含在取景框内。
2. 确保整个页面的照明分布均匀,没有暗区或阴影。
3. 根据需要矫直页面,使相机平行于文档平面,以便镜头对准所拍摄文本的中心。
以下主题概述了所需的相机规格和拍摄模式。 数码相机要求 最低要求
200 万像素的传感器
变焦镜头(手机和手持设备中常见的定焦相机生成的图像通常不适合 OCR)
推荐要求
500 万像素的传感器
闪光禁用功能
手动光圈控制或光圈优先模式
手动对焦
防抖系统,否则建议使用三角架
光学变焦
拍摄模式 照明 确保光线充足(最好采用日光)。人工照明时请使用两个光源,并将其按照一定位置摆放以避免出现阴影。
定位相机 如果可能,请使用三角架。使镜头平行于文档平面,并对准文本中心。 使用最大倍数的光学变焦时,相机与文档之间的距离必须能将整篇文档包含在拍摄框内。这个距离通常为 50 至 60 厘米。 闪光 只要可能,请关闭闪光以避免页面上出现刺眼的反光和轮廓清晰的阴影。光线不好时,请尝试在约 50 厘米处使用闪光,或最好借助其他光源。 重要!使用闪光拍摄打印在光面纸上的文档会产生严重的眩光。
19
ABBYY FineReader 9.0 用户指南
白平衡 如果您的相机有白平衡功能,可使用白纸来设定白平衡。否则,请选择最适合当前照明条件的平衡模式。
如何应对以下情况... 如果光线不充足 请尝试以下操作:
选择较大的光圈值
选择较大的 ISO 值以获得合适的灵敏度
如果相机无法自动锁定焦点,请使用手动对焦
图片太暗且对比度太低 请尝试借助其他光源。否则,请增加光圈值。 图片不够清晰 在光线不好或近距离拍摄时,自动对焦可能无法正常工作。光线不好时,请尝试借助其他光源。近距离拍摄文档时,请 尝试使用“微距”(或“特写”)模式。否则,如果可能,请手动对焦。 如果只是图片的一部分模糊不清,则请尝试降低光圈值。增大文档与相机之间的距离并使用最大变焦。对焦于图像中心 与边界之间的任何地方即可。 在光线不好的条件下采用自动模式拍摄时,相机会使用较慢的快门速度,以避免生成不清晰的照片。在这种情况下,请 尝试以下操作:
启用防抖系统(如果可用)。
即使使用了三脚架,也请使用“自动释放”以避免按下“快门释放”按钮而使相机抖动。
闪光在照片中央产生眩光 请关闭闪光。否则,请尝试增大拍摄距离。

减小图像大小

如果文档不包含彩色图片、彩色字体或背景,或者如果不需要在输出文档中保留颜色,请考虑以黑白模式保存图像以节 省磁盘空间。
1. 选择工具>选项…,然后单击 1. 扫描/打开选项卡。
2. 选择将彩色和灰度图像转换为黑白图像(O)。
3. 扫描文档或打开其中的图像。
4. 执行以下操作之一:
选择文件>保存图像…保存页面图像。
20
ABBYY FineReader 9.0 用户指南
选择文件>保存 FineReader 文档…保存 ABBYY FineReader 文档。

提高 OCR 质量的技巧

光学字符识别 (OCR) 过程可将文档图像转换成可编辑的文本文件。本章就选择最匹配文档结构的 OCR 选项和选择正确设置以处理非标准情况提供了一些建议。
OCR 选项
已识别文本中的错误字体或某些字符被替换成“?”或“□”
纸质文档中包含装饰(非标准)字体
纸质文档的复杂结构未出现在电子文档中
未检测到表格
表格单元格检测错误
未检测到图片
未检测到条码
竖排或反转文本识别不当
调整区域类型和区域边界

OCR 选项

选择正确的 OCR 选项对完美而快速地执行 OCR 操作至关重要。它不仅取决于纸质文档的类型和复杂程度,还取决于使用电子文档的方式。
OCR 选项都在选项对话框(工具>选项…)的 2. 读取选项卡上。 重要!ABBYY FineReader 会使用当前设置来自动识别文档中添加的页面。可在选项对话框(工具>选项…)的 1. 扫描/打开选项卡上关闭对新添加图像执行自动分析和 OCR。 注:如果在识别文档后更改 OCR 选项,请通过新选项再次运行 OCR 过程。
可在选项对话框的 2. 读取选项卡上选择以下选项:
读取模式 选择读取模式。 有两种读取模式:
完全读取
在该模式下,ABBYY FineReader 可分析并识别简单文档、布局复杂的文档、含有在彩色或光栅背景下打印的文本的文档和带有复杂表格(包括带 有白色网格线的表格和带有彩色单元格的表格)的文档。 注:与快速模式相比,完全模式用时更长,但识别质量更高。
快速读取
推荐用这种模式来处理拥有简单布局和高质量图像的长文档。
请选择最适合您需要的模式。
表格处理 选择如何处理表格。
仅查找含有明确分隔符的表格
选择该选项仅识别有明确分隔符的表格。
表格中每个单元格的一行文本选择该选项将文本的每一行放置在独立的表格单元格中。如果关闭该选项,表格单
元格中可能包含多行文本。
训练 默认条件下,禁用训练模式。选择训练用户模式选项在 ABBYY FineReader 对页面执行 OCR 操作时教其识别新字符。 训练模式适用于以下文本类型:
以装饰字体打印的文本
包含特殊字符(例如数学符号)的文本
打印质量欠佳的长文档(100 页以上)。
21
ABBYY FineReader 9.0 用户指南
可使用内置字符模式,亦可创建自己的字符模式。在训练下选择所需选项。

已识别文本中的错误字体或某些字符被替换成“?”或“□”

如果在文本窗口中发现文字被替换成“?”或“□”,请检查选择用于显示已识别文本的字体是否涵盖文本中用到的所 有字体。
无需再次启动 OCR 即可更改已识别文本中的字体。
要更改短文档中的字体:
1. 选择字符显示错误的文本片断。
2. 右键单击所选内容,从快捷菜单中选择属性。
3. 在文本属性面板中选择所需字体。 即可更改所选文本片段中的字体。
要更改使用了样式的长文档中的字体:
1. 从工具菜单中选择样式编辑器…。
2. 在样式编辑器对话框中选择所需样式并更改其字体。
3. 单击确定。 即可更改使用此样式的所有文本片段的字体。
重要!如果在其他计算机上识别或编辑 ABBYY FineReader 文档,该文档中的文本在您的计算机上可能无法正确显示。如果出现这种情况,请确保您计算机上安装了该文档用到的 所有字体。

纸质文档中包含装饰(非标准)字体

训练模式可提高含有装饰字体的文档或包含特殊字符(例如数学符号)文档的 OCR 质量。 在训练模式中,可创建一种对整篇文本执行 OCR 操作时使用的用户模式。
要使用一种模式来识别文档:
1. 打开选项对话框(工具>选项…),然后单击 2. 读取选项卡。
2. 在训练下选择训练用户模式选项。 注:如果选择使用内置模式,ABBYY FineReader 将同时使用用户模式及厂商预设模式执行 OCR 操作。
3. 单击模式编辑器…按钮。
4. 在模式编辑器对话框中选择所需模式,然后单击关闭。
5. 在 ABBYY FineReader 主窗口中单击读取按钮。

纸质文档的复杂结构未出现在电子文档中

ABBYY FineReader 在对文档执行 OCR 操作前,会先检测含有文本、图片、表格和条码的区域。程序将据此分析来确定识别区域和顺序。此信息还可用于重建 原始格式。 向 ABBYY FineReader 文档添加新页面时,程序会自动分析其格式。如果格式非常复杂,区域检测可能会出错。您只需调整这些区域,而无需 手动绘制所有区域。
要调整区域:
1. 使用图像窗口顶部工具栏中的区域工具来修改区域。
2. 重新启动 OCR 过程。

未检测到表格

表格区域对按表格形式排列的表格或文本片断进行标记。如果程序自动检测表格失败,请使用表格工具手动绘制一个围 绕表格的表格区域。
1. 在图像窗口顶部的工具栏中选择 工具,然后用鼠标围绕图像上的表格绘制一个矩形。
22
Loading...
+ 50 hidden pages