ABBYY FineReader 9.0
用
户
指南
© 2008 ABBYY. 保留所有权利。
本文档中的信息如有
本文档中描述的
中有特定许可,否则将本软件复制到任何介质都是违反俄罗斯联邦和国际法中“ 有关软件与数据库的法律保护”法的行
更,恕不另行通知,ABBYY 无须为此承担任何义务。
变
件将遵照许可协议提供。必须严格按照许可协议的条款使用或复制本软件。除非许可协议或保密
软
协议
为
。
未获得 ABBYY
的明书确面许可,不得以任何形式或任何工具(电子或其他)复制或传送该文档的任何部分用作任何目的。
© 2007 ABBYY.保留所有 权利。
© 1987-2003 Adobe Systems Incorporated.Adobe ® PDF Library 由 Adobe Systems Incorporated 授
权许
可。
Microsoft Reader Content Software Development Kit © 2004 Microsoft Corporation, One Microsoft Way,
Redmond, Washington 98052-6399 U.S.A. 保留所有
权
利。
Fonts Newton, Pragmatica, Courier © 2001 ParaType, Inc. Font OCR-v-GOST © 2003 ParaType, Inc.
© 1999-2000 Image Power, Inc. and the University of British Columbia, Canada.© 2001-2006 Michael David
Adams.保留所有
权
利。
ABBYY、 ABBYY 徽 标、ABBYY FineReader、ADRT 是 ABBYY Software Ltd 的注册商标或商标。
Adobe、 Adobe 徽
、 Adobe PDF 徽标和 Adobe PDF Library 是 Adobe Systems Incorporated
标
在美国和 /或其他国家或地区的注册商标或商标。
Microsoft、 Outlook、 Excel、 PowerPoint、 Windows 是 Microsoft Corporation
在美国和 /或其他国家或地区的注册商
标或商标
。
Unicode 是 Unicode, Inc. 的商 标。
所有其他商标归其各自所有者拥有。
ABBYY FineReader 9.0
用户指南
内容
ABBYY FineReader 入门 ...................................................... 4
什么是 ABBYY FineReader? ............................................................... 5
ABBYY FineReader 9.0 的新功能 ........................................................... 5
使用 ABBYY FineReader 9.0 .................................................. 7
ABBYY FineReader 9.0 渐进教程 ........................................................... 8
将纸质文档转换为 Microsoft Word 文档 ................................................... 10
将图像或 PDF 文档转换为 Microsoft Word 文档 ............................................ 10
将纸质文档转换为 Microsoft Excel 工作表 ................................................ 11
扫描纸质文档以创建 PDF 文档............................................................ 11
将数码照片转换为 Microsoft Word 文档 ................................................... 11
扫描和保存图像......................................................................... 11
从其他程序运行 ABBYY FineReader ........................................................ 12
提高 OCR 质量 ............................................................. 13
考虑纸质文档的某些特性................................................................. 14
获取图像............................................................................... 15
提高 OCR 质量的技巧.................................................................... 21
处理希伯来语、中文、日语和泰语的文字 ................................................... 26
检查和编辑已识别的文本................................................................. 30
保存结果............................................................................... 33
高级功能 .................................................................. 42
自定义工作区........................................................................... 43
使用区域模板........................................................................... 44
用户语言和语言组....................................................................... 45
ABBYY FineReader 文档 .................................................................. 46
识别及训练............................................................................. 48
ABBYY FineReader 自动化任务 ............................................................ 50
局域网中的分组工作..................................................................... 53
ABBYY Hot Folder & Scheduling .......................................................... 54
附录 ...................................................................... 59
支持的保存格式......................................................................... 60
支持的图像格式......................................................................... 60
正则表达式 ................................................................63
术语表................................................................................. 64
键盘快捷键............................................................................. 65
如何购买 ABBYY 产品 ....................................................... 70
ABBYY 办事处和技术支持联系方式......................................................... 70
技术支持 .................................................................. 72
3
ABBYY FineReader 9.0
用户指南
ABBYY FineReader 入门
本章概要介绍了 ABBYY FineReader 及其功能。
章节内容
● 什么是 ABBYY FineReader?
● ABBYY FineReader 9.0 的新功能
4
ABBYY FineReader 9.0
用户指南
什么是 ABBYY FineReader?
ABBYY FineReader
是一套光学字符识别(OCR)应用软件,能将打印文档、PDF文档及文档图像转换成可编辑的电子文件。
ABBYY FineReader 的功能
识别快速精确
● ABBYY FineReader 允许使用快速任务将打印文档和 PDF
文档转换成可编辑的电子文档,快速任务可轻松执行所有重要的扫描、转换和识别处理。
● ABBYY FineReader 实际上可识别用任意字体打印的文本,且在大多数情况不受打印缺陷的影响。
● 与 Microsoft Office 完美集成,能直接从 Microsoft Word、Microsoft Excel 或 Microsoft Outlook
中识别文档。
● ABBYY FineReader 可检测文件和 PDF 文档中的 Web
链接、电子邮件地址、页眉和页脚,并在生成的电子文本中重新创建相应项目。
操作便捷
● ABBYY FineReader 的界面简洁直观,以结果为导向,让您可以迅速掌握软件的主要功能。
● 软件界面的自定义程度很高,可通过更改窗口的大小与位置、选择颜色主题及自定义工具栏和其他界面元素等方式
来调整工作区。
● 灵活的设置让大型文件的处理更加快捷轻松。可选择仅识别所选页面而非整篇文档。还可控制输出文件的大小。
● 本用户指南将介绍这些功能并就非标准或复杂文档转换提供指导和提示。
ABBYY FineReader 9.0 的新功能
ABBYY FineReader 9.0 具有许多重要的改进和功能。某些功能(见下文)是 ABBYY FineReader 9.0 Corporate
Edition 或 ABBYY FineReader 9.0 Site License Edition 特有的功能。
智能文档处理
● OCR 专利技术
ABBYY FineReader 采用 ABBYY
最新的、划时代的自适应文档识别技术整体分析多页文档,而不是逐页分析。该技术可保持文档的逻辑结构,不仅保留
原始文本和列,还会保留页眉、页脚、字体、样式、脚注及表格和图片的编号标题。用户可轻松编辑和重新使用生成的
电子文档。
● 字体和样式匹配
对字体识别模块做了重大修改,现在字体识别模块可识别原始文档中使用的字体,并从计算机上的可用字体中查找最匹
配的字体。
● 多语言识别
新版本可以识别 184 种语言的文字。
轻松使用
● 文档语言自动检测
启动 OCR 前,FineReader 无需再手动选择文档的识别语言。程序使用高级算法来检测所用语言。
● 改进的界面
新的 FineReader 界面以结果为导向,这使得操作更简单更直观。可自定义窗口、工具栏、键盘快捷键以及扫描、OCR
和保存选项。新的交互式提示提高了用户学习的效率,帮助其更快获得操作结果。
● 新的快速任务
FineReader提供了大量预定义快速任务。允许将扫描的纸质文档、PDF文档、图像或数字照片快速转换成Microsoft
Word文档、Microsoft Excel工作表或PDF文件。单击鼠标即可启动任意快速任务:
– 从 快速任务窗口启动
– 从开始>所有程序>ABBYY FineReader 9.0 中启动
– 或从文件的快捷菜单中启动。
● 从其他应用程序中运行 OCR
ABBYY FineReader 9.0不仅支持从Microsoft Word中运行OCR,现在还支持从Microsoft Excel和Microsoft
Outlook中直接运行OCR。
5
ABBYY FineReader 9.0
用户指南
● 多核处理器支持
ABBYY FineReader 9.0
能充分发挥日益流行的多核处理器的性能。该技术允许用户在不降低系统速度的情况下同时执行多个文档处理步骤。
PDF/A、DjVu、DOCX 和 XLSX 支持
● PDF/A
现在能以 PDF/A 格式保存文档,这是档案室和图书馆中用于长期存储文档的一种常用格式。
● DjVu
ABBYY FineReader 能以流行的 DjVu 电子书格式从文件中提取文本,并以所选的可编辑格式保存文本。
● DOCX 和 XLSX
与 Microsoft Office 2007 集成,因此能以 DOCX 和 XLSX 格式保存已识别的文档。
专业功能
● 法律文本处理
ABBYY FineReader 9.0
能自动识别法律文档中的特殊元素和格式,且可自动识别法律文档并保留其原有属性,如合同的签名和诉讼文档的行号
。
● 符合 Section 508 标准
ABBYY FineReader 9.0 符合 Section 508
可访问性标准。软件的辅助功能包括自定义键盘快捷键、便于屏幕读者阅读的向导、操作结束时发出蜂鸣信号及根据屏
幕宽度自动缩放文本。
使用 ABBYY Hot Folder & Scheduling 处理电子邮件消息
(仅 ABBYY FineReader 9.0 Corporate Edition 和 ABBYY FineReader 9.0 Site License Edition 有此功能)
可指定哪些由 MFP 或传真发送至您电子邮件信箱的图像需要由 FineReader 自动处理。
Windows Vista 认证
ABBYY FineReader 9.0 经官方认证适用于 Microsoft Windows Vista 设备和软件。Windows Vista 认证徽标确保其与
Microsoft Windows Vista 操作系统的高级功能兼容。
6
ABBYY FineReader 9.0
用户指南
使用 ABBYY FineReader 9.0
本章将教您使用 ABBYY FineReader 9.0 获取纸质文档或 PDF 文档的可编辑电子版本。
章节内容
● ABBYY FineReader 9.0 渐进教程
● 将纸质文档转换为 Microsoft Word 文档
● 将图像或 PDF 文档转换为 Microsoft Word 文档
● 将纸质文档转换为 Microsoft Excel 工作表
● 扫描纸质文档以创建 PDF 文档
● 将数码照片转换为 Microsoft Word 文档
● 扫描和保存图像
● 从其他程序运行 ABBYY FineReader
7
ABBYY FineReader 9.0
用户指南
ABBYY FineReader 9.0 渐进教程
只需四个简单的步骤就可将纸质文档或 PDF 文档转换为可编辑的文件:
● 获取文档图像
● 执行 OCR
● 检查和编辑已识别的文本
● 将文档以可编辑的格式保存
下面,我们将详细介绍每一个步骤。
获取文档图像
ABBYY FineReader 需要文档的图像以便对其执行OCR 。可通过数种方法来获取图像。
● 扫描纸质文档
● 打开现有的图像文件或 PDF 文档
● 拍摄纸质文档
扫描纸质文档
1. 确认您的扫描仪已连接并已开启。
请参考扫描仪文档以确保其设置正确。请确保安装扫描仪随附的软件。某些型号的扫描仪必须在开启计算机之前先
开启。
2. 将文档面朝下放置在扫描仪上。
3. 在 ABBYY FineReader 中,单击扫描或从文件菜单中选择扫描页面…。
片刻之后,已扫描页面的图像将出现在 ABBYY FineReader 主窗口中。
提示:识别典型办公文档的最佳扫描分辨率为300dpi。
文档质量和选择的扫描选项会显著影响 OCR
的质量。由于识别质量差的图像会对识别可靠性带来反面影响,请调整以达到可能的最佳效果。
打开图像文件和 PDF 文档
对文档进行扫描或拍摄后,您就可在ABBYY
FineReader中打开生成的图像(有关所支持格式的完整列表,请参见支持的图像格式);或者以相同的方式打开PDF文
件。
● 在 ABBYY FineReader 中,单击打开或从文件菜单中选择打开 PDF 文件/图像…。
在打开图像对话框中,选择一个或多个图像。图像会在文档窗口中以缩略图形式显示。
● 在 Windows 资源管理器中,右键单击所需的图像,然后从快捷菜单中选择用 ABBYY FineReader 打开。
● 在 Microsoft Outlook 中,选择带有要打开的图像或 PDF 附件的电子邮件消息,然后单击工具栏上的
。在对话框中,选择一个文件。
● 在 Microsoft Outlook 或 Windows 资源管理器中,将所需的图像文件拖放到 ABBYY FineReader
主窗口中。图像会被添加到当前的 ABBYY FineReader 文档中。
注:PDF
文件的作者可能会限制对文件的访问。例如,作者可能会创建密码或限制某些功能,如提取文本和图片的功能。为了遵
守版权方面的规定,ABBYY FineReader 会在您打开此类文件时询问密码。
用数码相机拍摄文档
ABBYY FineReader 可对数码相机创建的图像执行 OCR。
1. 对文档进行拍照。
注: 为了成功执行 OCR 过程,需要具备高质量的照片。
2. 将照片保存到硬盘上。
3. 在 ABBYY FineReader 中,单击打开按钮或从文件菜单中选择打开 PDF 文件/图像…。
8
ABBYY FineReader 9.0
用户指南
光学字符识别 (OCR)
ABBYY FineReader 使用光学字符识别技术将文档图像转换为可编辑的文本。在执行 OCR
之前,程序会分析图像并检测含有文本、图片、表格和条码的区域。
当添加新页面到 ABBYY FineReader 文档时,程序会使用当前文档的设置自动对新内容执行 OCR。
提示:可在选项对话框(工具>选项…)的1. 扫描/打开选项卡上关闭“自动分析”和“对新添加图像执行 OCR”。
要获得最佳 OCR 质量,请选择优化 OCR 选项:识别语言、打印类型和读取模式。
如果您已手动绘制图像上的区域或已在选项对话框(工具>选项…)中更改了下列任何选项,则手动启动 OCR 过程:
● 文档选项卡上的文档语言
● 文档选项卡上的文档打印类型
● 2. 读取选项卡上的任何选项
● 高级选项卡上的字体匹配
要手动启动 OCR 过程:
● 单击图像窗口中的读取按钮,或
● 选择文档菜单上的读取文档
提示:单击读取按钮会对选定图像启动 OCR。要对所有文档页面执行
OCR,请单击按钮右侧的箭头,然后选择读取文档。
检查和编辑已识别的文本
已识别的文本会显示在文本窗口中,其中不确定的字符会突出显示。您可在文本窗口或检查拼写对话框中进行更正。
要查看不确定的字符:
1. 在文本窗口中,单击要查看的不确定字符。
ABBYY FineReader
会自动将图像窗口滚动到原始文档中的该位置。在缩放窗口中,将显示相应片段,并以矩形光标标示出不确定字符
。
2. 在文本窗口中进行必要的更改。
将已识别的文本同原始文档进行比较时,此方法特别方便。
ABBYY FineReader 提供内置的拼写检查器,可帮助更正不确定的字符(工具>检查拼写…)。
ABBYY FineReader 也允许您调整已识别文本的格式。
使用文本窗口顶部工具栏的按钮执行基本的格式操作。要更改文档样式,请右键单击文本窗口中的任意位置,然后从快
捷菜单中选择属性。
注:在执行 OCR 时,ABBYY FineReader
会自动检测文档中使用的样式。所有检测到的样式都显示在文本属性面板上(要使面板可见,右键单击文本窗口的任意
位置,然后从快捷菜单中选择属性)。对样式的调整将应用到整个文本的格式。当以 RTF、DOC、WordML 和 DOCX
格式保存时,ABBYY FineReader 会保留所有样式。
保存已识别的文本
FineReader可将已识别的文本保存到文件、发送到所需的应用程序、复制到剪贴板,或以任何支持的保存格式为附件通
过电子邮件发送。您可保存整个文档或仅保存选定页面。
重要! 注意在单击保存之前选择合适的保存选项。
要保存已识别的文本:
1. 在文本窗口中,单击保存按钮右侧的箭头,然后从菜单中选择所需命令。
2. 从文本菜单顶部的下拉列表中,选择:
● 文档保存格式
● 保存选项
● 精确副本
生成保持原稿格式的文档。
9
ABBYY FineReader 9.0
用户指南
建议对布局复杂的文档使用该选项,如宣传手册。但请注意,该选项限制了更改输出文档文本和格式的能力。
● 可编辑的副本
生成保持了原始格式和文本流的文档,并可轻松对其进行编辑。
● 带格式文本
保留字体、字体大小和段落,但不会保留页面上对象的准确位置或间距。将生成左对齐的文本。
(右对齐从右至左的文字。)
注:垂直文本将在该模式下更改为水平文本。
● 纯文本
不同于带格式文本 模式,该模式不会保留格式。
● 选项…
打开选项对话框上的3. 保存选项卡,其中提供其他适用于保存格式的选项。
重要! 根据您所选择的保存格式,可用的选项可能会有不同。
3. 单击保存按钮。
注: ABBYY FineReader 允许您保存原始图像以及已识别的文本。
将纸质文档转换为 Microsoft Word 文档
ABBYY FineReader 能让您在数分钟之内将纸质文档转换为 Word 文档。
重要!您的计算机上必须安装有 Microsoft Word,才可运行此快速任务。
1. 启动 ABBYY FineReader。
2. 在文档窗口中,检查所选识别语言是否与文档的语言相对应。
3. 在快速任务对话框中,选择扫描到 Microsoft Word 。
软件将使用当前的设置完成转换任务。
4. 片刻之后,将自动打开含有已识别文本的新Microsoft Word文档。
要更改程序设置,在运行此快速任务之前请作好任何必要的更改。
注: 您也可通过设置并手动运行每一个处理步骤来获取 Microsoft Word 文档。
提示: 当您安装 ABBYY FineReader 时,程序可集成在 Microsoft Office 应用程序中,以便让您在 Microsoft Word
中便可扫描并识别纸质文档。
将图像或 PDF 文档转换为 Microsoft Word 文档
PDF格式常用于通过电子邮件发送文档、网上发布文档及文档存档。ABBYY FineReader 能够将 PDF
文档转换为可编辑的 Microsoft Word 文件。
重要! 运行此快速任务需要在您的计算机上安装 Microsoft Word。
1. 启动 ABBYY FineReader。
2. 在文档窗口中,选择与您的文档语言相对应的识别语言。
3. 在快速任务对话框中,选择将 PDF/图像转换为 Microsoft Word。
4. 在打开图像对话框中,选择所需的文件。
软件将使用当前的设置完成转换任务。
注:如果 PDF 文档有密码保护,程序将要求输入有效的密码。
5. 片刻之后,将自动打开含有已识别文本的新 Microsoft Word 文档。
要更改某些程序设置,如保存选项,在运行将 PDF/图像转换为 Microsoft Word快速任务之前请作好任何必要的更改。
注:您也可通过设置并手动运行每一个处理步骤来创建 Microsoft Word 文档。
提示:当您安装 ABBYY FineReader 时,程序可集成在 Microsoft Office 应用程序中,以便让您在 Microsoft Word
中便可直接打开图像并转换 PDF 文档。
10
ABBYY FineReader 9.0
用户指南
将纸质文档转换为 Microsoft Excel 工作表
根据纸质文档重新手动创建工作表是一件费时费力的事情。ABBYY FineReader 能让您快速有效地将纸质表格转换为
Microsoft Excel 工作表。
重要! 您的计算机需安装 Microsoft Excel,才可运行此快速任务。
1. 启动 ABBYY FineReader。
2. 在文档窗口中,选择与您的文档语言相对应的识别语言。
3. 在快速任务对话框中,选择扫描到 Microsoft Excel 。
软件将使用当前设置开始转换过程。
4. 片刻之后,将自动打开含有已识别文本的新 Microsoft Excel 文档。
如果要更改某些程序设置(如保存选项),在运行扫描到 Microsoft Excel快速任务之前请作好任何必要的更改。
注: 您也可通过设置并手动运行每一个处理步骤来创建 Microsoft Excel 工作表。
提示: 当您安装 ABBYY FineReader 时,程序可集成在 Microsoft Office 应用程序中,以便让您在 Microsoft
Excel 中便可直接扫描并识别纸质文档。
扫描纸质文档以创建 PDF 文档
ABBYY FineReader 能让您将纸质文档转换为 PDF 文件。
重要!您的计算机上必须安装有 PDF 查看应用程序,才可运行此快速任务。
1. 启动 ABBYY FineReader。
2. 在文档窗口中,选择与您的文档语言相对应的识别语言。
3. 在快速任务对话框中,选择扫描到 PDF 。
软件将使用当前设置开始转换过程。
4. 片刻之后,将打开含有原稿文本的 PDF 文档。
要更改某些程序设置(如保存选项),在运行扫描到 PDF快速任务之前请作好任何必要的更改。
您也可通过设置并手动运行每一个处理步骤来创建 PDF 文档。
提示: 将已扫描的文档保存为 PDF 文件时,您可设置密码,以防在未授权的情况下打开、打印或编辑文档。
将数码照片转换为 Microsoft Word 文档
ABBYY FineReader 能让您将文档的数码照片转换为 Microsoft Word 文件。
重要!您的计算机上必须安装有 Microsoft Word,才可运行此快速任务。
1. 启动 ABBYY FineReader。
2. 在文档窗口中,选择与您的文档语言相对应的识别语言。
3. 在快速任务对话框中,选择将图片转换为 Microsoft Word。
4. 在打开对话框中,选择所需的照片。
软件将使用当前设置开始转换过程。
5. 片刻之后,将打开含有已识别文本的新 Microsoft Word 文档。
要更改程序设置(如保存选项),在运行将图片转换为 Microsoft Word快速任务之前请作好任何必要的更改。
注: 您也可通过设置并手动运行每一个处理步骤来创建 Microsoft Word 文档。
提示: 当您安装 ABBYY FineReader 时,程序可集成在 Microsoft Office 应用程序中,以便让您在 Microsoft Word
中便可直接打开并识别照片。
扫描和保存图像
ABBYY FineReader 允许您保存源图像以及已识别的文本。
1. 启动 ABBYY FineReader。
2. 在快速任务对话框中,选择扫描到图像文件。
将使用当前的程序设置开始图像创建过程。
11
ABBYY FineReader 9.0
用户指南
您也可手动获取和保存文档图像。
1. 扫描纸质文档 — 程序会将生成的图像保存到当前的文档中。
2. 在文件菜单中选择 保存图像…
从其他程序运行 ABBYY FineReader
当您安装 ABBYY FineReader 时,您可选择将程序与 Microsoft Office 应用程序和 Windows
资源管理器集成。程序将在 Microsoft Word、Microsoft Excel 和 Microsoft Outlook 工具栏上安装 ABBYY
FineReader 9.0 按钮,并将在 Windows 资源管理器的快捷菜单上添加用 ABBYY FineReader
打开菜单项。这项功能允许您使用常用的Microsoft
Office工具检查和编辑已识别的文本,或者直接从Windows资源管理器中用ABBYY FineReader打开图像和PDF文件。
要在 Microsoft Office 应用程序中对文档执行 OCR 操作:
1. 单击工具栏上的
2. 在对话框中,选择您所需的选项并单击开始。
此时将启动ABBYY FineReader,完成OCR后,在当前的Microsoft Office应用程序中打开已识别的文本。
1. 在 Windows 资源管理器中,右键单击所需文件。
2. 在快捷菜单上,选择用 ABBYY FineReader 打开命令。
注:仅在程序支持所选文件格式的情况下,该命令才会出现。
将启动 ABBYY FineReader,会将选定图像添加到新的 ABBYY FineReader 文档中。如果 ABBYY FineReader 9.0
已经在运行,会将图像添加到当前的 ABBYY FineReader 文档中。
如果 Microsoft Office 应用程序的工具栏上没有出现 ABBYY FineReader 按钮...
按钮。
● 右键单击工具栏,从快捷菜单中选择 ABBYY FineReader 9.0 菜单项。
如果快捷菜单中没有出现 ABBYY FineReader 9.0 菜单项,则在自定义安装过程中未将 ABBYY FineReader 与
Microsoft Office 应用程序集成。
要在安装后将 ABBYY FineReader 与 Microsoft Office 应用程序集成:
1. 转到开始>设置>控制面板,然后双击添加或删除程序。
注:在 Microsoft Windows Vista 中,该命令称作程序和功能。
2. 在已安装程序的列表中,选择 ABBYY FineReader 9.0 并单击更改。
3. 在自定义安装对话框中选择所需组件。
4. 遵照安装程序的说明。
12
ABBYY FineReader 9.0
用户指南
提高 OCR 质量
本章提供选择最佳扫描和OCR设置的实用建议,以得到最佳的非标准文档识别效果。
章节内容
● 考虑纸质文档的某些特性
● 获取图像
● 提高 OCR 质量的技巧
● 检查和编辑已识别的文本
● 保存结果
13
ABBYY FineReader 9.0
用户指南
考虑纸质文档的某些特性
OCR 质量在很大程度上取决于源图像质量。考虑以下因素,确定您是否能获得期望的扫描结果:
● 打印类型
生成打印文档时可能会采用不同设备,而其中一些设备(例如点阵打印机、打字机等)生成的文档很难识别。要获
得最佳效果,需选择正确的 OCR 选项。本部分就如何选择恰当的打印类型提供了建议。
● 打印质量
OCR 质量可能因“噪声”(有时出现在质量欠佳的文档中)而大打折扣。本部分就如何扫描这些文档提供了建议。
● 文档语言
一个文档可能包含用多种语言书写的文本。为了进行可靠的识别,程序需要知道使用的是哪种语言。本部分就如何
选择识别语言提供了建议。
打印类型
识别点阵打印机的草稿体文本或打字机生成的文本时,可以通过选择右侧的打印类型改进OCR质量。
对于多数文档,程序会自动正确检测打印类型(需要选中位于工具>选项…>文档中文档打印类型下的自动检测)。但也
可选取手动选择打印类型。
打字机生成的文本示例。所有文字的宽度相等(例如,比较“w”和“a”)。对于此类
文本,请选择打字机。
点阵打印机的草稿体文本示例。字符行由点组成。对于此类文本,请选择点阵打印机。
注:
● 完成识别后,重新启用自动检测选项识别正常文本。
● 识别打印的代码文本并输出时,请选择文档打印类型下的读取为带有空格的纯文本。
该模式将左缩进表示为空格,使每行成为单独的段落,原来的段落之间则用空行分开。这样,在以 TXT
格式保存结果时,便能在电子版本中保持纸质原件的外观。
打印质量
质量欠佳的文档,如有“噪声”(即无规则的黑点或斑纹)、模糊和不均匀的文字,或行歪斜和表格边界偏移,则可能
需要指定扫描设置。
显示示例...
传真 报纸
质量欠佳的文档最好采用灰度扫描。采用灰度扫描时,程序将自动选择最佳的亮度值。
灰度色彩模式会在扫描文本中保留文字的详细信息,以在识别质量欠佳的文档时达到最佳 OCR
效果。也可使用编辑图像对话框中的工具纠正某些打印缺陷。
14
ABBYY FineReader 9.0
用户指南
文档语言
ABBYY FineReader 可识别单语言和多语言(例如用两种语言书写)文档。对于多语言文档,必须选择多种识别语言。
从文档窗口的文档语言下拉列表中选择以下语言之一:
● 自动选择
ABBYY FineReader 将自动从用户自定义的语言列表中选择恰当的语言。要修改此列表:
1. 请选择更多语言…。
2. 在语言编辑器对话框中选择选项从以下列表中自动选择文档语言:。
3. 单击指定…按钮。
4. 在语言列表对话框中选择所需语言。
● 一种语言或多种语言的组合
选择一种语言或多种语言的组合。语言列表中包含了计算机上最常用的语言以及英语、德语和法语。
● 更多语言…如果您需要的语言未显示在列表里,请选择该选项。
在语言编辑器对话框中选择手动指定语言选项,然后选中相应对话框以选择所需语言。如果经常使用特定的语言组合,
则可为这几种语言新建一个组。
导致语言未出现在列表中的原因有如下几种:
1. 您的 ABBYY FineReader
副本购买自网上商店。该版本只包括最常用的界面和识别语言。要下载更多语言,请选择开始/程序/ABBYY
FineReader 9.0/下载更多语言,然后按照说明操作。
2. ABBYY FineReader 不支持该语言。
3. 该语言在自定义安装过程中被禁用。
安装其他识别语言:
1. 单击开始>设置>控制面板,然后双击添加或删除程序。
2. 在已安装程序的列表中,选择 ABBYY FineReader 9.0 并单击更改。
3. 在自定义安装对话框中选择所需语言。
4. 按照安装说明操作。
注:当程序提示选择目标文件夹时,请选择到已安装 ABBYY FineReader 的文件夹路径。
获取图像
OCR 质量主要取决于图像的质量,而图像质量在很大程度上又受文档扫描过程中所用扫描设置的影响。
● 选择扫描界面
关于通过 ABBYY FineReader 界面扫描和通过扫描仪驱动程序界面扫描以及两者之间如何切换的详细信息。
● 选择扫描选项
● 字体太小
● 调节亮度
● 调整图像分辨率
● 扫描对页
● 矫直文本行
● 拍摄文档
本部分将帮助您设置数码相机并拍摄适合 OCR 的文档图像。
● 减小图像大小
选择扫描界面
ABBYY FineReader 可通过两种方式与扫描仪通讯:
● 通过 ABBYY FineReader 界面
在这种情况下,从 ABBYY FineReader
对话框中选择扫描选项(包括分辨率、亮度和色彩模式)。此外,还可使用以下选项:
15
ABBYY FineReader 9.0
用户指南
● 在没有自动送纸器的扫描仪上扫描多页文档
● 双面扫描(如果扫描仪支持)
注:在使用某些型号的扫描仪时,可能无法使用使用 ABBYY FineReader 界面选项。
● 通过扫描仪的 TWAIN 或 WIA 驱动程序
在这种情况下,从扫描仪驱动程序提供的扫描界面中选择扫描选项。请参考扫描仪随附的技术文档了解扫描界面及其界
面元素的详细信息。
重要!请参考扫描仪文档以确保其设置正确。请确保安装扫描仪随附的软件。
默认情况下,使用 ABBYY FineReader 扫描界面。
模式切换十分简单:
1. 选择工具>选项…,然后单击 1. 扫描/打开选项卡。
2. 在扫描仪下选择使用 ABBYY FineReader 界面或使用本机界面。
选择扫描选项
ABBYY FineReader
支持选择页面扫描和图像打开选项,以防止诸如图像歪斜和页面方向错误之类的缺陷。此外,如果希望在识别前手动编
辑图像,可以禁用自动分析和 OCR。
可以在选项对话框(工具>选项…)的 1. 扫描/打开选项卡上选择扫描和打开选项。
重要!如果在扫描页面或者打开图像完成后更改扫描或打开选项,请务必再次扫描页面或者打开图像,以应用所做的更
改。
选项对话框的 1. 扫描/打开选项卡有以下可用的选项:
● 已得图像的自动分析和 OCR
ABBYY FineReader 可以自动分析和对图像进行 OCR 处理。如果希望禁用自动处理,则选择最后一项:
● 自动读取已获取的页面图像
当图像添加到 ABBYY FineReader 文档时,将自动分析图像并对其进行 OCR 处理。
● 自动分析已获取的页面图像
当图像添加到 ABBYY FineReader 文档时,将自动分析图像。OCR 需要手动启动。
● 不要自动读取和分析已获取页面的图像
当图像添加到 ABBYY FineReader 文档时,不会自动扫描图像或对其进行 OCR 处理。图像分析和 OCR
需要手动启动。
● 图像处理
● 更正图像扭曲
如果扫描的书籍或打开的图像来自数码相机,则选择该选项。ABBYY FineReader 会自动纠正歪斜的行。
● 检测页面方向
如果希望 ABBYY FineReader 自动检测页面方向,则选择该选项。
● 拆分双页
扫描对页时选择该选项。ABBYY FineReader 会自动将对页拆分为两个图像。
● 将彩色和灰度图像转换为黑白图像
如果不需要保留原始图像颜色,则选择该选项。ABBYY FineReader
会自动将彩色图像转换为需要硬盘空间较少的黑白图像。
● 反转图像颜色
如果源图像包含与暗背景相比较明亮的文本,则选择该选项。ABBYY FineReader 会自动反转图像以获得更佳的
OCR 质量。
● 用于扫描的扫描仪界面
字体太小
要获得最佳 OCR 效果,请用较高的分辨率扫描那些以很小字体打印的文档。
1. 单击扫描按钮。
2. 在对话框中指定所需分辨率。
根据所用扫描界面,会打开 ABBYY FineReader 扫描对话框或扫描仪驱动程序对话框。
16
ABBYY FineReader 9.0
用户指南
3. 开始扫描文档。
您可能希望在像素到像素 模式(视图>缩放窗口>比例>像素到像素)的缩放窗口中比较用不同分辨率打开同一文档时
获得的图像。
源图像 建议分辨率
300 dpi 适合典型文本(以 10pt 或更大字体打印)
400–600 dpi 适合以较小字体(9pt 或更小字体)打印的文本
调节亮度
如果亮度设置错误,ABBYY FineReader 将在扫描时显示警告消息。以黑白模式扫描时可能也需要调节亮度设置。
要调节亮度:
1. 单击扫描按钮。
2. 在对话框中指定所需亮度。
根据所用扫描界面,会打开 ABBYY FineReader 扫描对话框或扫描仪驱动程序对话框。在大部分情况下,约 50%
的中等亮度值就足够了。
3. 开始扫描文档。
如果生成的图像含有太多“撕裂”或“粘合”的文字,可使用下表解除疑难。
图像显示 建议
该图像适合 OCR。
字符“被撕裂”或颜色非常淡
字符出现扭曲、重合或间隙被填充
● 降低亮度使图像变暗。
● 灰度扫描。将自动进行亮度调节。
● 增加亮度使图像变亮。
● 灰度扫描。将自动进行亮度调节。
调整图像分辨率
图像分辨率显示图像中可辨别的细节精度,以每英寸的点数 (
OCR 的最佳分辨率是 300 dpi。
重要!垂直和水平分辨率相同时,ABBYY FineReader 的 OCR 性能最好。
分辨率设置得很高(大于 600 dpi)并不会显著提高质量,还会使 OCR 过程变慢。低于 150 dpi 的分辨率值会影响
OCR 质量。
在以下情况中,您可能需要调整图像分辨率:
● 图像分辨率小于 200 dpi 或 大于 600 dpi
● 图像分辨率不标准。
例如,传真的分辨率可能是 204 x 96 dpi。
要调整分辨率:
1. 单击扫描按钮。
2. 在对话框中指定所需分辨率。
根据所用扫描界面,会打开 ABBYY FineReader 扫描对话框或扫描仪驱动程序对话框。
3. 扫描文档。
dpi
) 为单位。
17
ABBYY FineReader 9.0
用户指南
提示:还可在编辑图像对话框(页面>编辑页面图像…)中调整图像分辨率。
扫描对页
扫描书中的对页时,两个页面将显示为一个图像。参见示例图像。
要提高 OCR 质量,请将对页分成两个独立的图像。ABBYY FineReader 允许自动或手动分离对页图像。
要自动分离对页:
1. 选择工具>选项…,然后单击 1. 扫描/打开选项卡。
2. 在图像处理下选择拆分双页。
3. 扫描对页。
重要!如果图像包含中文或日语文字,则必须手动分离对页。
要手动分离对页:
1. 打开编辑图像对话框(页面>编辑页面图像…)。
2. 使用拆分(S)菜单中的选项和按钮分离图像。
矫直文本行
在扫描很厚的书籍时,靠近装订处的文本可能出现扭曲。同样地,用数码相机拍摄文本时,靠近装订处的文本也可能出
现扭曲。
要在扫描或打开图像时矫正图像歪斜:
1. 选择工具>选项(O)…并单击1. 扫描/打开 选项卡。
2. 确定已在图像处理下面选中 更正图像扭曲(C)。
3. 扫描或打开图像。
如果扫描图像时,禁用了更正图像扭曲(C) 选项,请执行以下操作矫正倾斜:
1. 选择页面>编辑页面图像…
2. 单击歪斜校正与矫直再单击矫直文本行。
注:矫直文本行可能需要一些时间。
编辑图像
如果扫描文档存在“噪声”、扭曲行或反转的颜色,可手动纠正这些缺陷。
要编辑图像:
1. 选择页面>编辑页面图像…
2. 在编辑图像对话框中使用图像编辑工具:
● 歪斜校正及矫直文本行
● 旋转图像
● 分离图像
● 修剪图像
● 反转图像
● 更改图像分辨率
18
ABBYY FineReader 9.0
用户指南
● 清除部分图像
3. 图像编辑完成后单击
关闭对话框。
拍摄文档
文档的拍摄需要技巧和经验。相机性能和拍摄条件也很重要。
注:有关相机设置的详细信息,请参见相机随附的文档。
拍摄前,请注意以下几点:
1. 确保整个页面都包含在取景框内。
2. 确保整个页面的照明分布均匀,没有暗区或阴影。
3. 根据需要矫直页面,使相机平行于文档平面,以便镜头对准所拍摄文本的中心。
以下主题概述了所需的相机规格和拍摄模式。
数码相机要求
最低要求
● 200 万像素的传感器
● 变焦镜头(手机和手持设备中常见的定焦相机生成的图像通常不适合 OCR)
推荐要求
● 500 万像素的传感器
● 闪光禁用功能
● 手动光圈控制或光圈优先模式
● 手动对焦
● 防抖系统,否则建议使用三角架
● 光学变焦
拍摄模式
照明
确保光线充足(最好采用日光)。人工照明时请使用两个光源,并将其按照一定位置摆放以避免出现阴影。
定位相机
如果可能,请使用三角架。使镜头平行于文档平面,并对准文本中心。
使用最大倍数的光学变焦时,相机与文档之间的距离必须能将整篇文档包含在拍摄框内。这个距离通常为 50 至 60
厘米。
闪光
只要可能,请关闭闪光以避免页面上出现刺眼的反光和轮廓清晰的阴影。光线不好时,请尝试在约 50
厘米处使用闪光,或最好借助其他光源。
重要!使用闪光拍摄打印在光面纸上的文档会产生严重的眩光。
19
ABBYY FineReader 9.0
用户指南
白平衡
如果您的相机有白平衡功能,可使用白纸来设定白平衡。否则,请选择最适合当前照明条件的平衡模式。
如何应对以下情况...
如果光线不充足
请尝试以下操作:
● 选择较大的光圈值
● 选择较大的 ISO 值以获得合适的灵敏度
● 如果相机无法自动锁定焦点,请使用手动对焦
图片太暗且对比度太低
请尝试借助其他光源。否则,请增加光圈值。
图片不够清晰
在光线不好或近距离拍摄时,自动对焦可能无法正常工作。光线不好时,请尝试借助其他光源。近距离拍摄文档时,请
尝试使用“微距”(或“特写”)模式。否则,如果可能,请手动对焦。
如果只是图片的一部分模糊不清,则请尝试降低光圈值。增大文档与相机之间的距离并使用最大变焦。对焦于图像中心
与边界之间的任何地方即可。
在光线不好的条件下采用自动模式拍摄时,相机会使用较慢的快门速度,以避免生成不清晰的照片。在这种情况下,请
尝试以下操作:
● 启用防抖系统(如果可用)。
● 即使使用了三脚架,也请使用“自动释放”以避免按下“快门释放”按钮而使相机抖动。
闪光在照片中央产生眩光
请关闭闪光。否则,请尝试增大拍摄距离。
减小图像大小
如果文档不包含彩色图片、彩色字体或背景,或者如果不需要在输出文档中保留颜色,请考虑以黑白模式保存图像以节
省磁盘空间。
1. 选择工具>选项…,然后单击 1. 扫描/打开选项卡。
2. 选择将彩色和灰度图像转换为黑白图像(O)。
3. 扫描文档或打开其中的图像。
4. 执行以下操作之一:
● 选择文件>保存图像…保存页面图像。
20
ABBYY FineReader 9.0
用户指南
● 选择文件>保存 FineReader 文档…保存 ABBYY FineReader 文档。
提高 OCR 质量的技巧
光学字符识别 (OCR) 过程可将文档图像转换成可编辑的文本文件。本章就选择最匹配文档结构的 OCR
选项和选择正确设置以处理非标准情况提供了一些建议。
● OCR 选项
● 已识别文本中的错误字体或某些字符被替换成“?”或“□”
● 纸质文档中包含装饰(非标准)字体
● 纸质文档的复杂结构未出现在电子文档中
● 未检测到表格
● 表格单元格检测错误
● 未检测到图片
● 未检测到条码
● 竖排或反转文本识别不当
● 调整区域类型和区域边界
OCR 选项
选择正确的 OCR 选项对完美而快速地执行 OCR
操作至关重要。它不仅取决于纸质文档的类型和复杂程度,还取决于使用电子文档的方式。
OCR 选项都在选项对话框(工具>选项…)的 2. 读取选项卡上。
重要!ABBYY FineReader 会使用当前设置来自动识别文档中添加的页面。可在选项对话框(工具>选项…)的 1.
扫描/打开选项卡上关闭对新添加图像执行自动分析和 OCR。
注:如果在识别文档后更改 OCR 选项,请通过新选项再次运行 OCR 过程。
可在选项对话框的 2. 读取选项卡上选择以下选项:
● 读取模式
选择读取模式。
有两种读取模式:
● 完全读取
在该模式下,ABBYY FineReader
可分析并识别简单文档、布局复杂的文档、含有在彩色或光栅背景下打印的文本的文档和带有复杂表格(包括带
有白色网格线的表格和带有彩色单元格的表格)的文档。
注:与快速模式相比,完全模式用时更长,但识别质量更高。
● 快速读取
推荐用这种模式来处理拥有简单布局和高质量图像的长文档。
请选择最适合您需要的模式。
● 表格处理
选择如何处理表格。
● 仅查找含有明确分隔符的表格
选择该选项仅识别有明确分隔符的表格。
● 表格中每个单元格的一行文本选择该选项将文本的每一行放置在独立的表格单元格中。如果关闭该选项,表格单
元格中可能包含多行文本。
● 训练
默认条件下,禁用训练模式。选择训练用户模式选项在 ABBYY FineReader 对页面执行 OCR
操作时教其识别新字符。
训练模式适用于以下文本类型:
● 以装饰字体打印的文本
● 包含特殊字符(例如数学符号)的文本
● 打印质量欠佳的长文档(100 页以上)。
21
ABBYY FineReader 9.0
用户指南
可使用内置字符模式,亦可创建自己的字符模式。在训练下选择所需选项。
已识别文本中的错误字体或某些字符被替换成“?”或“□”
如果在文本窗口中发现文字被替换成“?”或“□”,请检查选择用于显示已识别文本的字体是否涵盖文本中用到的所
有字体。
无需再次启动 OCR 即可更改已识别文本中的字体。
要更改短文档中的字体:
1. 选择字符显示错误的文本片断。
2. 右键单击所选内容,从快捷菜单中选择属性。
3. 在文本属性面板中选择所需字体。
即可更改所选文本片段中的字体。
要更改使用了样式的长文档中的字体:
1. 从工具菜单中选择样式编辑器…。
2. 在样式编辑器对话框中选择所需样式并更改其字体。
3. 单击确定。
即可更改使用此样式的所有文本片段的字体。
重要!如果在其他计算机上识别或编辑 ABBYY FineReader
文档,该文档中的文本在您的计算机上可能无法正确显示。如果出现这种情况,请确保您计算机上安装了该文档用到的
所有字体。
纸质文档中包含装饰(非标准)字体
训练模式可提高含有装饰字体的文档或包含特殊字符(例如数学符号)文档的 OCR 质量。
在训练模式中,可创建一种对整篇文本执行 OCR 操作时使用的用户模式。
要使用一种模式来识别文档:
1. 打开选项对话框(工具>选项…),然后单击 2. 读取选项卡。
2. 在训练下选择训练用户模式选项。
注:如果选择使用内置模式,ABBYY FineReader 将同时使用用户模式及厂商预设模式执行 OCR 操作。
3. 单击模式编辑器…按钮。
4. 在模式编辑器对话框中选择所需模式,然后单击关闭。
5. 在 ABBYY FineReader 主窗口中单击读取按钮。
纸质文档的复杂结构未出现在电子文档中
ABBYY FineReader 在对文档执行 OCR
操作前,会先检测含有文本、图片、表格和条码的区域。程序将据此分析来确定识别区域和顺序。此信息还可用于重建
原始格式。
向 ABBYY FineReader
文档添加新页面时,程序会自动分析其格式。如果格式非常复杂,区域检测可能会出错。您只需调整这些区域,而无需
手动绘制所有区域。
要调整区域:
1. 使用图像窗口顶部工具栏中的区域工具来修改区域。
2. 重新启动 OCR 过程。
未检测到表格
表格区域对按表格形式排列的表格或文本片断进行标记。如果程序自动检测表格失败,请使用表格工具手动绘制一个围
绕表格的表格区域。
1. 在图像窗口顶部的工具栏中选择 工具,然后用鼠标围绕图像上的表格绘制一个矩形。
22
ABBYY FineReader 9.0
用户指南
2. 在矩形内单击右键,并从快捷菜单中选择分析表格结构。如有需要,请调整结果。
3. 重新启动 OCR 过程。
可将任意区域的类型更改为表格:在区域内单击右键,并选择更改区域类型>表格。
表格单元格检测错误
如果ABBYY FineReader错误检测了表格中的行与列,您可手动调整自动分析结果并重新运行OCR。复杂表格示例...
要调整表格区域可使用:
● 图像窗口中的工具
● 可向表格添加或删除列与行。在图像窗口顶部的工具栏中选择 、 或 。
● 如果表格单元格中只含有图片,在区域属性面板(右键单击区域并选择区域属性可显示此面板)中选择将选定
单元格视为图片。
如果单元格中含有文本和图片,则为其中的图片单独绘制一个区域。
● 快捷菜单命令
右键单击所需表格区域并从快捷菜单中选择:
● 分析表格结构可自动检测并绘制表格中的竖排行和横排行。如有需要,请使用图像窗口工具栏中的工具对行进
行调整。
● 合并单元格、拆分单元格或合并行可合并或拆分所选单元格。
● 选项对话框
要将文本的每行标记为独立的表格单元格:
1. 选择工具>选项…,单击 2. 读取选项卡。
2. 在表格处理下选择表格中每个单元格的一行文本(O)。
3. 重新启动 OCR 过程。
注:如果表格单元格中含有竖排文本,则还需调整自动表格分析的结果。
未检测到图片
图片区域标识文档中所包含的图片。也可使用图片区域选择任何要作为图片处理的文本片断(ABBYY FineReader
不会对这些区域执行 OCR 操作)。如果程序自动检测图片失败,请使用图片工具手动绘制一个围绕图片的图片区域。
1. 在图像窗口顶部的工具栏中选择 工具,然后用鼠标围绕图像上的图片绘制一个矩形。
2. 重新启动 OCR 过程。
可在区域内单击右键选择更改区域类型>图片将任意区域的类型更改为图片。
23
ABBYY FineReader 9.0
用户指南
未检测条码
条码区域标识文档中所包含的条码。要使条码显示为字母和数字序列而非图片,请选中条码然后将区域类型更改为条码
。
要让 ABBYY FineReader 检测条码:
1. 选择工具>选项…,然后单击高级选项卡。
2. 确保在读取下选中查找条码,单击确定关闭对话框。
3. 激活图像窗口。
4. 按住 CTRL+SHIFT+ALT 按钮围绕图像的条码绘制一个矩形区域。
5. 单击读取启动 OCR 过程。
ABBYY FineReader 9.0 支持的条码类型...
Code 3 of 9 EAN 8 Postnet
Check Code 3 of 9 EAN 13 Industrial 2 of 5
Code 3 of 9 without
asterisk
Codabar Interleaved 2 of 5 UPC–A
Code 93 Check Interleaved 2
Code 128 Matrix 2 of 5 PDF417
IATA 2 of 5 UCC–128
of 5
UPC–E
竖排或反转文本识别不当
如果检测到的已识别文本片断方向错误,或片断中的文本反转(即在深色背景上打印出明亮的文本),表示片断中可能
包含大量错误。
要解决此问题:
1. 在图像窗口中选择含有竖排区域或反转文本的表格单元格。
2. 在区域属性面板(在区域内单击右键并选择区域属性可显示该面板)上的图像窗口中选择:
● 方向:下拉列表中的竖排(自上而下)或竖排(自下而上)
或
● 反向:下拉列表中的反转
3. 重新启动 OCR 过程。
调整区域类型和区域边界
ABBYY FineReader 对文档执行 OCR
前,会先检测含有文本、图片、表格和条码的区域。程序将据此分析来确定识别区域和顺序,并重建原始格式。不同类
型的边界区域以不同颜色区分。
要更改区域边界的颜色:
1. 选择工具>选项…,然后单击视图选项卡。
2. 在外观下选择区域类型,然后单击颜色旁边的颜色矩形打开调色板。
当前所选区域(被称为活动区域)的边界为粗体。可使用选项卡键浏览这些区域。对每个区域进行编号,这些编号决定
浏览顺序。
如果某个区域的文本超出了其边界(编辑已识别的文本时可能出现这种情况),非活动区域边界外的文本可能不会显示
在屏幕上。区域边界上的红色标记用于警示。区域一旦激活,其边界将扩展并使整篇文本显示在屏幕中。
区域调整工具位于图像窗口顶部的工具栏。
重要!调整完区域后,请重新启动 OCR 过程。
创建新区域
1. 从图像窗口顶部的工具栏中选择工具:
绘制识别区域
24
ABBYY FineReader 9.0
用户指南
绘制文本区域
绘制图片区域
绘制表格区域
2. 用鼠标围绕区域绘制一个矩形。
还可使用以下快捷键来绘制区域而无需先选择对应工具:
● CTRL+SHIFT 绘制文本区域
● ALT+SHIFT 绘制图片区域
● CTRL+ALT 绘制表格区域
● CTRL+SHIFT+ALT 绘制条码区域
要更改区域类型,请右键单击该区域,选择更改区域类型,再从快捷菜单中选择所需类型。
调整区域边界
1. 单击区域边界并按住鼠标左键。鼠标指针将变为双箭头。
2. 沿所需方向拖动指针。
3. 松开鼠标按键。
注:单击区域一角可同时移动区域的水平和垂直边界。
添加/删除部分区域
1. 选择 / 工具。
2. 将鼠标指针置于区域内,绘制一个矩形。松开鼠标即可从向区域添加或从其中删除该矩形部分。
3. 如有需要,请调整区域边界。
注:
4. 无法使用这些工具来添加/删除表格区域中的部分。
5. 可通过添加新节点(分割点)来更改区域边界。用鼠标以任意方向移动分割的边界部分。要添加新节点,请按
CTRL+SHIFT,将鼠标指针放在需要新节点的位置(指针会变成十字形)并单击边界。
6. ABBYY FineReader 会限制区域的形状。要成功识别,必须保证区域内的文本行未被破坏。为保证这些条件,ABBYY
FineReader 在添加或删除区域的部分时会自动纠正区域边界。程序还禁止涉及移动区域边界组成部分的操作。
选择一个或多个区域
● 选择 、 或 工具,在按住 CTRL 按钮的同时单击所需区域。再次单击区域可取消选择。
移动区域
● 选择所需区域,在按住 CTRL 按钮的同时将该区域移至所需位置。
为区域重新编号
1. 选择 工具。
2. 按所需顺序单击区域。区域内容将按同样的顺序显示在输出文本中。
注:不管文本的方向如何,已自动从左至右对区域进行了编号。
删除区域
要删除区域:
● 选择 工具并单击要删除的区域,或
● 右键单击该区域并从快捷菜单中选择删除区域,或
● 选择要删除的区域并按 DEL
要删除所有区域:
● 右键单击图像窗口中的任意位置,然后在快捷菜单中选择删除所有区域和文本。
重要!如要删除之前已识别的区域,文本窗口中的关联文本将被一并删除。
更改文本方向
● 在区域属性面板(右键单击区域并选择区域属性可显示此面板)上从方向:下拉列表中选择所需文本方向。
25
ABBYY FineReader 9.0
用户指南
超链接未突出显示
要启用超链接突出显示功能:
1. 选择工具>选项(O)…,然后单击高级选项卡。
2. 选择突出显示超链接(H)选项。
3. 重新启动 OCR 过程。
有关编辑超链接的信息,请参阅编辑超链接。
处理希伯来语、中文、日语和泰语的文字
ABBYY FineReader
现在可识别以希伯来语、日语、中文和泰语书写的文字。对于上述语言的文字,我们建议您利用手动分析和 OCR
模式。您还需要进行如下操作:
● 在您的系统中安装这些语言
● 安装其他系统字体
以下章节对识别希伯来语、日语、中文和泰语文字进行了说明:
● 未在“文本”窗口中显示的象形文字
● 禁用自动图像处理
● 识别以多种语言书写的文档
● 更改已识别文字的方向
安装其他语言
要识别以日语、中文、泰语或希伯来语书写的文字,您需要安装这些语言。
注:Microsoft Windows Vista 在默认情况下即支持这些语言。
要在 Microsoft Windows XP 中安装新语言:
1. 在任务栏上单击启动。
2. 选择控制面板>区域和语言选项。
3. 在语言选项卡上选择:
● 对于希伯来语和泰语,选择为复杂文字和从右到左的语言安装文件(包括泰文)
● 对于日语、中文和泰语,选择为东亚语言安装文件。
4. 单击确定。
要在 Microsoft Windows 2000 中安装新语言:
1. 在任务栏上单击启动。
2. 选择控制面板>区域选项。
3. 单击常规选项卡。
4. 在系统的语言设置下,选择要安装的语言。
5. 单击应用。
建议的字体
下表列出了用于处理希伯来语、泰语、中文和日语文字的建议字体。
26
ABBYY FineReader 9.0
用户指南
OCR 语言 建议的字体
希伯来语 Arial™ Unicode™ MS*
泰语 Arial™ Unicode™ MS*
Aharoni
David
Levenim mt
Miriam
Narkisim
Rod
汉语(中华人民共和国),
汉语(中国台湾省
日语
* 此种字体在 Microsoft Windows XP、Microsoft Office 2000 或更高的版本中均有安装。
Arial™ Unicode™ MS*
宋体
例如:宋体(方正超大字符集)、宋体-18030、新细明体。
Simhei
幼圆
PMingLiU
MingLiU
Ming(针对ISO10646)
华文宋体
禁用自动图像处理
默认情况下,添加到 ABBYY FineReader
文档中的任何页面都可被自动识别。但是,如果文档中含有以希伯来语、中文、日语或泰语书写的文字,我们建议您禁
用自动分析和 OCR,并且手动执行这些操作。
有关详细信息,请参阅识别以多种语言书写的文档。
要禁用自动分析和 OCR:
1. 选择工具>选项(O)…,然后单击 1. 扫描/打开选项卡。
2. 选择不处理获取的页面图像。
27
ABBYY FineReader 9.0
用户指南
3. 单击确定。
识别以多种语言书写的文档
下面的说明可帮助您识别以英语和中文书写的文档。如果文档使用其他的语言组合, 则在步骤 2 时选择相应的语言。
1. 要禁用自动分析和 OCR。
2. 从文档语言下拉列表中选择“中文”和“英语”。
3. 单击扫描或打开,以将新页面添加到 ABBYY FineReader 文档中。
重要!扫描时,请确保页面正确位于扫描仪玻璃板的中心。如果过于倾斜,则文字可能会被错误识别。
4. 使用图像窗口顶部工具栏上的工具来手动拖动图像区域。
注:对于结构更简单的文档,可以通过单击
检查该区域。如果对结果不满意,请手动调整区域。
5. 如果图像区域中的文字全部以一种语言书写:
● 选择这些区域。
● 在区域属性面板中,请选择文本区域的语言(中文或英语)。
重要!可以仅为同一类型的区域指定一种语言。如果同时选择文本和表格区域,则无法为其指定一种语言。
(分析)或按 Ctrl+E 来使 ABBYY FineReader
28
ABBYY FineReader 9.0
用户指南
● 需要时,可通过选择方向下拉列表中的选项来指定文本方向。
6. 单击读取按钮。
未在“文本”窗口中显示的象形文字
如果文本窗口中的象形文字无法正常显示,则表明您可能选择了纯文本模式。
要更改纯文本模式下使用的字体:
1. 选择工具>选项(O)…,然后单击视图选项卡。
2. 在用于显示纯文本的字体:下拉菜单中,选择 Arial Unicode MS。
3. 单击确定。
如果此操作不起作用,请参阅已识别文本中的错误字体或某些字符被替换成“?”或“□”一节。
更改已识别文字的方向
ABBYY FineReader 在执行 OCR 时自动检测文本方向。不过,也可手动指定文本方向。
1. 激活文本窗口
2. 选择所需的段落。
3. 单击
29
ABBYY FineReader 9.0
用户指南
检查和编辑已识别的文本
完成 OCR 过程后,文本窗口中即会显示已识别文本以便进行查看与编辑。本部分为您提供处理已识别文本的信息。
● 在文本窗口中检查文本
● 在检查拼写对话框中检查文本
● 用户词典:添加和删除单词
● 使用样式
● 编辑超链接
● 编辑表格
● 编辑页眉、页脚和脚注
在文本窗口中检查文本
您可在文本窗口中检查和编辑已识别文本。文本格式工具和保存选项位于文本窗口顶部的工具栏上。
要编辑识别结果,请从以下位置选择工具:
● 文本窗口顶部的工具栏上,或
● 文本窗口底部的文本属性面板中(右键单击窗口中的任意位置,并从快捷菜单中选择属性以显示面板)
您可使用
如果没有突出显示不确定字符,请单击 .
或 按钮快速跳到下一或上一不确定字符。
检查拼写
您可从检查拼写对话框(工具>检查拼写…)中检查带有不确定字符的单词。
30
ABBYY FineReader 9.0
用户指南
该对话框中,您可选择在当前位置或所有出现的位置应用(或拒绝)程序所建议的更正项。
● 单击忽略以跳过该单词而不做更改。
将会去除突出显示。
● 单击替换将单词替换为某一建议更正项。
● 单击添加…将选定单词添加到词典中。
当下次使用时,该词将不会被视为错误。
提示:要自定义拼写检查,请单击检查拼写对话框中的选项…按钮。
拼写检查不适用于中文、日语和韩语文字。但是,程序会为某些不确定的字符建议与之外形相似的字符。
31
ABBYY FineReader 9.0
用户指南
用户词典:添加和删除单词
如果文本内包含许多特殊术语、缩写与专有名称,将这些词汇添加到用户词典中可提高 OCR
质量。对于每个添加的单词,ABBYY FineReader
会生成所有可能的单词形式,以便程序能够对其多种形式(复数、动词等)进行可靠的识别。
要在检查拼写时将单词添加到词典:
1. 在检查拼写对话框中,单击添加…按钮。
2. 在主要形式:对话框中输入以下信息:
● 词性(名词、形容词、动词、无变形)
● 如果单词始终大写,请选择句首字母大写菜单项
● 单词的主要形式
3. 单击确定。将打开创建词形变化表对话框。
ABBYY FineReader
会向您询问单词的可能形式,以便构建新单词的词形变化表。单击是或否来回答这些问题。如果回答错误,单击重
新(A)按钮,ABBYY FineReader 就会重复该问题。已创建的词形变化表会显示在词形变化表对话框中。
4. 重要!
仅可为以下列语言添加的单词创建词形变化表:英语、西班牙语、意大利语、德语(旧的和新的拼写规则)、俄语
、乌克兰语及法语。
添加英语单词时,您可以选择输入单词的原形,而不创建词形变化表。在高级选项卡中,单击拼写检查器设置…并选择
跳过单词词形的提示(仅限英语词典)。
要在查看词典时添加或删除单词:
1. 从工具菜单中,选择查看词典…。
2. 在选择词典对话框中选择所需语种,然后单击查看…。
3. 在词典对话框中,键入单词并单击添加…,或选择单词并单击删除。
如果所需的词语已存在于词典中,程序将会通知您。这时您可查看该词的词形变化表。如果词形变化表不正确,可单击
添加单词对话框中的添加…按钮来创建新的词形变化表。
您可导入在先前版本的 ABBYY FineReader(支持 6.0、7.0 与 8.0 版本)中所创建的用户词典。
1. 从工具菜单中,选择查看词典…,然后选择需要的语言并单击查看…。
2. 在词典对话框中,单击导入…按钮并选择想要导入的词典文件(文件必须具有 *.pmd、*.txt 或 *.dic 扩展名)。
使用样式
ABBYY FineReader
允许您创建和编辑文本的样式。在样式编辑器中,您可以创建一个指定组来简述一组格式参数。然后,您可使用已创建
样式来快速调整文本窗口中已识别文本的格式。
要对选定文本片段应用样式:
1. 在文本窗口中,选择所需的文本片段。
2. 右键单击所选内容,从快捷菜单中选择 属性。
3. 在文本属性面板中,选择所需样式。
注:当以 RTF、DOC、WordML 和 DOCX 格式保存已识别文本时,程序会保留所有样式。
要创建、编辑、查看或删除样式:
1. 从工具菜单中,选择样式编辑器…。
2. 在样式编辑器对话框中,从可用样式列表中选择所需的样式,并进行任何必要的更改。
注:
● 要创建新样式,请单击新建并键入样式的名称,然后选择所需选项。单击确定。已创建的样式会
被添加到可用样式列表中。
● 要删除所有样式,请单击全部删除按钮。
32
ABBYY FineReader 9.0
用户指南
编辑超链接
ABBYY FineReader
会检测超链接,并在输出文档中重新创建它们的目标地址。检测到的超链接带下划线,显示为蓝色。
在文本窗口中查看已识别文档时,可将鼠标指针放在超链接之上来查看它的地址。要打开超链接,请按住 CTRL
按钮并单击超链接。
要更改超链接的文本或地址:
1. 在文本窗口中,选择所需的超链接。
提示:要删除超链接,请右键单击该超链接并从快捷菜单中选择删除超链接。
2. 单击文本窗口顶部工具栏上的
3. 在编辑超链接对话框中,在要显示的文本字段内进行必要的更改。
4. 在同一对话框中,在链接至组中指定地址的类型:
● 选择网页以链接至 Internet 页面。
在地址字段中,指定页面的协议和 URL(例如:
● 选择本地文件以链接至文件。
单击浏览…以浏览超链接将指向的文件(例如:file://D:\MyDocuments\ABBYY FineReaderGuide.pdf)
● 选择电子邮件地址,这样用户只需要单击超链接,即可发送电子邮件消息至超链接所包含的地址。
在地址字段中,指定协议和电子邮件地址(例如:
按钮。
http://www.abbyy.com
mailto:office@abbyy.com
)
)。
编辑表格
ABBYY FineReader 允许您编辑已识别的表格。在文本窗口中,您可执行以下操作:
1. 合并单元格
使用鼠标选择想要合并的单元格或行,然后单击工具窗口顶部工具栏上的
2. 拆分单元格
选择想要拆分的单元格,然后单击文本窗口顶部工具栏上的 。
重要!该命令仅可应用于先前合并过的表格单元格。
或 。
3. 删除单元格内容
选择想要删除其内容的一个或多个单元格,然后单击 DEL。
注:默认情况下,表格编辑工具不会显示于文本窗口顶部的工具栏上。使用自定义工具栏和快捷键对话框可将表格编辑
工具添加到工具栏上。
编辑页眉、页脚和脚注
ABBYY FineReader
会检测页眉、页脚和脚注,并在输出文档中重新创建它们。在文本窗口中,页眉、页脚和脚注以虚线表示。
您可以使用文本窗口中可用的任意工具在该窗口中编辑页眉、页脚和脚注。
保存结果
可将已识别的文本保存到文件、发送至其它应用程序、复制到剪贴板或以任何支持的格式作为电子邮件的附件发送。
● 保存:概述
介绍 ABBYY FineReader 提供的保存功能。
● 以 RTF/DOC/WordML/DOCX 格式保存
● 以 XLS/XLSX 格式保存
● 以 PDF 格式保存
33
ABBYY FineReader 9.0
用户指南
● PDF 安全设置
介绍以 PDF
格式保存时可用的安全设置:用密码保护文档以阻止在未经授权的情况下打开、编辑或打印文档,并选择与 Adobe
Acrobat 早期版本兼容的加密等级。
● 以 HTML 格式保存
● 以 PPT 格式保存
● 以 TXT 格式保存
● 以 DBF 格式保存
● 以 CSV 格式保存
● 以 LIT 格式保存
● 保存到 Microsoft SharePoint
● 保存页面图像
介绍保存页面而不对其执行 OCR 的步骤,并就如何减小图像大小提供建议。
保存:常规
对文档执行完 OCR 后,可将结果保存在磁盘上或发送至所选应用程序。在文件菜单上可找到对应命令:
● 文件>保存 FineReader 文档>
将当前 ABBYY FineReader 文档保存在硬盘上,以备将来修改。已识别文本和页面图像都会被保存。
● 文件>另存为>
按所选格式将已识别的文本保存在硬盘上。
● 文件>发送至>
在所选应用程序中打开已识别的文本。磁盘上未保存任何信息。
● 文件>发送所选页面至>
在所选应用程序中打开选择的页面。磁盘上未保存任何信息。
● 文件>保存到 Microsoft SharePoint
将已识别的文本保存到网络位置:网站、门户或电子图书馆。
注:不能替换网络位置上已存在的文件。
● 文件>保存图像...
保存文档页面中的图像。
● 文件>电子邮件
通过电子邮件发送图像或已识别的文本。在电子邮件页面对话框中选择电子邮件附件所需的选项并单击确定。即创
建了一条带有图像和已识别文本附件的电子邮件消息。
● 文件>打印>
打印当前 ABBYY FineReader 文档中所选页面的文本或图像。
支持的应用程序
● Microsoft Word 6.0、7.0、97 (8.0)、2000 (9.0)、2002 (10.0)、2003 (11.0) 和 2007 (12.0)
● WordPerfect 2003 (11.0)
● Microsoft Excel 6.0、7.0、97 (8.0)、2000 (9.0)、2002 (10.0)、2003 (11.0) 和 2007 (12.0)
● Microsoft PowerPoint 2002 (10.0)、2003 (11.0) 和 2007 (12.0)
● Corel WordPerfect 7.0、8.0、9.0、10.0 (2002)、11.0 (2003) 和 12.0
● Lotus Word Pro 9.5、97 和 Millennium Edition
● OpenOffice 2.0 或更高版本
● Adobe Acrobat/Reader(所有版本)
要以 RTF/DOC/WordML/DOCX 格式保存
以 RTF/DOC/WordML/DOCX 格式保存文本:
1. 在位于文本窗口顶部的工具栏上,从保存按钮旁的下拉列表中选择一种可用格式。从下面的下拉列表中选择所需保
存选项。
2. 单击保存按钮。
34
ABBYY FineReader 9.0
用户指南
提示:可使用选项对话框中的附加保存选项:选择工具>选项…,单击 3. 保存选项卡,再单击 RTF/DOC/WordML/DOCX
选项卡。
该选项卡上的保存选项分为以下几类:
保留布局
根据计划使用电子文档的方式,从以下选项中选择最佳选项:
● 精确副本
生成保持原始格式的文档。建议对布局复杂的文档使用该选项,如宣传手册。但请注意,该选项会限制更改输出文
档文本和格式的功能。
● 可编辑的副本
生成几乎保持了原始格式和文本流的文档,但可轻松对其进行编辑。
● 带格式文本
保留字体、字体大小和段落,但不会保留页面上对象的准确位置或间距。将生成左对齐的文本。
(右对齐从右至左的文字。)
注:垂直文本将在该模式下更改为水平文本。
● 纯文本
不同于带格式文本 模式,该模式不会保留格式。
默认纸张尺寸
以 RTF、DOC、WordML 或 DOCX 格式保存时,可从默认纸张尺寸下拉列表中选择所用纸张尺寸。
提示:要确保已识别的文本与纸张尺寸相符,请选择内容不适合时增加纸张大小选项。保存文档时,ABBYY FineReader
将自动选择最合适的纸张尺寸。
文本设置
● 保留页眉和页脚
在输出文档中保留栏外标题(页眉和页脚)。
● 保留换页
保留原始页面布置。
● 保留换行
保留行的原始布置。
● 保留文本颜色
保留文字的原始颜色。
注:Word 6.0、7.0 和 97 (8.0) 中的文本和背景颜色调色板有限,因此可能会用 Word
调色板中的可用颜色替代原始文档的颜色。Word 2000 (9.0) 或更高版本则可完全保留源文档的颜色。
图片设置
包含大量图片的文档通常很大。可通过在该下拉列表中选择可用选项之一来减小文件的大小。
提示:
● 如果输出文件中不需要图片,请选择没有图片。
● 选择自定义… 手动指定图片设置。在自定义图片设置对话框中选择所需设置然后单击确定。
高级
单击高级下的更多… 按钮,可使用一些高级保存选项。在高级保存选项对话框中选择所需选项然后单击确定。
● 突出显示不确定的字符
选择该选项,在 Microsoft Word 而非 ABBYY FineReader 文本窗口中编辑已识别的文本。Microsoft Word
窗口中将突出显示所有不确定的字符。
提示:可在选项对话框(工具>选项…)的视图选项卡上更改不确定字符的颜色。
● 启用与 Microsoft Word 95 的兼容性
选择该选项可在 Microsoft Word 95 中打开和编辑生成的文档。
注:在 Microsoft Word 95 中保存文档时,必须以 BMP 图像格式保存图片。
以 XLS/XLSX 格式保存
要以 XLS/XLSX 格式保存文本:
1. 在位于文本窗口顶部的工具栏上,从保存按钮旁的下拉列表中选择 Microsoft Excel 文档 (*.xls) 或 Microsoft
Excel 2007 文档 (*.xlsx)。从下面的下拉列表中选择所需保存选项。
2. 单击保存按钮。
35
ABBYY FineReader 9.0
用户指南
提示:可使用选项对话框中的附加保存选项:选择工具>选项…,单击 3. 保存选项卡,再单击 XLS/XLSX 选项卡。
可使用以下选项:
● 忽略表格外的文本
只保存表格,忽略其余部分。
● 将数字值转换为数字
将 XLS 文件中的数字转换为“数字”格式。Microsoft Excel 可能会对这种格式的单元格上执行算数操作。
● 保留页眉和页脚
在输出文档中保留页眉和页脚。
以 PDF 格式保存
要以 PDF 格式保存文本:
1. 在位于文本窗口顶部的工具栏上,从保存按钮旁的下拉列表中选择 PDF 文档
(*.pdf)。从下面的下拉列表中选择所需保存选项。
2. 单击保存按钮。
提示:可使用选项对话框中的附加保存选项:选择工具>选项…,单击 3. 保存选项卡,再单击 PDF 选项卡。
该选项卡上的保存选项分为以下几类:
默认纸张尺寸
以 PDF 格式保存文本时,从默认纸张尺寸下拉列表中选择所用纸张尺寸。
保存模式
根据计划使用电子文档的方式,从以下选项中选择最佳选项:
● 仅适用于文本和图片
该选项仅保存已识别的文本和关联图片。可对页面进行全文搜索,PDF
文件的大小也将变小。生成文档的外观可能与原始文档略有不同。
● 页面图像上方的文本
该选项可保存原始文档的背景和图片,并将已识别的文本置于其上。PDF
类型通常比仅适用于文本和图片需要更多的磁盘空间。可对生成的 PDF
文档进行全文搜索。在某些情况下,生成文档的外观可能与原始文档略有不同。
● 页面图像下方的文本
该选项将整个页面图像保存为一个图片,并将已识别的文本置于其下。使用该选项创建可进行全文搜索的文档,且
该文档看上去几乎与原始文档相同。
● 仅适用于页面图像
该选项可精确保存页面上的图像。用户几乎很难区分这类 PDF 文档和原始文档的差别,但不能对其进行搜索。
● PDF/A 文档
选择该选项创建可进行全文搜索的 PDF 文档,这些文档看上去与原始文档相同,可用于存档。
根据所选保存模式,可使用下列选项中的一些:
● 使用图像替换不确定的文字
选择该选项可在以 PDF 格式保存文档时,将包含不确定字符的单词替换成其图像。
● 保留文本和背景颜色
选择该选项可在以 PDF 格式保存文档时,保留字体颜色和背景。
● 保留页眉和页脚
在输出文档中保留页眉和页脚。
● 启用标记的 PDF(与 Acrobat 5.0 及以上版本兼容)
选择该选项将 PDF 标记添加到输出 PDF 文档中。
除了文字和图片,PDF 文件还可包含有关文档结构的信息,如逻辑部分、照片和表格。这些信息用 PDF 标记编码。有
PDF 标记的 PDF 文档可重新载入以适合各种屏幕尺寸,在手持设备上显示效果也很好。
重要!如果已识别文档中包含希伯来语文字,则不能创建带标记的 PDF 文件。
● 使用混合式光栅内容
选择该选项可在压缩程度很高的文档中保持文本和图片的视觉品质。
图片设置
如果文档中包含大量图片,生成的文件可能会很大。可通过手动选择图片设置来减小文件的大小。
提示:选择自定义… 手动指定图片设置。在自定义图片设置对话框中选择所需设置,然后单击确定。
36
ABBYY FineReader 9.0
用户指南
字体设置
您可使用标准 Acrobat 字体,也可使用您计算机上安装的字体:
● 使用标准字体
如果选择该项,PDF 文档将引用以下标准 Acrobat 字体:Times New Roman、Arial 和 Courier New。
● 使用系统字体
如果选择该项,PDF 文档将引用您计算机上安装的标准字体。
安全
可使用密码阻止在未经授权的情况下打开、打印或编辑 PDF 文档:
● 单击 PDF 安全设置 … 按钮,并在对话框中选择所需安全设置。
PDF 安全设置
以 PDF 格式保存已识别的文本时可设置密码,以阻止在未经授权的情况下打开、打印或编辑该 PDF 文档。
在 PDF 安全设置对话框中设置密码和其他限制条件。要打开此对话框,请选择工具>选项…,然后单击 3.
保存选项卡,再单击 PDF 选项卡,然后单击该话框底部的 PDF 安全设置…按钮。
可以指定“文档打开密码”或/和“权限密码”。
文档打开密码:
“文档开启密码”可阻止不知道密码的用户打开此 PDF 文档。
1. 选择打开文档需要密码。
2. 单击
3. 在请输入文档打开密码对话框中键入密码,然后再键入一次进行确认。
指定密码在文档打开密码:字段中将显示为一串圆点。
权限密码:
“权限密码”可阻止不知道密码的用户打印或编辑此 PDF 文档。
1. 选择限制打印和编辑文档及其安全设置。
2. 单击
3. 在请输入权限密码对话框中键入密码,然后再键入一次进行确认。
指定密码在权限密码:字段中将显示为一串圆点。
也可以启用或禁用打印、编辑或复制 PDF 文档。可在权限设置下设置这些限制条件。
● 在允许打印:下拉列表中启用/禁用打印 PDF 文档。
● 允许更改:下拉列表指定了在 PDF 文档中允许执行的编辑操作。
● 启用复制文本、图片和其他内容选项允许其他用户从 PDF
文档中选择和复制文本、图片等。要阻止其他用户复制这些内容,应确保已清除该选项。
● 加密等级:下拉列表指定了受密码保护文档的加密类型。列表中有三种加密等级可供选择:
● 低 (40 位) - 与 Acrobat 3.0 及以上版本兼容设置低加密等级(40 位 RC4)
● 高 (128 位) - 与 Acrobat 5.0 及以上版本兼容设置基于 RC4 标准的 128 位加密等级。但 Acrobat
早期版本的用户不能打开加密过的 PDF 文档
● 高 (128 位 AES) - 与 Acrobat 7.0 及以上版本兼容设置基于 AES 标准的 128 位加密等级。但 Acrobat
早期版本的用户不能打开加密过的 PDF 文档
。
。
以 HTML 格式保存
要以 HTML 格式保存文本:
1. 在位于文本窗口顶部的工具栏上,从保存按钮旁的下拉列表中选择 HTML 文档
(*.htm)。从下面的下拉列表中选择所需保存选项。
2. 单击保存按钮。
37
ABBYY FineReader 9.0
用户指南
提示:可使用选项对话框中的附加保存选项:选择工具>选项…,单击 3. 保存选项卡,再单击 HTML 选项卡。
该选项卡上的保存选项分为以下几类:
保留布局
根据计划使用电子文档的方式选择相应选项:
● 精确副本
生成保持原始格式的文档。建议对布局复杂的文档使用该选项,如宣传手册。但请注意,该选项会限制更改输出文
档文本和格式的功能。
● 带格式文本
保留字体、字体大小和段落,但不会保留页面上对象的准确位置或间距。将生成左对齐的文本。
(右对齐从右至左的文字。)
注:垂直文本将在该模式下更改为水平文本。
● 纯文本
不同于带格式文本 模式,该模式不会保留格式。
保存模式
选择所需保存模式:
● 完整(使用 CSS) – 将文件保存为 HTML 4 格式并使用内置的样式表。原始文档的格式将被保留。
● 简单(与旧浏览器兼容) – 将文件保存为 HTML 3
格式。原始文档中的某些格式可能丢失(例如首行缩进或字体大小)。所有浏览器,包括较旧版本的浏览器(例如
,Internet Explorer 3.0),都支持这种格式。
文本设置
● 保留换行
保留行的原始布置。
● 保留文本颜色
保留文字的原始颜色。
● 使用实线作为换页
保存页面的原始布置,且用实线分隔页面。
● 保留页眉和页脚
在输出文档中保留页眉和页脚。
图片设置
包含大量图片的文档通常很大。要减小文件的大小,请选择所需选项。
提示:
● 如果输出文件中不需要图片,请选择没有图片。
● 选择自定义… 手动指定图片设置。在自定义图片设置对话框中选择所需设置然后单击确定。
字符编码
ABBYY FineReader
会自动删除代码页。要更改代码页或其类型,请从字符编码下的下拉列表中选择所需代码页或代码页类型。
以 PPT 格式保存
要以 PPT 格式保存文本:
1. 在位于文本窗口顶部的工具栏上,从保存按钮旁的下拉列表中选择 Microsoft PowerPoint 文档 (*.ppt) 或
Microsoft PowerPoint 2007 文档 (*.pptx)。从下面的下拉列表中选择所需保存选项。
2. 单击保存按钮。
提示:可使用选项对话框中的附加保存选项:选择工具>选项…,单击 3. 保存选项卡,再单击 PPT/PPTX 选项卡。
该选项卡上的保存选项分为以下几类:
文本设置
● 保留换行
保留行的原始布置。
● 文本换行
该选项仅在选择保留断行时可用。所有已识别的文本可完全置于幻灯片的文本块内。
38
ABBYY FineReader 9.0
用户指南
● 保留页眉和页脚
在输出文档中保留页眉和页脚。
图片设置
包含大量图片的文档通常很大。要减小文件的大小,请选择所需选项。
提示:
● 如果输出文件中不需要图片,请选择没有图片。
● 选择自定义… 手动指定图片设置。在自定义图片设置对话框中选择所需设置然后单击确定。
重要!
以 PPT 格式保存生成的文档时,ABBYY FineReader 将创建包含演示文稿不同部分的特殊 HTML
文件。要将演示文稿保存为单独的文件,请使用 PowerPoint 重新保存(从文件菜单中选择另存为,并指定保存格式为
PPT)。
以 TXT 格式保存
要以 TXT 格式保存文本:
1. 在位于文本窗口顶部的工具栏上,从保存按钮旁的下拉列表中选择 文本文档
(*.txt)。从下面的下拉列表中选择所需保存选项。
2. 单击保存按钮。
提示:可使用选项对话框中的附加保存选项:选择工具>选项…,单击 3. 保存选项卡,再单击 TXT 选项卡。
该选项卡上的保存选项分为以下几类:
文本设置
● 保留换行
保留行的原始布置。
● 附加到现有文件结尾
将文本附加到现有 *.txt 文件的末尾。
● 插入换页字符 (#12) 作为换页
保存原始页面布置。
● 使用空白行作为段落分隔符
用空行分隔段落。
● 保留页眉和页脚(H)
在输出文档中保留页眉和页脚。
字符编码
ABBYY FineReader
会自动删除代码页。要更改代码页或其类型,请从字符编码下的下拉列表中选择所需代码页或代码页类型。
以 DBF 格式保存
要以 DBF 格式保存文本:
1. 在位于文本窗口顶部的工具栏上,从保存按钮旁的下拉列表中选择 DBF 文档
(*.dbf)。从下面的下拉列表中选择所需保存选项。
2. 单击保存按钮。
提示:可使用选项对话框中的附加保存选项:选择工具>选项…,单击 3. 保存选项卡,再单击 DBF 选项卡。
该选项卡上的保存选项分为以下几类:
文本设置
附加到现有文件结尾
将文本附加到现有 *.dbf 文件的末尾。
字符编码
ABBYY FineReader
会自动删除代码页。要更改代码页或其类型,请从字符编码下的下拉列表中选择所需代码页或代码页类型。
39
ABBYY FineReader 9.0
用户指南
以 CSV 格式保存
要以 CSV 格式保存文本:
1. 在位于文本窗口顶部的工具栏上,从保存按钮旁的下拉列表中选择 CSV 文档
(*.csv)。从下面的下拉列表中选择所需保存选项。
2. 单击保存按钮。
提示:可使用选项对话框中的附加保存选项:选择工具>选项…,单击 3. 保存选项卡,再单击 CSV 选项卡。
该选项卡上的保存选项分为以下几类:
文本设置
● 忽略表格外的文本
只保存表格,忽略其余部分。
● 附加到现有文件结尾
将文本附加到现有 CSV 文件的末尾。
● 插入换页字符 (#12) 作为页面分隔符
保存原始页面布置。
● 字段分隔符:
选择在 CSV 文件中分隔数据列的字符。
字符编码
ABBYY FineReader
会自动删除代码页。要更改代码页或其类型,请从字符编码下的下拉列表中选择所需代码页或代码页类型。
以 LIT 格式保存
要以 LIT 格式保存文本:
1. 在位于文本窗口顶部的工具栏上,从保存按钮旁的下拉列表中选择 Microsoft Reader 电子书
(*.lit)。从下面的下拉列表中选择所需保存选项。
2. 单击保存按钮。
提示:可使用选项对话框中的附加保存选项:选择工具>选项…,单击 3. 保存选项卡,再单击 LIT 选项卡。
该选项卡上的保存选项分为以下几类:
文本设置
● 保留换行
保留行的原始布置。如果未选择该项,整个文本将保存为一行。
● 将表格作为文本写入
将表格转换为文本。
● 保留文本和背景颜色
保留文本和背景的原始颜色。
● 保留页眉和页脚
在输出文档中保留页眉和页脚。
图片设置
包含大量图片的文档通常很大。要减小文件的大小,请选择所需选项。
提示:
● 如果输出文件中不需要图片,请选择没有图片。
● 选择自定义… 手动指定图片设置。在自定义图片设置对话框中选择所需设置然后单击确定。
保存页面图像
要保存图像:
1. 在文档窗口中选择要保存的页面。
2. 在文件菜单中选择保存图像…。
40
ABBYY FineReader 9.0
用户指南
3. 在图像另存为对话框中选择保存格式和目标保存位置。
注:要将几个页面保存在一个文件中,请选择其中一种 TIFF 保存格式,然后选取另存为多页图像文件选项。
4. 键入图像文件名称,然后单击保存。
要保存 ABBYY FineReader 文档的一个或多个区域:
1. 在图像窗口里中选择要保存的区域。
2. 在文件菜单中选择保存图像…。
3. 在图像另存为对话框中选择图像格式和目标保存位置。
4. 选择仅保存选定区域选项。
注:如果在文档窗口中只选择了一个页面,可使用该选项。
5. 键入图像文件名称,然后单击保存。
提示:可选择一种压缩方法保存图像。压缩可减小生成文件的大小。压缩算法分为无损压缩(没有数据丢失)和有损压
缩(丢失部分数据,但压缩程度更大)。
以 TIFF 格式保存时请选择一种压缩方法...
ABBYY FineReader 支持以下压缩方法:
● ZIP 压缩方法,适合保存有大量区域颜色相同的图像(例如屏幕截图)。ZIP
是无损压缩方法,即不会影响压缩后的图像质量。
● JPEG 压缩方法,常用来压缩灰度和彩色图像,如照片。JPEG
是有损压缩方法,可明显减小图像文件的大小。但图像可能会变粗糙且出现马赛克,并可能丢失某些色度。
● CCITT 无损压缩方法,最适合压缩由图形类程序扫描或创建的黑白图像。对于大多数类型的图像,CCITT Group 4
都能产生良好的压缩效果。
● Packbits 无损压缩方法,适合压缩扫描的黑白图像。
● LZW 无损压缩方法,适合压缩图形类和灰度图像。
41
ABBYY FineReader 9.0
用户指南
高级功能
章节内容
● 自定义工作区
● 使用区域模板
● 用户语言和语言组
● ABBYY FineReader 文档
● 识别及训练
● ABBYY FineReader 自动化任务
● 局域网中的分组工作
● ABBYY Hot Folder & Scheduling
42
ABBYY FineReader 9.0
用户指南
自定义工作区
可自定义 ABBYY FineReader 工作区以适合您的需要。
主窗口
1 – 主菜单
2, 5, 7, 11 – 分别为文档、图像、文本和缩放窗口
6, 8 – 图像和文本窗口工具栏
3, 9 – 文档窗口工具栏
4 – 快速访问面板
10 – 图像窗口的区域属性/图像属性面板
12 – 文本窗口的文本属性面板
● 要显示或隐藏文档、图像或文本窗口,请单击各自窗口右上角的
● 要在“图像”或“文本”窗口中显示属性面板,请在各自窗口的任意位置单击右键,然后从快捷菜单中选择属性。
另外,也可单击 或 显示或隐藏面板。
● 要自定义文档、图像、文本和缩放窗口,请单击文档窗口底部工具栏上的
,也可在选项对话框中单击视图选项卡。
● 要显示快速访问条,请选择视图>工具栏,然后选择快速访问栏(Q)。
文档窗口
● 要在文档窗口中切换“缩略图”和“详细视图”,请单击窗口底部工具栏上的 并从菜单中选择所需视图。
● 要更改文档窗口的位置,请选择视图>文档窗口,然后选择左、顶部、右或底部。
有用的键盘命令:
● 按 CTRL+TAB 可在窗口之间切换。
● 按 ALT+1 可激活文档窗口。
● 按 ALT+2 可激活图像窗口。
或 。
43
ABBYY FineReader 9.0
用户指南
● 按 ALT+3 可激活文本窗口。
工具栏
● 要在小/大工具栏按钮之间切换,请在视图>工具栏或从相应工具栏的快捷菜单中选中或清除小按钮(B)选项。
● 要自定义工具栏按钮的外观或添加/删除按钮:
1. 打开自定义工具栏和快捷键对话框(工具>自定义工具栏…)。
2. 在工具栏选项卡上,从类别:下拉列表中选择所需种类。
注:命令:列表中的可用命令列表根据所选种类而有所不同。
3. 在工具栏:下拉列表中选择要自定义的工具栏。
4. 在命令:列表中,选择要为其添加按钮的命令并单击 >>。
所选命令将添加至工具栏按钮列表和相应的工具栏。
5. 单击确定接受更改并关闭对话框。
键盘快捷键
要自定义键盘快捷键:
1. 打开自定义工具栏和快捷键对话框(工具>自定义工具栏…)。
2. 在键盘快捷键选项卡上,从类别:下拉列表中选择所需种类。
3. 在命令:列表中,选择要为其添加或更改快捷键的命令。
4. 在按新快捷键字段中单击鼠标,然后按要用作此命令的按键组合。
按下的按键将显示在命令:列表中。
5. 单击确定接受更改并关闭对话框。
界面语言
界面语言是用于程序消息、对话框、按钮名称和菜单项的语言。可在安装 ABBYY FineReader
时选择所需界面语言。也可在程序安装之后更改界面语言。
要更改界面语言:
1. 打开选项对话框(工具>选项…),然后单击高级选项卡。
2. 在界面语言:下拉列表中选择所需界面语言。
3. 单击关闭。
4. 重新启动 ABBYY FineReader。
使用区域模板
如果您需要处理大量布局相同的文档(例如表格或问卷),分析每个页面的布局是一件很费时的事情。为了节省时间,
可仅分析一组相似文档中的一个,并将检测到的区域保存为模板。然后在此组的其他文档中使用该模板。
要创建区域模板:
1. 打开图像,然后让程序自动分析布局或手动绘制所需区域。
2. 从区域菜单中选择保存区域模板…命令。在保存对话框中输入模板名称并单击保存。
重要!要使用区域模块,必须用相同的分辨率扫描组中的所有文档。
应用区域模板:
1. 在文档窗口中选择要应用区域模板的页面。
2. 从区域菜单中选择加载区域模板…。
3. 在打开区域模板对话框中选择所需区域模板(区域模板文件的扩展名为 *.blk)。
4. 在同一对话框中,选择应用到旁边的选定页面将模板应用至所选页面。
注:选择所有页面可将模板应用至当前 ABBYY FineReader 文档的所有页面。
5. 单击打开按钮。
44
ABBYY FineReader 9.0
用户指南
用户语言和语言组
除了程序中所包含的预定义语言和语言组外,还可创建并使用您自己的识别语言和语言组。
● 创建 OCR 语言
● 创建语言组
创建 OCR 语言
对文档执行 OCR 时,ABBYY FineReader
会使用文档语言的一些信息(应从文档窗口的文档语言下拉菜单中选择文档语言)。如果文本中有太多不常见的缩写或
单词,程序可能无法正确识别。如果出现这种情况,可为该文档创建自己的识别语言。
1. 从工具菜单中选择语言编辑器…。
2. 在语言编辑器对话框中单击新建…。
3. 在新建语言或组对话框中选择根据现有语言创建新语言:,并从下面的下拉菜单中选择所需语言。单击确定。
4. 在语言属性对话框中指定新 OCR 语言的属性。
● 语言名称 - 在该字段中键入 OCR 语言的名称。
● 源语言: - 新 OCR
语言所依据的语言。(显示您在新建语言或组对话框中所选的语言。单击右侧的箭头选择其他语言。)
● 字母: - 列出源语言的字母字符。单击 添加或删除字符。
● 词典 - ABBYY FineReader 将使用该词典来对文档执行 OCR 并检查已识别的文本。可使用以下选项:
● 无
不使用词典。
● 内置式词典
使用 ABBYY FineReader 提供的词典。
● 用户词典
使用用户词典。单击编辑…按钮添加单词至词典或导入以 Windows (ANSI) 或 Unicode
编码的现有用户词典或文本文件。要导入的文本文件单词必须以空格或其他非字母字符来分隔。
注:用户词典中的单词可能以如下大小写方式出现在已识别的文本中:1) 只有小写,2) 只有大写,3)
首字母大写,4) 用户词典中的拼写。下表对四种可能性进行了总结。
用户词典中的拼写 可能出现在文本中的形式
abc abc、Abc、ABC
Abc abc、Abc、ABC
ABC abc、Abc、ABC
aBc aBc、abc、Abc、ABC
● 正则表达式
可使用正则表达式来创建新语言。
● 高级… - 打开高级语言属性对话框,可在该对话框中为语言指定更多高级属性:
● 非字母字符,可能出现于词首或词尾
● 孤立的非字母字符(如标点符号)
● 在单词中出现时会被忽略的字符
● 绝不会出现在以该语言书写的文本中的禁用字符
● 所有可识别的语言字符
5. 创建完新语言之后,请将其选择作为文档的识别语言。
45
ABBYY FineReader 9.0
用户指南
默认情况下,用户语言会保存在 ABBYY FineReader
文档文件夹中。要更改该文件夹,请选择工具>选项…,单击高级选项卡,然后在用户语言文件夹下指定新文件夹。
创建语言组
如果经常使用特定语言的组合,可将这几种语言组合在一起以便于使用。
1. 从工具菜单中选择语言编辑器…。
2. 在语言编辑器对话框中单击新建…。
3. 在新建语言或组对话框中选择创建新语言组,然后单击确定。
4. 在语言组属性对话框中键入新组名并选择所需语言。
注:如果已知文本不会包含某些字符,可将其明确指定为所谓的禁用字符。指定禁用字符会提高识别速度和质量。
要指定禁用字符,请单击语言组属性对话框中的高级…按钮。在高级语言组属性对话框中的禁用字符:字段中键入
禁用字符。
5. 单击确定。
新建组将添加至文档窗口的文档语言下拉菜单中。
默认情况下,用户组会保存在 ABBYY FineReader
文档文件夹中。要更改该文件夹,请选择工具>选项…,单击高级选项卡,然后在用户语言文件夹下指定新文件夹。
提示:如果文档需要特殊语言的组合,也可直接选择所需语言,而无需为它们创建组。
1. 从文档语言下拉菜单中选择更多语言…
2. 在语言编辑器对话框中选择手动指定语言。
3. 选择所需语言并单击确定。
ABBYY FineReader 文档
一个 ABBYY FineReader 文档包含源文档图像和已识别的文本。程序的大多数设置(如用户选择的扫描和 OCR
选项、模式、语言和语言组)会应用到整个 ABBYY FineReader 文档。
● ABBYY FineReader 文档:常规
提供如何在文档窗口中显示页面图像和如何自定义文档窗口视图的信息。
● 处理 ABBYY FineReader 文档
提供如何打开、删除和关闭 ABBYY FineReader
文档,以及如何向文档添加图像和如何保存文档或文档选项的信息。
● 对 ABBYY FineReader 文档中的页面重新编号
ABBYY FineReader 文档:常规
启动时,ABBYY FineReader
会自动创建一个新的文档。您可以继续处理该文档或打开另一个文档。文档的所有页面都会显示在文档窗口中。
要查看一个页面,在文档窗口中单击该页的缩略图,或右键单击该页的页码。页面的图像将显示在图像窗口中,而已识
别的文本将显示在文本窗口中。
您可以更改文档窗口的外观。
要自定义文档窗口,请执行以下操作之一:
● 单击
注:选择自定义… 可使用更多自定义选项。
● 选择工具>选项…,单击视图选项卡,然后在文档窗口中选择缩略图或详细信息。
● 右键单击文档窗口中的任意位置,然后在快捷菜单中选择文档窗口视图>缩略图或文档窗口视图>详细信息。
文档窗口底部的工具栏,并从菜单中选择缩略图或详细信息。
处理 ABBYY FineReader 文档
处理 ABBYY FineReader 文档时,您可执行以下操作:
● 创建新文档
46
ABBYY FineReader 9.0
用户指南
● 在文件菜单中,选择新建 FineReader 文档,或
● 在文档窗口底部的工具栏上,单击新建 FineReader 文档按钮 (
)
● 删除当前文档的页面
● 在文档窗口中,选择要删除的页面,然后从页面菜单中选择从文档中删除页面,或
● 在文档窗口中,右键单击要删除的页面,然后从快捷菜单中选择从文档中删除页面
要选择多个页面,请按住 CTRL 键并依次单击要删除的页面。
● 打开文档
启动时,ABBYY FineReader 会自动创建一个新的文档。
注:如果希望 ABBYY FineReader
打开在上次会话中处理的上一个文档,请选择工具>选项…,单击高级选项卡,然后选择启动时打开上次使用的
FineReader 文档。
要打开文档:
1. 在文件菜单中,选择打开 FineReader 文档…。
2. 在打开文档对话框中,选择要打开的文档。
注:您也可右键单击所需的文档文件夹(文档文件夹显示为
)并从快捷菜单中选择用 ABBYY FineReader
打开,以此在 Windows 资源管理器中直接打开 ABBYY FineReader 文档。这样,将为选定文档启动一个新的 ABBYY
FineReader 实例。
● 为当前文档添加图像
● 在文件菜单中选择打开 PDF 文件/图像…。
● 在打开图像对话框中,选择要添加的图像并单击打开。选择的图像将被添加到文档,且图像的副本会保存到文
档文件夹中。
注:您也可以直接从 Windows 资源管理器中添加图像:
● 在 Windows 资源管理器中,选择要添加的图像文件,然后右键单击选定的文件,并从快捷菜单中选择用 ABBYY
FineReader 打开。
如果 ABBYY FineReader 正在运行,选择的文件将被添加到当前文档。否则,将启动 ABBYY FineReader
并将选定文件添加到一个新的文档。
● 保存当前文档
1. 在文件菜单中,选择保存 FineReader 文档…。
2. 在保存文档对话框中,键入文档的名称并指定存储位置。
注:保存 ABBYY FineReader 文档将保存页面图像、已识别文本、训练模式和用户语言(如果有)。
● 关闭当前文档
● 要关闭当前文档的某个页面,选择该页,然后从文档菜单中选择关闭当前页面。
● 要关闭整个文档,请从文件菜单中选择关闭 FineReader 文档。
● 保存当前文档选项
要将当前文档选项保存到文件:
1. 选择工具>选项…,然后单击高级 选项卡。
2. 单击保存选项…按钮。
注:要恢复默认选项,请单击重置为默认值。
3. 在保存选项对话框中,键入文件的名称并指定存储位置。
将保存以下文档选项:
● 在文档中选择的选项,1. 扫描/打开,2. 读取,3. 保存、选项 对话框(工具>选项…)的视图和高级选项卡
● 语言组、用户词典和模式
● 存储用户语言和词典的文件夹的路径
47
ABBYY FineReader 9.0
用户指南
要恢复默认设置,请单击选项对话框(工具>选项…)的高级选项卡上的重置为默认值按钮。
● 加载文档选项
1. 选择工具>选项…,然后单击高级选项卡。
2. 单击加载选项…按钮。
3. 在加载选项对话框中,选择包含要加载文档选项的文件(选项文件的扩展名为 *.fbt),然后单击打开。
对 ABBYY FineReader 文档中的页面重新编号
程序会对 ABBYY FineReader
文档中的所有页面进行编号。在文档窗口中,页码显示在页面图标旁边(详细信息视图)或页面缩略图下方(缩略图视
图)。
要对页面重新编号
1. 在文档窗口中,选择一个或多个页面。
2. 右键单击文档窗口中的任意位置,然后在快捷菜单中选择 对页面重新编号(R)…。
3. 在 对页面重新编号 对话框中,选择所需的条目:
● 在 对页面重新编号(R):
如果要对选定页面后面的页面重新编号
● 双面扫描后,恢复原始页码(E):
如果在使用自动送纸器首先扫描所有奇数页再扫描所有偶数页后,要恢复原始文档的页码。
重要!要使用该命令,必须选择至少三个连续页码的页面。
注: 要撤销该操作,请选择 撤销“ 双面扫描后,恢复页码”(U) 。
4. 单击 OK。
文档窗口中的页面顺序将随着新的编号变化。
注:要更改单个页面的页码,只需单击文档页码,然后输入所需页码即可。
识别及训练
训练模式用于:
● 以装饰字体设置的文本
● 包含特殊字符(例如数学符号)的文本
● 打印质量欠佳的长文档(100 页以上)
仅
在出现上述情况之一时方可使用训练模式。在其他情况下,程序会通过适当增加处理时间来小幅度提高识别质量。有
关启用训练模式的说明,请参见纸质文档中包含装饰(非标准)字体。
● 训练用户模式
提供有关训练用户模式的说明,以及训练字符与连字的其他信息。
● 选择用户模式
提供有关选择用户模式的说明,以及如何进行正确选择的其他提示。
● 编辑用户模式
提供有关在用户模式中查看字符及更改字体效果的说明。
训练用户模式
1. 选择工具>选项…,单击 2. 读取选项卡。
2. 选择训练下的训练用户模式。
3. 单击模式编辑器…按钮。
4. 在模式编辑器对话框中单击新建…。
5. 在创建模式对话框中键入新模式的名称,然后单击确定。
6. 单击模式编辑器和选项对话框中的关闭按钮,关闭这两个对话框。
48
ABBYY FineReader 9.0
用户指南
7. 在图像窗口顶部的工具栏中单击读取。
现在,如果 ABBYY FineReader 遇到未知字符,模式训练对话框中将显示该未知字符。
8. 教授新字符和连字。
连字是两个或三个“重合”字符的组合(例如:fi、fl 与 ffi
等)。这些字符很难分开,因为它们在打印时是“重合”的。实际上,更好的方式是将它们视为一个合成字符。
注:选择效果下的对应选项,可在已识别文本中保留粗体、斜体或上标/下标中的单词。
要返回至上一训练字符,请单击上一步按钮。画面将跳到上一位置,并从模式中删除最后训练的“字符图像–
键盘字符”对应项。上一步按钮仅适用于一个单词。
重要!
● 该功能只能训练系统阅读识别语言字母中所包含的字符。要训练 ABBYY FineReader
阅读无法通过键盘输入的字符,可使用两个字符的组合来表示这些不存在字符,或从插入字符对话框(单击
可打开对话框)中复制所需字符。
● 每个模式最多可包含 1,000 个新字符。但请避免创建过多连字,因为这样可能会影响 OCR 质量。
选择用户模式
ABBYY FineReader 允许使用模式来提高 OCR 质量。
1. 从工具菜单中选择模式编辑器…。
2. 在模式编辑器对话框中,从可用模式列表中选择所需模式,然后单击设置为活动。
应该记住的要点:
1. ABBYY FineReader 无法区分一些相似但又不同的字符,而是将它们识别为相同的字符。例如,直引号 (')、左引号
(‘) 和右引号 (’)
在模式中都将存储为一个字符(直引号)。这意味着即使您尝试对左引号和右引号进行训练,它们还是不会用在已
识别的文本中。
2. 对于某些字符图像,ABBYY FineReader
将视上下文内容来选择相应的键盘字符。例如,对于小圈图像,如果其周围为字母,它将被识别为字母
O,而如果其周围为数字,则会被识别为数字 0。
3. 仅当文档具有与创建模式的文档相同的字体、字号和分辨率时,方可对该文档使用此模式。
4. 要在稍后使用相同模式,请将当前文档选项保存到文件。
5. 要识别以不同字体设置的文本,请选择工具>选项…>2. 读取中的不使用用户模式选项,确保禁用用户模式。
编辑用户模式
启动 OCR 过程前可编辑新建的模式。错误的训练模式可能影响 OCR
质量。模式应仅包含完整字符或连字。应从模式中删除边缘缺失的字符和对应字母错误的字符。
1. 从工具菜单中选择模式编辑器…。
2. 在模式编辑器对话框中选择所需模式,然后单击编辑…按钮。
49
ABBYY FineReader 9.0
用户指南
3. 在用户模式对话框中选择所需字符,然后单击属性…按钮。
在对话框中键入与所选字符对应的字母,然后选择所需字体效果(斜体、粗体、上标或下标)。
要删除错误训练的字符,请选择所需字符然后单击删除按钮。
ABBYY FineReader 自动化任务
文档处理通常涉及一系列常规任务,如扫描、OCR 及以特殊格式保存结果。ABBYY FineReader
提供了自动完成这些常规任务的工具。
自动化任务是一系列连续的步骤,每个步骤都对应特定的处理程序。ABBYY FineReader
包含许多预定义且随时可用的自动化任务。可从快速任务窗口(如果窗口不可见,请单击菜单栏上的快速任务)启动自
动化任务。
也可使用自动化向导创建个性化的自动化任务。
● 运行自动化任务
● 管理自动化任务
● 自定义自动化任务
● 创建自动化任务
运行自动化任务
运行自动化任务时,ABBYY FineReader 使用在选项(工具>选项…)对话框中选择的选项。
要运行自动化任务,请执行以下操作之一:
● 在快速任务窗口中单击所需自动化任务。
提示:如果该窗口不可见,请单击菜单栏上的快速任务。
● 选择工具>自动化任务,然后选择所需内置或用户创建的自动化任务。
运行自动化任务时,将出现一个显示进度条、任务步骤、提示和警告的任务进度窗口。
管理自动化任务
自动化管理器允许您创建、修改、删除以及运行自动化任务。
要打开自动化管理器,请执行以下操作:
● 选择工具>自动化任务,然后选择自动化管理器…菜单项或
● 按 CTRL+T。
自动化管理器对话框中列出了可用的自动化任务。
● ABBYY FineReader 自带的任务标有 。
不能删除或修改这些任务。但可以先复制一个任务然后对其进行修改。
● 用户创建的自定义任务标有 。
要重命名自定义任务,请右键单击该任务,然后在快捷菜单中选择重命名…。
50
ABBYY FineReader 9.0
用户指南
● 有些任务由于某些原因不能在您的计算机上运行,这些任务标有 。
要将已识别的文本发送至其他应用程序,必须在您的计算机上安装该程序。如果某个自动化任务被设置为将已识别
的文本发送至计算机上未安装的应用程序,则此自动化任务不能运行且不会出现在工具>自动化任务菜单中。
使用自动化管理器工具栏上的按钮创建、修改、删除或运行自动化任务。
要运行自动化任务,请在自动化管理器对话框中选择任务,然后单击工具栏上的 或单击对话框底部的运行按钮。
创建自动化任务
1. 启动自动化管理器(选择工具>自动化任务>自动化管理器)。
2. 在自动化管理器对话框中,单击工具栏上的新建按钮。
3. 在自动化向导对话框中,从左侧面板的可用步骤列表中单击所需步骤。所选步骤将显示在右侧面板中。
51
ABBYY FineReader 9.0
用户指南
4. 单击更改…以更改步骤的属性
单击删除从自动化任务中删除某个步骤。
可用步骤的选择取决于先前已选择过的步骤。因此,不是每个步骤都能被删除。例如,如果在自动化任务中添加了
读取文档步骤,则不能删除分析布局步骤。但可使用<< 上一步按钮返回该自动化任务。
5. 向自动化任务添加了所有必要的步骤并选择其属性后,单击完成。
自定义自动化任务
可创建自定义自动化任务。自定义自动化任务中步骤的顺序会对应到 ABBYY FineReader
中的文档处理阶段。图像的获取、读取和存储为必选步骤,布局分析或结果检查为可选步骤。
在每个步骤中,选择可用操作之一。
1. 获取图像
该步骤始终是自动化任务中的第一个步骤。在该步骤中,ABBYY FineReader 将获取要处理的图像。
选择获取文档图像的方法之一:
● 扫描图像
ABBYY FineReader 使用当前文档设置扫描图像。
● 打开图像
提供 ABBYY FineReader 应从其中查找图像的文件夹路径。
● 打开 FineReader 文档
指定哪些 ABBYY FineReader 文档的图像应被使用。
注:
● 如果对某个自动化任务进行编程,使其向 ABBYY FineReader 文档添加图像,但该文档已包含一些其他图像,则
ABBYY FineReader
将只处理新添加的图像。如果该自动化任务创建了一个新文档,则该文档中的所有图像都会被处理。
● 如果对某个自动化任务进行编程,使其处理一个 ABBYY FineReader
文档,但该文档包含已读取过的图像(即已对图像执行 OCR)及已进行布局分析和区域绘制的图像,则 ABBYY
FineReader 将保留已读取过的图像,并对已进行区域绘制的图像执行 OCR。
2. 分析布局
此为可选步骤,在该步骤中可指定应使用的区域模板。
● 加载区域模板
提供至要使用的区域模板文件的路径。
52
ABBYY FineReader 9.0
用户指南
● 分析布局
ABBYY FineReader 获取图像后,即会分析图像并绘制必要的区域。要手动绘制区域,请选择
手动绘制区域选项。
3. OCR
在该步骤中,ABBYY FineReader 将对图像执行 OCR。
● 读取文档
ABBYY FineReader 使用当前文档设置对图像执行 OCR。
4. 检查结果
此为可选步骤,在该步骤中可查看已识别的文本。
● 检查结果
选择检查已识别文本的方式。
5. 保存页面
在该步骤中,ABBYY FineReader
将文本保存至文件或发送至选定的应用程序。一个自动化任务可包含若干个保存步骤。
● 保存页面
键入文件名、选择保存格式并指定目标文件夹。也可选择此处的其他文件选项。
注:每次运行该任务时,请检查创建带有时间戳的子文件夹(C)框中是否创建了新的子文件夹。如果您不想在每次运
行任务时手动指定文件夹,该选项十分有用。
● 使用另一格式保存页面
从下拉列表中选择所需保存格式。
也可指定文件名、指定存储位置及选择文件选项。
6. 自动化任务的其他步骤允许将已识别的文本发送至其他应用程序、将已获取的图像或已识别的文本附加到电子邮件
消息中,或保存 ABBYY FineReader 文档。
● 将页面发送到另一应用程序
使用保存向导或从下拉列表中选择所需应用程序。
在所选应用程序中创建一个包含已识别文本的新文档。
● 用电子邮件发送页面
从下拉列表中选择所需文件格式。
也可选择此处的其他文件选项。已识别的文本将以所需格式保存并附加到电子邮件消息中。
● 保存图像
从下拉列表中选择所需文件格式。
也可指定文件名、选择保存格式并选择目标文件夹。
注:要将所有图像保存到一个文件中,请选择 另存为一个多页图像文件(仅适用于 TIFF 和 PDF)。
● 用电子邮件发送图像
从下拉列表中选择所需文件格式。
也可指定文件名、选择保存格式并选择目标文件夹。图像将以所需格式保存并附加到电子邮件消息中。
● 保存 FineReader 文档
指定您要保存 ABBYY FineReader 文档的文件夹。
局域网中的分组工作
ABBYY FineReader 9.0 提供通过局域网 (LAN) 处理文档的工具和功能。
● 在数台局域网计算机上处理相同的 ABBYY FineReader 文档
● 在数台计算机上使用相同的用户语言和词典
在数台局域网计算机上处理相同的 ABBYY FineReader 文档
通过局域网运行 ABBYY FineReader 时,可在工作站上使用所有的程序工具和功能。
如果要同时在数台局域网计算机上使用 ABBYY FineReader 文档,则需考虑如下事项:
● 每台计算机上都应安装有一份 ABBYY FineReader 9.0 的独立副本。
● 所有用户必须拥有 ABBYY FineReader 文档的完全访问权限。
● 每个用户都可以向该文档添加页面并进行修改。如果用户添加了新页面并启动了它们的 OCR
进程,程序就会重新处理整个文档。在处理时:
53
ABBYY FineReader 9.0
用户指南
● 文本窗口中的编辑工具将无法使用
● 文本窗口中的页面背景为灰色
● 用户只能对文本中的拼写进行检查和纠错
当页面背景变为白色后,便可以使用文本窗口中的所有工具。
● 正被一个用户处理的文档页面会对其他用户锁定。
● 用户可在文档窗口监视页面状态,包括正在处理文档的计算机、已打开页面的用户、某个页面是否已被识别或编辑
等。要查看状态,请切换至详细信息视图。
● 必须在每台计算机上安装 ABBYY FineReader 文档中使用的字体。否则,识别出的文本可能会显示不正确。
在数台计算机上使用相同的用户语言和词典
在 ABBYY FineReader 9.0
中,数个用户可同时使用相同的用户语言和词典。数个用户还可通过局域网向同一用户词典中添加单词。
要使用户语言和词典可由多个用户使用:
1. 创建或打开 ABBYY FineReader 文档,然后选择所需的扫描和 OCR 选项。
2. 在创建用户语言之前,指定要存储用户语言和词典的网络或本地文件夹。默认情况下,用户语言和词典会存储在
ABBYY FineReader 文档文件夹中。
要指定用户语言的存储位置:
● 选择工具>选项…,单击高级选项卡,然后提供用户语言文件夹下文件夹的路径。
要指定用户词典的存储位置:
● 选择工具>选项…,单击高级选项卡,再单击拼写检查器设置…按钮
● 在拼写检查器设置对话框中,单击浏览…按钮并选择所需文件夹。
3. 将 ABBYY FineReader 文档选项保存为 *.fbt 文件。
4. 希望使用上述文件夹中所存储语言和词典的用户应在创建新的 ABBYY FineReader 文档时,从这个 *.fbt
文件加载文档选项,以便所有用户都能使用同样的文件夹路径。
重要!用户需拥有存储用户语言和词典的文件夹的读写权限。
要查看 语言编辑器对话框中可用用户语言的列表(请选择工具>语言编辑器…并滚动至用户语言)。
当一个用户语言正被多个用户使用时,其权限将为“只读”且用户无法更改用户语言属性。然而,对于正被多台局域网
计算机使用的用户词典,则可对其添加和删除单词。
当用户向词典添加单词或编辑词典时,该词典会对其他用户锁定。完成后,所有能访问此语言存储文件夹的用户都可进
行更改。
要更新词典:
● 在检查拼写时(工具>检查拼写…),单击检查拼写对话框中的添加…按钮
或
● 单击选择词典对话框(工具>查看词典…)中的任何按钮。
ABBYY Hot Folder & Scheduling
(仅支持 ABBYY FineReader 9.0 Corporate Edition 及 ABBYY FineReader 9.0 Site License Edition)
ABBYY FineReader 包含 ABBYY Hot Folder &
Scheduling,它是一种计划代理程序,可以让您选择含有图像的文件夹,并设置 ABBYY FineReader
处理该文件夹中图像的时间。例如,您可以安排计算机在夜间识别图像。
要自动处理文件夹中的图像,请创建该文件夹的处理任务,并指定图像的打开、OCR 和保存选项。您还必须指定 ABBYY
FineReader 检查文件夹中新图像的频率(以固定时间间隔或仅执行一次),并设置任务的启动时间。
重要!
在任务启动时,您的计算机必须处于开机状态且您已登录。
● 安装和启动 ABBYY Hot Folder & Scheduling
● 主窗口
● 创建任务
● 更改任务属性
54
ABBYY FineReader 9.0
用户指南
● 结果日志
● 其他选项
安装和启动 ABBYY Hot Folder & Scheduling
默认情况下,ABBYY Hot Folder & Scheduling 会与 ABBYY FineReader 9.0
一起安装到计算机中。在自定义安装过程中,如果选择不安装 ABBYY Hot Folder &
Scheduling,您可在此后按照以下说明来安装该应用程序:
1. 在 Windows 任务栏中,单击开始并选择设置>控制面板。
2. 双击控制面板窗口中的添加或删除程序图标。
3. 在已安装程序的列表中,选择 ABBYY FineReader 9.0 并单击更改。
4. 在自定义安装对话框中,选择 ABBYY Hot Folder & Scheduling。
5. 遵照安装程序的说明。
启动 ABBYY Hot Folder & Scheduling
可通过数种方法来启动 ABBYY Hot Folder & Scheduling:
● 选择开始>所有程序>ABBYY FineReader 9.0,然后选择 ABBYY Hot Folder & Scheduling 或
● 在 ABBYY FineReader 9.0 主窗口中,选择工具>Hot Folder & Scheduling…或
● 双击 Windows 任务栏中的 ABBYY Hot Folder & Scheduling
图标(在创建至少一个热文件夹后便会出现此图标)。
主窗口
启动 ABBYY Hot Folder & Scheduling
会打开功能的主窗口。使用工具栏上的按钮设置、复制、删除和启动文件夹处理任务。您也可查看各个文件夹的详细报
告。
要创建新任务,请单击工具栏上的新建按钮。ABBYY Hot Folder & Scheduling 向导将指导您完成设置热文件夹。
注:
● 默认情况下,任务文件将会存储在 %Userprofile%\Local Settings\Application Data\ABBYY\HotFolder\9.00
中。
(Microsoft Windows Vista:%Userprofile%\AppData\Local\ABBYY\HotFolder\9.00)。
●
结果将保存到设置任务时指定的文件夹中。有时,为了避免丢失已经处理的文件,程序会在指定的文件夹中创建一
个子文件夹,以将随后识别的结果保存在其中。子文件夹需按以下方式命名:
1. “Hot Folder DD.MM.YYYY HH-MM-SS”
重新运行任务时,将创建一个以该名称命名的子文件夹。
2. “文件名称(编号)”
如果指定的文件夹中已经存在一个带有特定名称的文件,则将创建一个以该名称命名的子文件夹。
ABBYY Hot Folder & Scheduling
主窗口会显示已设置任务的列表。对于各个任务,会显示相应热文件夹的完整路径,以及当前状态与计划处理时间。
任务可能有以下几种状态:
55
ABBYY FineReader 9.0
用户指南
状态 描述
运行 正在处理文件夹中的图像。
等待 正在等待完成上一个任务。
计划 选择只在启动时检查一次热文件夹中的图像。启动时间显示于下次运行时间列之中。
观察 ABBYY FineReader 将在该文件中的图像到达时对其进行处理。
停止 处理已被用户停止。
完成 已完成该文件夹的图像处理。
错误 处理该文件夹中的图像时出现错误。ABBYY FineReader
未完成处理任务。要查找错误的原因,请选择处理失败的文件夹,并单击工具栏上的查看日志按钮。
创建任务
ABBYY Hot Folder & Scheduling 向导将指导您完成设置热文件夹所需的步骤。
要创建任务:
1. 在主窗口中,单击新建按钮。在Hot Folder – 第 1 步,共 3 步:
打开图像对话框中,选择要监视的文件夹,然后指定 ABBYY FineReader 检查此文件夹的频率。
a. 从对话框顶部的下拉列表中:
● 如果希望 ABBYY FineReader 处理来自本地文件夹或网络文件夹的图像,请选择从文件夹中打开图像。
● 如果希望 ABBYY FineReader 处理来自 FTP 服务器上文件夹的图像,请选择从 FTP
文件夹中打开图像。如果服务器需要验证,请输入 FTP
登录名与密码。否则,请选择匿名登录选项以使用匿名连接。
● 如果希望处理来自邮箱文件夹的图像,请选择从 Outlook 邮箱的文件夹中打开图像。
b. 在文件夹内容下,选择处理图像的方式:
● 将文件夹中视为不同的文档–
将该文件夹中的每个图像作为独立的文档来处理:程序会依次打开、识别并保存各个文件。
● 将文件中的所有文件视为单个文档 –
将该文件夹中的所有图像作为一个文档来处理:程序会打开所有图像、进行识别,并将结果保存在一个单独
的文件之中。
c. 在时间设置下:
● 选择在启动时检查一次文件夹以只处理该文件夹中在启动计划任务时可用的图像。程序将不会处理此后添加
到该文件夹的任何图像。
● 选择持续观察文件夹中收到的图像以监视文件夹并在新文件到达时对其进行处理。ABBYY FineReader 将每隔
60 秒检查文件夹中的新图像。
d. 在开始时间字段中,选择 ABBYY FineReader 开始处理文件夹中图像的时间。选择推迟以推迟任务。
e. 在已处理图像设置:下,指定 ABBYY FineReader 在成功处理热文件夹中的图像后是否删除这些图像。
2. 单击下一步。在Hot Folder – 第 2 步,共 3 步: 读取所有图像对话框中,选择识别语言与识别模式。
a. 从识别语言:下拉列表中,选择与图像中文本的语言相对应的语言。
注:可选择多种识别语言。
b. 要在图像中应用区域模板,请在使用区域模板:字段中提供所需区域模板文件的路径。
c. 在识别模式下,选择
● 完全(在此模式中,ABBYY FineReader 会读取质量低下的图像)或
56
ABBYY FineReader 9.0
用户指南
● 快速(建议仅用于质量良好的图像)
d.在超链接下,选择突出显示超链接选项,以突出显示已识别文本中检测到的超链接,然后在颜色字段中选择颜色
。
3. 单击下一步。在Hot Folder – 第 3 步,共 3 步: 保存文档对话框中,指定已识别文本的保存位置及保存格式。
a. 在 选择保存结果的方式(E): 下拉列表中,选择所需的文件夹类型:
● 保存结果到文件夹 会将结果保存到计算机的本地文件夹中
● 保存结果到 Microsoft SharePoint 会将结果保存到 Microsoft SharePoint
服务器上(例如,网站、移动设备或电子图书馆)。
如果需要用户名和密码访问服务器,请在 登录(L): 和 密码(P): 字段中输入。
有关处理 Microsoft SharePoint 部分地址类型的信息,请参见“保存到 Microsoft SharePoint”。
b. 在保存选项下:
● 从保存类型:下拉列表中,选择用于保存结果的文件格式。
提示:可对同一已识别文本进行多次保存,将结果保存为多种格式。在保存类型:下拉菜单中,选择 (请选择
多种格式),并在对话框中选择需要的格式。
● 从文件选项下拉列表中,选择:
– 为每页创建一个单独的文件以将各页面保存为单独的文件
– 将文件命名为源图像以将各页面保存为与原始图像名称相同的单独文件。
–
在每个空白页中创建一个新文件以将页面视为多个组来处理,各组均以空白页面结尾。来自不同组的页面将会保
存到不同的文件中,文件名称由用户提供的名称附加索引(–1、–2、–3 等)组成。
– 为所有页面创建一个文件以将所有页面保存至一个单独的文件。
● 在文件名称字段中,键入用于保存已识别文本的文件的名称。
c. 选择保存文档(A)以保存生成的 ABBYY FineReader 文档。
注:该对话框的外观取决于第 1 步中的设置。
4. 单击完成。
ABBYY Hot Folder & Scheduling 主窗口中将显示设置好的任务。
注:
• 默认情况下,任务文件将会存储在 %Userprofile%\Local Settings\Application Data\ABBYY\HotFolder\9.00
中。
(Microsoft Windows Vista:%Userprofile%\AppData\Local\ABBYY\HotFolder\9.00)。
• 结果将保存到设置任务时指定的文件夹中。有时,为了避免丢失已经处理的文件,程序会在指定的文件夹中创建一
个子文件夹,以将随后识别的结果保存在其中。子文件夹需按以下方式命名:
1. “Hot Folder DD.MM.YYYY HH-MM-SS”
重新运行任务时,将创建一个以该名称命名的子文件夹。
2. “文件名称(编号)”
如果指定的文件夹中已经存在一个带有特定名称的文件,则将创建一个以该名称命名的子文件夹。
重要!为了让任务顺利启动,您的计算机必须处于开机状态且您已登录。
更改任务属性
您可以更改现有自动任务的属性。
要更改自动任务的属性
1. 停止要更改其属性的自动任务。
2. 在 ABBYY Hot Folder & Scheduling 工具栏中,单击修改按钮。
随即显示 ABBYY Hot Folder & Scheduling Properties。
3. 进行必要的更改,并单击确定。
57
ABBYY FineReader 9.0
用户指南
结果日志
程序会根据您所定义的设置来处理热文件夹中的图像。ABBYY Hot Folder & Scheduling 会保存所有操作的详细日志。
日志文件包含以下信息:
● 任务名称及其设置
● 错误与警告(如果有)
● 统计信息(已处理页数、错误和警告的次数、不确定识别字符的数量)
要启用日志:
1. 在 ABBYY Hot Folder & Scheduling 工具栏中,单击选项按钮。
2. 选择 将日志文件存储在输出文件夹中(S).
日志将作为 TXT 文件保存到包含已识别文本文件的文件夹中。
要查看日志:
1. 在 ABBYY Hot Folder & Scheduling 主窗口中,选择想要检查的任务。
2. 单击工具栏上的查看日志。
其他选项
选项对话框提供了 ABBYY Hot Folder & Scheduling 的一些其他选项。
在 ABBYY Hot Folder & Scheduling 工具栏中,单击选项按钮,并在对话框中选择需要的选项:
● 将日志文件存储在输出文件夹中
日志文件将以 TXT 格式与已识别文本存储在同一文件夹中。
鼠标指针在选定任务的状态上移动时,弹出窗口中将显示一个日志片断。
● 完成时通知
告知任务已完成的通知消息将会显示在 Windows 任务栏上方的弹出窗口中。
58
ABBYY FineReader 9.0
用户指南
附录
章节内容
● 支持的保存格式
● 支持的图像格式
● 正则表达式
● 术语表
● 键盘快捷键
59
ABBYY FineReader 9.0
用户指南
支持的保存格式
ABBYY FineReader 采用以下格式来保存已识别的文本:
● Microsoft Word 文档 (*.DOC)
● Microsoft Office Word 2007 文档 (*.DOCX)
● RTF 格式 (*.RTF)
● Microsoft Office WordML 文档 (*.XML)
● Adobe Acrobat 文档 (*.PDF)
● HTML 文档 (*.HTM)
● Microsoft PowerPoint 演示文稿 (*.PPT)
● Microsoft PowerPoint 2007 演示文稿 (*.PPTX)
● Microsoft Office Excel 逗号分隔值文件 (*.CSV)
● 文本文档 (*.TXT)
ABBYY FineReader 支持 Windows、DOS、Mac 和 ISO 代码页以及 Unicode 编码。
● Microsoft Excel 工作表 (*.XLS)
● Microsoft Office Excel 2007 工作簿 (*.XLSX)
● DBF 文件 (*.DBF)
● Microsoft Reader 电子书文件 (*.LIT)
支持的图像格式
下表列出了 ABBYY FineReader 9.0 所支持的图像格式。
格式 扩展名 打开 保存
位图 bmp + +
位图,黑白 bmp + +
位图,灰色 bmp + +
位图,彩色 bmp + +
DCX dcx + +
DCX,黑白 dcx + +
DCX,灰色 dcx + +
DCX,彩色 dcx + +
JPEG 2000 jp2、j2c + +
JPEG 2000,灰色 jp2、j2c + +
60
ABBYY FineReader 9.0
用户指南
JPEG 2000,彩色 jp2、j2c + +
JPEG jpg、jpeg、jfif + +
JPEG,灰色 jpg、jpeg、jfif + +
JPEG,彩色 jpg、jpeg、jfif + +
PCX pcx + +
PCX,黑白 pcx + +
PCX,灰色 pcx + +
PCX,彩色 pcx + +
PNG png + +
PNG,黑白 png + +
PNG,灰色 png + +
PNG,彩色 png + +
TIFF tif、tiff + +
TIFF,黑白,已解压缩 tif、tiff + +
TIFF,黑白,Packbits tif、tiff + +
TIFF,黑白,Group4 tif、tiff + +
TIFF,黑白,ZIP 压缩 tif、tiff + +
TIFF,黑白,LZW 压缩 tif、tiff + +
TIFF,灰色,已解压缩 tif、tiff + +
TIFF,灰色,Packbits tif、tiff + +
TIFF,灰色,JPEG 压缩 tif、tiff + +
TIFF,灰色,ZIP 压缩 tif、tiff + +
TIFF,灰色,LZW 压缩 tif、tiff + +
TIFF,彩色,已解压缩 tif、tiff + +
61
ABBYY FineReader 9.0
用户指南
TIFF,彩色,Packbits tif、tiff + +
TIFF,彩色,JPEG 压缩 tif、tiff + +
TIFF,彩色,ZIP 压缩 tif、tiff + +
TIFF,彩色,LZW 压缩 tif、tiff + +
PDF pdf + +
PDF 版本 1.6 或更早版本 pdf + +
DjVu djvu、djv + –
GIF gif + –
XPS(需要 Microsoft .NET Framework 3.0) xps + –
62
ABBYY FineReader 9.0
用户指南
正则表达式
下表列出了可用于创建新语言的正则表达式。
项目名称 常规的正则表达式符号 使用示例及说明
任意字符 . c.t – 表示“cat”、“cot”等
组中字符 [] [b–d]ell – 表示 “bell”、“cell”、“dell”等
[ty]ell –
表示“tell”和“yell”
组外字符 [^] [^y]ell –
表示“dell”、“cell”、“tell”,但禁止表示“yell”
[^n–s]ell –
表示“bell”、“cell”,但禁止表示“nell”、“oell”、
“pell”、“qell”、“rell”和“sell”
或 | c(a|u)t – 表示“cat”和“cut”
0 或更多匹配 * 10* – 表示数字 1、10、100、1000 等
1 或更多匹配 + 10+ – 可表示数字 10、100、1000 等,但禁止表示 1
字母或数字 [0–9a–zA–Zа–яА–
Я]
大写拉丁字母 [A–Z]
小写拉丁字母 [a–z]
大写西里尔字母 [А–Я]
小写西里尔字母 [а–я]
数字 [0–9]
空格 \s
@ 保留。
注:
1. 要将正则表达式符号作为正常字符使用,请在符号前添加反斜线。例如,[t–v]x+ 代表 tx、txx、txx 等和
ux、uxx 等,而 \[t–v\]x+ 则代表 [t–v]x、[t–v]xx、[t–v]xxx 等。
2. 要分组正则表达式元素,请使用括号。例如,(a|b)+|c 代表 c 或任何类似 abbbaaabbb、ababab
的组合(任何长度非零、其中可能有按任意顺序排列的任意个数的 a 和 b 的单词),而 a|b+|c 则代表 a、c 和
b、bb、bbb 等。
示例
日期的正则表达式:
表示日的数字可由一位数字(1、2 等)或两位数字(02、12)组成,但不能为零(00 或
0)。因此,日的正则表达式应显示为: ((|0)[1–9])|([1|2][0–9])|(30)|(31).
月的正则表达式应显示为: ((|0)[1–9])|(10)|(11)|(12).
年的正则表达式应显示为: ([19][0–9][0–9]|([0–9][0–9])|([20][0–9][0–9]|([0–9][0–9]).
[0–9a–zA–Zа–яА–Я] – 可表示任何单个字符
[0–9a–zA–Zа–яА–Я]+ – 可表示任何单词
63
ABBYY FineReader 9.0
用户指南
然后就是将所有这些组合起来并用句点隔开数字(如
1.03.1999)。句点也是正则表达式符号,所以必须在前面添加反斜线 (\)。因此,完整日期的正则表达式应显示为:
((|0)[1–9])|([1|2][0–9])|(30)|(31)\.((|0)[1–9])|(10)|(11)|(12)\.((19)[0–9][0–9])|([0–9][0–
9])|([20][0–9][0–9]|([0–9][0–9])
电子邮件地址的正则表达式:
[a–zA–Z0–9_\–\.]+\@[a–z0–9\.\–]+
术语表
A
ABBYY FineReader 文档 存储文档图像和服务文件的文件夹。
ABBYY Hot Folder & Scheduling
一种计划代理程序,可以让您选择含有图像的文件夹并设置处理该文件夹中图像的时间。选定文件夹中的图像会在指定
时间进行自动处理。
ABBYY Screenshot Reader 用来创建屏幕截图并识别其中文本的应用程序。
缩写词 完整单词或短语的简短表示形式。例如,MS–DOS(Microsoft 磁盘操作系统,即 Microsoft Disk Operating
System 的缩写)、UN(联合国,即 United Nations 的缩写)等。
激活 用户从 ABBYY 获取特殊代码的过程,该代码允许用户在指定计算机上以完全模式使用其软件副本。
激活码 在激活过程中,ABBYY 向每位 ABBYY FineReader 9.0 用户提供的一组代码。生成了 Product ID
的计算机需要激活代码来激活 ABBYY FineReader。
活动区域
图像上的一块选定区域,可进行删除、移动或修改操作。要激活一块区域,请单击它。围绕激活区域的边框为粗体,且
含有一些小方块,拖动这些方块可更改区域的大小。
自动送纸器 (ADF) 将文档自动传给扫描仪的设备。带有 ADF 的扫描仪不需手动操作就可扫描多个页面。ABBYY
FineReader 还支持扫描多页文档。
区域 图像上被边框所包围的部分。ABBYY FineReader 在执行 OCR
之前,先要检测文本、图片、表格和条码区域,以确定图像上需要识别的部分以及识别顺序。
区域模板 包含区域尺寸和位置信息的模板,这些区域位于一系列外观相似的文档内。
自动化管理器
一种内置管理程序,可以让您运行自动化任务、创建并修改自动化任务,以及删除不再使用的自定义自动化任务。
B
条码区域 用作条码图像区域的区域。
亮度 表示黑白图像区域间对比度的扫描参数。设置正确的亮度可提高识别质量。
C
代码页 设置字符代码与字符间相互关系的表格。用户可从代码页提供的集中选择所需字符。
色彩模式 决定是以黑白、灰度还是以彩色(模式)来扫描图像的扫描参数。
合成词
由两个或更多词干组成的单词(一般意义);单词本身在词典中查不到,但其所构成的两个或更多词干能在词典中查到
(ABBYY FineReader 意义)。
D
除斑 删除图像中过小的黑点。
文档打开密码 阻止用户打开 PDF 文档的密码,用户只有在键入作者指定的密码后才能打开该 PDF 文档。
文档选项 选项对话框(工具>选项)中的可选项集。选项集还包含用户语言和模式。用户可保存选项集,然后在其他
ABBYY FineReader 文档中使用(加载)。
文档打印类型
反映源文本如何打印(用激光打印机及类似设备、点阵打印机,还是用打字机)的参数。激光打印的文本应设置自动模
式,打字机打印的文本应设置打字机模式,点阵打印机打印的文本应设置点阵打印机模式。
每英寸的点数 (dpi) 图像分辨率的度量标准。
驱动程序 控制计算机外围设备(如扫描仪、显示器等)的软件程序。
F
字体效果 字体的外观(即粗体、斜体、下划线、删除线、下标、上标、小写)。
I
忽略的字符 单词中出现的任何非字母字符(如音节字符或重音符号)。拼写检查时会忽略这些字符。
倒像 具有白色字符和黑暗背景的图像。
L
License Manager 用于管理 ABBYY FineReader 的许可证和激活 ABBYY FineReader 9.0 Corporate Edition
的实用程序。
连字 两个或更多“粘合”字符的组合(如
fi、fl、ffi)。这些字符很难分开,因为它们通常在打印时“粘合”在一起。将它们作为单独的合成字符处理可提高
OCR 准确性。
64
ABBYY FineReader 9.0
用户指南
M
等宽字体 一种字体(如 Courier New),该字体中所有字符的间隔相同。要使等宽字体获得更好的 OCR
结果,请选择工具>选项...,单击文档选项卡,在文档打印类型下选择打字机。
O
全字体系统 无需事先训练就能识别任何字体和字体大小的字符的识别系统。
可选连字符 一种连字符
(¬),表示当位于行尾的单词或词组需要拆开时,拆分的确切位置(如“autoformat”应拆分成“auto–
format”)。ABBYY FineReader 会以可选连字符替换词典单词中出现的所有连字符。
P
页面布局 页面上文本、表格、图片、段和列的布置,以及字体、字体大小、字体颜色、文本背景和文本方向。
页面布局分析
检测页面图像上区域的过程。区域可分为五种类型:文本、图片、表格、条码和识别区域。页面布局分析可在单击读取
按钮时自动执行,也可由用户在进行 OCR 操作前手动执行。
词形变化表 单词所有语法形式的集合。
模式 在模式训练过程中创建的对集(每对包含一个字符图像和字符本身)。
PDF 安全设置 可阻止打开、编辑、复制或打印 PDF
文档的一些限制。这些设置包括“文档打开密码”、“权限密码”和加密等级。
权限密码 阻止其他用户打印和编辑 PDF
文档的密码,这些用户只有在键入作者指定的密码后才可对该文档进行这些操作。如果为文档选择了一些安全设置,则
其他用户必须键入作者指定的密码方可更改这些设置。
图片区域
用作图像区域(其中包含图片)的区域。此类区域可以包含实际图片或将显示为图片的其他任何对象(如文本部分)。
主要形式 词典条目中中心词的形式。
Product ID 在特定计算机上激活 ABBYY FineReader 时,基于硬件配置而自动生成的参数。
禁用字符
如果某些字符始终不会出现在已识别文本中,则用户可能已将它们指定在语言组属性的禁用字符集中。指定这些字符可
提高 OCR 的速度和质量。
R
分辨率 确定扫描过程中使用多少 dpi 的扫描参数。设置为 10pt 字体大小及更大的文本应使用 300 dpi
的分辨率,而较小字体大小(9pt 及更小)的文本适合使用 400 至 600 dpi 的分辨率。
识别区域 包含将由 ABBYY FineReader 自动分析的图像一部分的区域。
S
扫描仪 将图像输入计算机的设备。
分隔符 可分隔单词的符号(如 /、\、划线),它们自身通过单词中的空格来分隔。
T
表格区域
用于表格图像区域或表格状文本区域的区域。应用程序读取此类区域时,会在区域内绘制竖排和横排的分隔符来形成表
格。该区域在输出文本中显示为一张表格。
带标记的 PDF 包含逻辑部分、图片和表格等文档结构信息的 PDF 文档。该结构通过 PDF
标记进行编码。有这些标记的 PDF 文档可重新载入以适合各种屏幕尺寸,在手持设备上显示效果也很好。
文本区域 含有文本的区域。请注意,文本区域只能含有单列文本。
训练 在字符图像和字符本身之间建立对应关系。(有关详细信息,请参见识别及训练部分。)
U
不确定字符 可能被错误识别的字符。ABBYY FineReader 会突出显示不确定字符。
不确定单词 包含一个或多个不确定字符的单词。
Unicode 一种由 Unicode Consortium (Unicode, Inc.) 开发的标准。该标准是一种 16
位国际编码系统,用于处理以世界主要语言编写的文本。该标准可轻松扩展。Unicode
标准决定字符编码,以及在处理以某些语言编写的文本时使用的属性和步骤。
键盘快捷键
要自定义快捷键:
1. 选择工具>自定义工具栏…以打开自定义工具栏和快捷键对话框。
2. 单击键盘快捷键选项卡,然后从类别:下拉列表中选择所需种类。
3. 从命令:列表中,选择您要为其创建键盘快捷键的命令。
4. 在按新快捷键字段内单击鼠标,然后按要用作此命令的按键组合。
5. 单击分配按钮。按键组合会出现在当前快捷键:字段中。
65
ABBYY FineReader 9.0
用户指南
6. 单击确定以保存更改并关闭对话框。
● 文件菜单
● 编辑菜单
● 视图菜单
● 文档菜单
● 页面菜单
● 区域菜单
● 工具菜单
● 帮助菜单
● 常用
“文件”菜单
操作 按键
打开图像文件 CTRL+O
扫描图像 CTRL+K
停止扫描
创建新的 FineReader 文档 CTRL+N
打开 FineReader 文档 CTRL+SHIFT+N
保存页面 CTRL+S
用电子邮件发送 FineReader
文档
用电子邮件发送图像 CTRL+ALT+M
将图像保存到文件中 CTRL+ALT+S
CTRL+BACKSPACE
CTRL+M
“编辑”菜单
操作 按键
撤消上次操作 CTRL+Z
重复上次操作 CTRL+Enter
剪切选定内容并其放到剪贴板上 CTRL+X
将选定内容复制到剪贴板 CTRL+INS
CTRL+C
粘贴剪贴板内容 CTRL+V
SHIFT+INS
66
ABBYY FineReader 9.0
用户指南
选择文本窗口中的所有文本、文档窗口中的所有页面,或图像窗口中的所有区域 CTRL+A
查找指定文本 CTRL+F
查找下一个 F3
搜索并替换指定文本 CTRL+H
“视图”菜单
操作 按键
显示/隐藏文档窗口 F5
显示图像窗口而隐藏文本窗口 F6
显示图像窗口和文本窗口 F7
显示文本窗口而隐藏图像窗口 F8
显示缩放窗口 CTRL+F5
转到下一个窗口 CTRL+TAB
转到上一个窗口 CTRL+SHIFT+TAB
如果文档窗口处于活动状态,则打开页面属性对话框,
如果图像窗口处于活动状态,则打开区域属性对话框,
如果文本窗口处于活动状态,则打开文本属性对话框
ALT+ENTER
“文档”菜单
操作 按键
读取文档 CTRL+SHIFT+R
分析文档布局 CTRL+SHIFT+E
打开下一页面 ALT+向上箭头
打开上一页面 ALT+向下箭头
打开指定页码的页面 CTRL+G
关闭当前页面 CTRL+F4
67
ABBYY FineReader 9.0
用户指南
“页面”菜单
操作 按键
读取选定页面 CTRL+R
分析选定页面的布局 CTRL+SHIFT+E
打开编辑图像对话框 CTRL+SHIFT+C
打开页面属性对话框 ALT+ENTER
删除图像窗口中的所有区域和文本窗口中的已识别文本 CTRL+DEL
删除文本窗口中的已识别文本 CTRL+SHIFT+DEL
“区域”菜单
操作 按键
读取当前区域 CTRL+SHIFT+B
将区域类型更改为文本 CTRL+2
将区域类型更改为表格 CTRL+3
将区域类型更改为图片 CTRL+4
将区域类型更改为条码 CTRL+5
将区域类型更改为识别区域 CTRL+1
“工具”菜单
操作 按键
打开自动化管理器 CTRL+T
启动 ABBYY Hot Folder & Scheduling CTRL+SHIFT+H
查看和编辑词典 CTRL+ALT+D
打开语言编辑器对话框,其中可创建或编辑语言或语言组 CTRL+SHIFT+L
打开模式编辑器对话框,其中可创建和修改模式 CTRL+SHIFT+A
检查已识别的文本 CTRL+F7
68
ABBYY FineReader 9.0
用户指南
转到下一处错误 SHIFT+F4
转到上一处错误 SHIFT+F5
打开选项对话框 CTRL+SHIFT+O
“帮助”菜单
操作 按键
打开“帮助” F1
常用
操作 按键
将选定内容设为粗体 CTRL+B
将选定内容设为斜体 CTRL+I
将选定内容标上下划线 CTRL+U
转到下一个表格单元格 向左、向右、向上和向下箭头
激活文档窗口 ALT+1
激活图像窗口 ALT+2
激活文本窗口 ALT+3
激活缩放窗口 ALT+4
69
ABBYY FineReader 9.0
用户指南
如何购买 ABBYY 产品
您可从我们的网上商店或合作伙伴处购买 ABBYY 产品(请从 http://www.abbyy.com 上获取 ABBYY
的合作伙伴列表)。
有关 ABBYY 产品的详细信息,请
● 访问我们的网站 http://www.abbyy.com
● 致电 +7 495 783 37 00 或发送传真至 +7 495 783 26 63
● 发送电子邮件至 sales@abbyy.com。
可从 www.paratype.com/shop/ 购买各种语言的其他字体。
ABBYY 办事处和技术支持联系方式
北美洲/中美洲 美国、加拿大、墨西哥和中美洲国家/地区的客户请联系:
ABBYY USA
电话:+1 510 226 6717
传真:+1 510 226 6069
地址:47221 Fremont Boulevard, Fremont, California 94538, USA
电子邮件:sales@abbyyusa.com
技术支持电子邮件:support@abbyyusa.com
网址:http://www.abbyyusa.com
西欧 奥地利、比利时、荷兰、卢森堡、丹麦、法国、德国、希腊、意大利、爱尔兰、挪威、葡
萄牙、西班牙、瑞典、瑞士、英国或其他西欧国家/地区的客户请联系:
ABBYY Europe GmbH
电话:+49 89 511 159 0
传真:+49 89 511 159 59
地址:Elsenheimerstrasse 49, 80687 Munich, Germany
电子邮件:sales_eu@abbyy.com
技术支持电子邮件:support_eu@abbyy.com
网址:http://www.abbyy.com
东欧和地中海地区 阿尔巴尼亚、波斯尼亚和黑塞哥维那、保加利亚、克罗地亚、捷克共和国、匈牙利、以色
列、马其顿、马耳他、摩尔多瓦、波兰、罗马尼亚、塞尔维亚、斯洛伐克、土耳其或乌克
兰的客户请联系:
ABBYY Ukraine
电话:+380 44 490 9999
传真:+380 44 490 9461
地址:P.O. Box 23, 02002 Kiev, Ukraine
电子邮件:sales@abbyy.ua
技术支持电话:+380 44 490 9463
技术支持电子邮件:support@abbyy.ua
网址:http://www.abbyy.ua
日本 日本的客户请联系:
ABBYY Japan
电话:+81–42–795–1901
传真:+81–42–795–1901
地址:658–1 Tsuruma, Machida–shi, Tokyo 194–8510
电子邮件:sales@abbyyusa.com
技术支持电子邮件:support@abbyyusa.com
http://www.abbyy.com
其他地区 上述国家/地区以外的客户请联系:
ABBYY Russia
电话:+7 495 783 3700
70
ABBYY FineReader 9.0
用户指南
传真:+7 495 783 2663
地址:P.O. Box 49, Moscow 129301, Russia, ABBYY Software LLC
电子邮件:sales@abbyy.com
技术支持电子邮件:support@abbyy.ru
网址:http://www.abbyy.ru
http://www.abbyy.com
71
ABBYY FineReader 9.0
用户指南
技术支持
如对使用 ABBYY FineReader
存有疑问,请在联系我们的技术支持服务之前参考您手中的所有文件(用户指南和帮助)。还可浏览 ABBYY
网站的技术支持部分,网址为 www.abbyy.com/support – 您可能会在那里找到问题的解答。
为了能对您的问题作出令人满意的回答,我们的技术支持服务人员需要以下信息:
● 您的完整姓名
● 您公司或机构的名称(如果有的话)
● 您的电话号码(或传真/电子邮件)
● 您的 ABBYY FineReader 软件包序列号
● 内部版本号(参见帮助>关于…,查找内部版本字段)。
● 对问题的一般描述及完整的错误消息文本(如果有的话)
● 您计算机和处理器的类型
● Windows 操作系统版本
● 任何其他您认为重要的信息
可自动获取某些上述信息中:
1. 选择帮助>关于…
2. 在关于 ABBYY FineReader 对话框中单击系统信息…按钮。
将打开一个显示某些上述信息的对话框。
重要!仅注册用户可获得免费技术支持。 可在 ABBYY 网站上或选择Help>立即注册…来注册您的应用程序副本。
72