Схема технологического процесса представлена на рис. 1.
![]() |
Рис. 1. Схема технологического процесса ввода текста
книги
|
Этапы, процедуры и операции ввода книги представлены в табл. 1. Ниже данной таблицы приводятся инструкции по выполнению процедур и их операции.
Этапы
|
Процедуры
|
Операции
|
1. Автоматизированный ввод текстовой и графической
информации
|
1.1. Установка параметров сканирования, сегментации,
распознавания и проверки
|
1.1.1. Настройка параметров сканирования
1.1.2. Настройка параметров сегментации 1.1.3. Настройка параметров распознавания 1.1.4. Настройка параметров проверки орфографии |
1.2. Сканирование книги
|
1.2.1. Пробное сканирование
1.2.2. Сканирование всей книги |
|
1.3. Редактирование отсканированных страниц
|
1.3.1. Проверка ориентации изображении и их исправление
1.3.2. Очистка изображения от «загрязнения» в виде черных точек |
|
1.4. Сегментация
|
||
1.5. Редактирование отсегментированных страниц
|
1.5.1. Проверка размера блоков
1.5.2. Проверка типа блоков |
|
2. Распознавание отсканированных изображений
|
2.1. Распознавание
|
|
3. Внесение корректуры в распознанный текст
|
3.1. Редактирование распознанного текста и проверка
орфографии
|
|
4. Создание документа MS Word
|
4.1. Создание документа
|
4.1.1.Создание нового документа
4.1.2. Настройка параметров его страниц 4.1.3. Сохранение в файл |
4.2. Экспорт текста в MS Word
|
||
4.3. Редактирование документа в MS Word
|
4.3.1. Создание рисунков в среде Visio
4.3.2. Создание формульного набора в MS Equation 4.3.3. Правка текста книги. 4.3.4. Создание колонтитулов 4.3.5. Вставка страниц |
1.2.1. Установка параметров сканирования, сегментации, распознавания и проверки
а) Операция настройки параметров сканирования.
Сканирование производится с помощью программного обеспечения (ПО) FineReader 4.0 фирмы ABBYY и сканера “HPII Scan” корпорации Hewlett Packard.
1. После открытия ПО FineReder 4.0 из меню «Scan&Read» выберите пункт «Установки сканера…»
2. Если у Вас еще не выбран сканер, с которым Вы будете работать, то нажмите кнопку «Выбрать сканер...» и укажите Вашу модель сканера, с которым будете работать.
3. Нажмите кнопку «Установки сканера...»
4. В открывшемся диалоге установите формат сканируемого изображения, разрешение, яркость, ориентацию сканируемого изображения, и т.п.
Главными параметрами сканирования являются:
· разрешение получаемого изображения (resolution);
· контрастность (contrast);
· яркость (brightness).
Яркость: для светлых документов яркость необходимо установить ниже (сделать их темнее), для темных - выше (сделать их светлее).
Разрешение: 300 dpi - для большинства документов; 400 - 600 dpi - для документов, набранных мелким шрифтом.
Контрастность: в данном случае оставляем по умолчанию.
б) Операция настройки параметров сегментации.
Сегментация происходят быстрее, если обрабатываемое изображение не показывается на экране компьютера.
Чтобы указать, показывать или не показывать изображение при сегментации, необходимо произвести следующие настройки:
1. В меню «Сервис» выберите пункт «Опции...»
2. В диалоге «Опции» выберите закладку «Установки».
3. В группе «Показывать» отметьте или, соответственно, снимите отметку с пункта «Изображение при сегментации и распознавании».
Чтобы автоматизировать процедуру сегментации, необходимо установить следующим образом:
1. Из меню «Сервис» выберите пункт «Опции…»
2. В диалоге «Опции» выберите закладку «Сегментирование».
3. В группе «Расположение текста» выберите пункт «Автоматическое определение».
в) Операция настройки параметров распознавания.
Главными параметрами распознавания являются язык распознавания и тип текста.
При распознавании текста книги необходимо выбрать нужный язык, слова которых встречаются в распознаваемом тексте, из списка на панели Распознавание. В нашем случае устанавливаем «Русско-Английский».
Тип текста определяется в системе автоматически.
г) Операция настройки параметров проверки орфографии.
При проверке орфографии у нас есть следующие возможности:
· Останавливаться на правильных неуверенно распознанных словах.
· Останавливаться на редких формах.
· Автоматическая коррекция пробелов до и после знаков препинания.
· Останавливаться между страницами при проверке орфографии.
Чтобы установить опции, необходимо сделать таким образом:
1. Из меню «Сервис» выберите пункт «Опции...».
2. В диалоге «Опции» выберите закладку «Проверка».
3. Отметьте нужные пункты (желательно все пункты).
1.2.2. Операция сканирования книги
а) Операция пробного сканирования
Пробное сканирование необходимо для того, чтобы определить качество сканирования страницы книги.
Для этого следует произвести следующим образом:
1. Выбрать пункт «Сканировать» в меню «Scan&Read».
2. В диалоговом окне управления сканера нажать кнопку «Предварительный просмотр» (в нерусифицированном версии диалогового окна – «Preview full page»).
После того, как отсканирована страница, можно настроить оптимальные параметры сканирования и установить границы сканирования. Результаты настройки обычно сразу отображаются в окне предварительного просмотра изображения. По полученному результату мы определяем границы (участок) сканирования, как показано на рис. 2, а также регулируем яркость.
![]() |
Рис. 2. Предварительный просмотр
|
Необходимо также учитывать то, что в середине изображения (точнее между двумя страницами на изображении) имеется темная полоса, причина которой является толстая книга. Этот недостаток надо исправить путём нажатия на книгу, чтобы сузить эту полосу, как это показано на рис.3.
![]() |
Рис. 3. Исправление недостатка “Полоса в середине
листа”
|
б) Сканирование всей книги.
![]() |
После того, как выбрали необходимые опции настройки, можно начать процесс сканирования через пункт «Сканировать много страниц» в меню «Scan&Read». Результатом сканирования одной страницы является появление в левой части ПО значка, который содержит порядковый номер отсканированного изображения (рис.4). Для новых страниц необходимо нажать каждый раз кнопки «ОК» в диалоговом окне управления сканером. |
![]() |
1.2.3. Операция редактирования изображения
а) Проверка ориентации изображении и их исправление
Распознаваемое изображение должно иметь стандартную ориентацию: текст должен читаться сверху вниз и строки должны быть параллельны нижнему краю экрана. Если изображение было отсканировано в вертикальном виде, то его необходимо перевести в стандартный вид (один из примеров на рис.5). Выполняется таким образом:
1. Выделите нужные изображения в левой части ПО.
2. Вариант 1. Нажмите кнопку на панели «Повернуть против часовой», чтобы повернуть изображения влево на 90 градусов.
Вариант 2. Нажмите кнопку «Повернуть по часовой», чтобы повернуть изображения вправо на 90 градусов.
Вариант 3. Из меню Вид выберите пункт «Повернуть изображение», а затем подпункт «Перевернуть», чтобы повернуть изображения на 180 градусов.
б) Очистка изображения
Из-за плохого качества бумаги на отсканированных изображениях возможен «мусор» в виде черных точек, поэтому необходимо очистить их, чтобы ПО лучше распознавала изображения. Делается следующим образом:
1. Выделите нужные изображения с помощью мыши.
2. Нажмите кнопку «Очистить изображение» на панели Стандартная.
После этого уже можно сохранить изображения в пакете с помощью пункта «Сохранить пакет…» в меню «Файл».
![]() |
Рис. 5. Перевод изображения в горизонтальный вид
|
![]() |
Для того, чтобы автоматически сегментировать все изображения, из меню «Scan&Read» выберите пункт «Сегментировать все страницы...». Результат этой операции: изображения покрылись прямоугольниками. Номера на прямоугольниках означают порядковый номер процесса распознавания, а цвет границы означает тип блока. По умолчанию ПО FineReader 4.0 назначает цвета: · серый цвет – для нераспознаваемых символов, слов (формулы). · зелёный цвет – текстовый блок. · коричневый цвет– блок “таблица”. · красный цвет– блок “рисунок”. · ярко-зеленый цвет– блок “штрих-код”. В левой части ПО значок изображения изменился на зеленоватый цвет (рис.6). |
![]() |
1.2.5. Редактирование отсегментированных страниц
а) Изменение размера блока
После автоматической сегментации обычно бывает неправильно выделен блок по типу или по охвату нужной области.
Это можно исправить следующим образом:
1. Установите курсор мыши на границу блока, так что он принимает форму двунаправленной стрелки.
2. Нажмите мышью и потяните в нужную сторону. Граница блока, на которую Вы нажали, становится пунктирной и двигается вслед за мышью.
3. Отпустите кнопку мыши. Границы блока снова становятся сплошными.
б) Изменение типа блока
Бывает, что тип не соответствует тому типу на изображении. Например, вместо “текст” был текст был выделен как “таблица”. Исправляется так:
1. Активизируйте блок или несколько блоков.
2. Нажмите правой кнопкой мыши на одном из выделенных блоков и из локального меню выберите пункт «Тип блока», а затем - нужный подпункт.
В процессе редактирования можно добавлять, удалять и видоизменять блоки с помощью контекстного меню (выделить блок правой кнопкой мыши – рис. 7). Один из некоторых случаев исправления блоков показан на рис.7. После того, как все страницы правильно выделены блоками, можно приступать к распознаванию текста.
![]() |
Рис.7. Контекстное меню при выделении блока
|
![]() |
Рис. 8. Исправление блоков текста двух страниц
|
1.2.6. Операция распознавания текста
Процесс распознавания текста – получение текста из изображения, ключевой момент в технологии ввода текста. Процесс распознавания происходит автоматически без участия пользователя путем выбора пункта «Распознать все нераспознанные страницы» в меню «Scan&Read». Признаком окончания процесса распознавания является то, что в середине экрана вместо графического изображения появился текст, и в левой части значок изменился, как показано на рис.9.
1.2.7. Операция редактирования распознанного текста и проверки орфографии
Проверка орфографии начинается с выбором пункта «Проверить» в меню «Сервис». Работаем на диалоговом окне «Проверка орфографии». Чтобы вернуться к документу после того, как проверка закончена, нажмите кнопку «Закрыть» в диалоге «Проверка орфографии».
![]() |
1.2.8.
Создание документа
MS Word
а) Создание документа В MS Word’е создается новый документ с помощью кнопки «Создать» на панели Стандартная. На экране появится чистый лист. б) Настройка параметры страниц Выбирать пункт «Параметры страницы…» в меню «Файл», после чего появится диалог «Параметры страницы». В нашем случае необходимо выбрать следующие настройки: 1. Закладка «Макет документа». · Размер бумаги – А5; · Ориентация – книжная; · Применить – ко всему документу. 2. Закладка «Макет». · Различать колонтитулы – четных и нечетных страниц, первой страницы; · Применить – ко всему документу. |
![]() |
3. Закладка «Поля».
· Отметить «Зеркальные поля»;
· Верхнее – 1,5;
· Нижнее – 1,6;
· Левое - 1;
· Правое – 1,5;
· Переплет – 1,3;
· От края до колонтитула – верхнего 0,5 и нижнего 0,5;
· Применить – ко всему документу.
в) Сохранение файла
После всей настройки сохранить новый документ под нужным именем в нужный каталог.
1.2.9. Операция экспортирования текста в MS Word
Для того, чтобы сохранить результаты распознавания в создавщий файл, нужно в FineReader:
1. Активизируйте окно пакета в левой части экрана.
2. Выберите пункт «Сохранить в файл…» в меню «Файл».
3. В открывшемся диалоге «Сохранить как» укажите расширение файла *.DOC, выберите диск, каталог и созданный ранее файл, в который Вы хотите экспортировать распознанный текст.
4. Установите переключатель «Какие страницы сохранять» в положение «Все распознанные».
5. Чтобы записывать все страницы в файл, отметьте пункт «Все страницы в один файл».
6. Нажмите кнопку OK.
1.2.10. Операция редактирования документа в MS Word
а) Создание рисунков в среде Visio
Для уменьшения и четкости рисунков в процессе ввода графической информации рисунки должны были введены с помощью Visio (все рисунки книги преимущественно состоят из графиков и схем). Это значит необходимо вручную создавать рисунки в Visio. Процесс создания рисунков таков:
· Запустите ПО Visio Professional 5.0.
· Выберите пункт «Page Setup» в меню «File», чтобы настроить метрическую систему страницы с in (дюймы) на mm (миллиметры). Для этого на закладке «Page Size» выбрать опцию Metric (ISO).
· Выберите закладку «Drawing Scale» опцию Metric для того, чтобы рисунки измерялись в метрическом измерении.
· Нажмите кнопку OK.
После настройки можно создавать рисунки с книги с помощью инструментарии на панели Стандартный и Рисование, а также шаблона фигур «Basic Shapes». Необходимо учесть размеры рисунков на книге. После того, как нарисовали рисунок, желательно выделить все элементы фигур и сгруппировать их. Далее можно пересылать через буфер или OLE-вставлять файл в Word.
б) Создание формульного набора в MS Equation
В нужном месте документа MS Word вводятся формульный набор с помощью MS Equation. Делается следующим образом:
1. Выберите пункт «Объект…» в меню «Вставка».
2. В диалоге «Вставка объекта» на закладке Создание в списке выбрать (если есть или установлен) Microsoft Equation.
3. Нажмите кнопку ОК
Появится окно ввода формульного набора. Формулу вводят с помощью набора клавиши или мыши путем выбора на панели элементы формульного выражения. После того, как уже набрана формула, нажмите мышью документ MS Word.
в) Правка текста книги.
Эта операция подразумевает исправление ошибок и форматирования, которые были получены при распознавании текста. Создается нужные стили текста (после просмотра книги-оригинала) в пункте «Стили…» меню «Формат». В нашем случае создается следующие стили написания текста: Основной, Заголовок 1, Заголовок 2, Заголовок 3, Заголовок 4 и Листинг. Берётся книга-оригинал и с помощью её сверяется весь текст страницы и исправляются ошибки форматирования. После того, как текст отредактирован, документ необходимо сохранить в файл.
Затем, желательно, исправляем ошибки в орфографии и грамматике, которые не заметил сам редактор электронной книги с помощью пункта «Правописание» меню «Сервис».
г) Создание колонтитулов
Для первой страницы не создаем колонтитул, а для остальных создаем колонтитулы, причем в четных и нечетных страницах они различаются. На четных страницах – название книги, на нечетных страницах – глава текущей страницы. Колонтитул создаётся таким образом:
1. Выберите пункт «Колонтитулы» в меню «Вид».
2. Для создания верхнего четного колонтитула введите текст названия книги в область верхнего колонтитула четной страницы.
3. Для создания верхнего нечетного колонтитула в области верхнего колонтитула нечетной страницы выберите пункт «Поле…» в меню «Вставка», затем выбрать из списка Категории – Связи и ссылки и из списка Поля – StileRef (вставка текста из абзаца указанного стиля). Нажмите кнопку Параметры. Появится диалог «Параметры поля» и на закладке «Стили» выберите Заголовок 1, далее после выбора стиля нажать кнопки последовательно Добавить и ОК.
д) Вставка страниц
Выполняется следующим образом:
1. Выберите пункт «Номера страниц» в меню «Вставка».
2. Выберите из списка Положение, где следует печатать номера страниц: вверху страницы, в верхнем колонтитуле.
3. Установите остальные параметры: Выравнивание – снаружи, не отмечать – Номер на первой странице.
Ошибки встречается почти всюду, особенно – в листингах программ, которые имели очень мелкий шрифт (6,5 пикселов). В тексте имелись ошибки – все они в основном были связаны с плохим качеством сканирования текста (т.е. с разрешением 150 dpi из-за отсутствия лучшего драйвера на сканер «HPII Scan»), а другой тип ошибок связан с допущением отпечатков, которые ввёл автор оригинала. Неправильный вывод формул не считается ошибкой.
Для анализа основного текста возьмем страницы 154-158 (9 967 символов без пробелов, 1424 слов), ошибки представлены в табл. 2.
Ошибка в распознанном тексте |
Исправление |
Частота (кол-во из правильных) |
Соотношение (%) |
ч |
з |
7 из 215 |
3,25 |
Й |
й |
1 из 131 |
0,76 |
а |
я |
1 из 197 |
0,51 |
с |
е |
2 из 889 |
0,22 |
н |
и |
3 из 791 |
0,38 |
- |
т |
1 из 645 |
0,16 |
ш |
м |
1 из 306 |
0,33 |
н |
ш |
1 из 39 |
2,56 |
ц |
и |
1 из 791 |
0,13 |
ь (далее любой) |
ы |
2 из163 |
1,23 |
отпечатка |
2 из 9967 |
0,02 |
|
русские слова на английском |
2 из 1424 |
0,14 |
Высокую степень ошибок имеет текст программы (листинг), здесь полностью необходимо переписывать вручную через ввод клавиатуры.
Причина появления этих ошибок – похожие по построению символы и плохая разрешающая способность сканера при вводе.
Действия по устранению – ручное редактирование, а потом повторная проверка.
Для того, чтобы открыть ПО FineReader и установить параметры сканирования, сегментации, распознавания и проверки, было потрачено время:
Тустановки= Тоткрытия ПО+ Твызов
окна настройки+ Тнастройки,
|
где
|
Тоткрытия ПО – время загрузки ПО FineReader, Твызов окна настройки – вызов диалогового окна «Опции», Тнастройки – время настройки параметров сканирования, сегментации, распознавания и проверки. |
В нашем случае
Тустановки=14+5+52=71 секунд = 1,18 мин.
|
На процедуру сканирования было потрачено время:
Тсканиров.общее= (Тподготовки+
Тсканирования)*кол-во сканируемых страниц.
|
Здесь Тподготовки включает время открытия крышки сканера, поднятия книги, переворачивания страниц, закрытия крышки сканера. На это уходит в среднем 20 секунд. Тсканирования длится в среднем на одну страницу 13 секунд. Книга содержит 255 страниц, значит сканируется 128 изображении. В итоге
Тсканиров.общее= (20+13)*128=4224 секунд
=70,4 мин.
|
На процедуру редактирования отсканированных изображений потрачено время
Тредакт. изобр.= (Тповорота+ Точистки)*кол-во
отсканированных страниц + Тсохр.пакета, |
где
|
Тповорота – время операции поворота
изображения в нужное положение, Точистки – время очистки от «загрязнения», Тсохр.пакета – время сохранения пакета. |
В итоге потрачено на эту процедуру
Тредакт. изобр.= (21+ 6)*128 + 22=3478 секунд
=57,97 мин.
|
Для того, чтобы сегментировать изображения и редактировать его необходимо потратить время:
Тсегментация общ.= (Твыделения блоков
+ Тпроверка блоков)* кол-во
отсканиров.стр. = (6+12)*128=2304 секунд = 38,4 мин. |
Тогда время автоматизированного ввода составляет
Тэтап 1 = Тустановки + Тсканиров.общее
+ Тредакт. изобр.+ Тсегментация общ.=
= 1,18+70,4+57,97+38,4= 167,95 мин. = 2 часа 47,95 мин. |
Время распознавания выражена следующим образом:
Тэтап 2 = Траспозн..стр* кол-во
отсканиров.стр.
|
где Траспозн..стр – время распознавания одной страницы.
Самое большое слагаемое в этом выражении – Траспозн.стр (оно меняется в зависимости от сложности символов и их кол-ва), 40 секунд. Тогда
Тэтап 2 = 40* 128 = 5120 секунд = 1 час 25,33
мин.
|
Это самый кропотливый этап и заключается в проверки распознанного текста. Величина исправления одного страницы очень различная и составляет от 2 мин до 50 мин. Возьмем среднюю величину исправления одной распознанной страницы 30 минут. Тогда
Тэтап 3 = 30* 128 = 3840 минут = 64 часов.
|
Для того, чтобы создать новый документ для импорта распознанного текста (т.е. открыть ПО MS Word, настроить параметры страницы и сохранения документа под именем), было потрачено время:
Тсоздания= Тоткрытия ПО+ Твызов
окна настройки+ Тнастройки+ Тсохранения
|
где
|
Тоткрытия ПО – время загрузки ПО MS Word, Твызов окна настройки – вызов диалогового окна «Параметры страницы», Тнастройки – время настройки параметров страницы, Тсохранения – время сохранения созданного документа. |
В нашем случае
Тсоздания=10+5+47+25=87 секунд = 1,45 мин.
|
Процедура экспорта текста из ПО FineReader в ПО MS Word составляет
Тэкспорт= 5 мин.
|
В эту величину входит время закрытия ПО FineReader (с этого момента это ПО не понадобится) и сохранения импортированного документа MS Word.
Время процедуры редактирования документа в MS Word’е имеет следующий вид:
Тредакт. = Тсоздания колонтитула +
Тсоздания рисунка + Тсоздания формулы +
+Твставки страниц +Тправки текста Тсоздания колонтитула включает время создания колонтитула = 20 секунд =0,33 мин. |
Тсоздания рисунка – величина неопределённая, так как рисунки бывают разной сложности. Средняя величина создания 1-ого рисунка составляет 3 мин, всего в книге 53 рисунков, значит Тсоздания рисунка=3*53=159 мин.
Тсоздания формулы составляет произведением среднего времени создания формульного набора (в нем также включает спецсимволы, греческие символы и т.д) на их кол-во. Средняя величина создания 1-ого формульного набора составляет 6 секунд, всего в документе использовалось 1642 формульных выражений, значит Тсоздания формулы=6*1642=9852 секунд = 164,2 мин.
Твставки страниц – время вставки страниц. Оно составляет 1 мин.
Тправки текста – включает исправления различных неучтенных исправлений и придания документа в соответствующий вид, из этого времени большое время затрачивается на редактирование листинг программы (т.е. полное переписывание листинга). По записанным показателям в среднем на исправление одного страницы документа составляет 12 мин, в итоге Тправки текста =8*255=2040 мин.
Тогда на коррекции документа в MS Word потребовалось
Тредакт. = 0,33+159+164,2+1+2040=2364,53
мин.
|
Для того, чтобы создавать документ в MS Word потребовалось
Тэтап 4. = 1,45+5+2364,53= 2370,98 мин =
39 часов 30,98 мин.
|
Суммарное время технологического процесса ввода книги составляет:
Тввод = Тэтап 1 + Тэтап 2
+ Тэтап 3 + Тэтап 4 =
=2:47,95 + 1:25,33 + 64:00 + 39:30,98 = 107 часов 44,26 мин |
Ввод книги составляет приблизительно 108 часов, что составляет в среднем 42 мин на 1 страницу книги.
Эта величина является нормальной, т.к. в процессе ввода текста необходимо ввести большое количество рисунков и формульных выражений.
Процесс ввода текстовой и графической информации – очень тяжёлая и трудная работа с точки зрения временных затрат. Большое количество времени уделяется на корректуру текста, но ввод текста очень сильно зависит от результатов сканирования, например, от качества сканируемого материала и от настройки параметров сканирования.
На основании результатов можно сказать, что ввод технической текстовой информации сложен и требует очень много ресурсных затрат, чем ручной ввод текстовой информации.