Что такое оцифровка? Сканирование архива: как оцифровываются архивные документы Специальное оборудование для оцифровки.

Оцифровка бумажных архивов включает в себя сканирование и каталогизацию документов. Чем более крупной является организация, компания, тем сложнее ее документооборот, тем больше хранится документов в ее архивах и тем, соответственно, привлекательнее выглядят услуги по оцифровке архивов.

Экономия на поиске

  1. Зачастую для поиска в архиве необходимого документа приходится затрачивать массу времени и усилий. А может возникнуть ситуация, когда один и тот же документ требуется сразу нескольким сотрудникам – в таком случае приходится делать его копию.
  2. Кроме того, стоит отметить, что частое обращение к бумажным документам рано или поздно приводит к их повреждению, а иногда и “потере”, если ошибочно расположить дела в архиве.
  3. А ведь решить все эти проблемы достаточно просто – необходимо просто обеспечить оцифровку бумажных архивов, использовать в работе автоматизированные информационные системы, которые обеспечат оперативный поиск, а также доступ к электронным копиям документов.
  4. Оцифровка бумажных архивов обладает множеством преимуществ. И речь идет не только о качественно новых возможностях по предоставлению и использованию документации компании, но и об обеспечении сохранности данной информации.

Выгода от оцифрованных документов:

  • уменьшение нагрузки на бумажный архив и участок ксерокопирования;
  • возможность высвобождения архивных площадей;
  • сокращение расходов на содержание бумажных архивов.

Оцифровка бумажных архивов: этапы

Первый этап. Все работы по оцифровке архивов начинаются с экспертизы документов. В результате анализа документов определяется структура бумажного массива, а также количественные и качественные характеристики документов. На основе результатов экспертизы осуществляется выбор технологии и оцифровки документов, критериев оценки качества, выбор состава оборудования, согласовываются сроки исполнения и бюджет.

Второй этап представляет собой непосредственно сканирование. Оцифровка архивов представляет собой процесс создания графических образов документа с использованием сканеров. Перед тем, как переводить документ в электронный вид, оператор подберет оптимальный режим сканирования, проведет, собственно, сканирование, контролируя при этом качество получаемых изображений на мониторе.

Эффект от внедрения электронного архива

Результатом оцифровки бумажных архивов являются электронные копии документов. Профессиональное оборудование, которое использует наша компания, позволяет сканировать различные документы со скоростью до нескольких тысяч страниц в день – в пакетном режиме. Полученные файлы записываются на флешки, CD, DVD и иные носители.

Итоги оцифровки архива

Сразу после того, как оцифровка архивов завершена, графические образы проходят автоматизированную обработку – разделение по страницам разворотов, обрезку по краям, выравнивание по строкам, удаление шумов, улучшение качества образов и так далее. Параметры для каталогизации отсканированных документов вы сможете задать на свое усмотрение, тем самым обеспечив оптимизацию бизнес процессов со стороны документоведения.

21.01.2016, Чт, 17:51, Мск, Текст: Павел Притула 3068

Перевод в электронный вид исторических документов и формирование баз данных на основе архивных описей – один из сложнейших видов оцифровки, требующий особого оборудования, технологий и внимательного отношения к оригиналам документов.

Как и во всех остальных отраслях государственной и коммерческой деятельности, оцифровка фондов в государственных и муниципальных архивах служит решению сразу нескольких задач: наведению порядка в фондовом учете, упрощению поиска документов, снижению нагрузки на сотрудников и времени при отработке запросов пользователей, сохранению ветхих оригиналов, переходу к предоставлению архивных услуг в электронном виде, в том числе платных услуг.

Работы по переводу архивных фондов в электронный вид начались еще на рубеже тысячелетий. За прошедшее с тех пор время российскими архивами оцифрованы сотни тысяч исторических документов и описей. Но все равно это лишь малая часть Архивного Фонда РФ.

Два подхода

1. Если условно представить фонды архивного учреждения в виде пирамиды, то основной ее объем будут составлять непосредственно документы, и лишь малую часть на вершине – научно-справочный аппарат (описи), обеспечивающий навигацию по фондам и поиск требуемых дел и документов.


Многие учреждения используют оцифровку для решения разовых, узких задач. По аналогии с внедрением множества программных продуктов под каждую мелкую задачу, такая оцифровка называется «лоскутной». Например, в связи с юбилеем значимой для субъекта РФ личности ожидается увеличение интереса исследователей к архивным документам. Архив получает финансирование, сканирует эти фонды и переводит в формат базы данных 2–3 соответствующие описи.

Например, в связи с юбилеем значимой для субъекта РФ личности ожидается увеличение интереса исследователей к архивным документам. Архив получает финансирование, сканирует эти фонды и переводит в формат базы данных 2–3 соответствующие описи.

Этот путь – несистемный подход, позволяющий отчитаться о выполненной работе в короткий промежуток времени, но никак не отражающийся на общей эффективности работы архива, так как суммарный объем переведенных в электронный вид документов составляет доли процента от фондов учреждений. Многие архивы идут этим путем исключительно из-за недостатка финансирования. Но большинство все-таки понимает, что необходимы долгосрочные, плановые работы.

2. Поэтому многие добиваются длительных программных бюджетов и следуют другой стратегии, гораздо более перспективной с точки зрения развития архивных услуг и онлайн-сервисов. Эту стратегию поддерживает и Федеральное архивное агентство (Росархив).


Приоритет в ней отдается переводу в электронный вид всего научно-справочного аппарата. Этот путь позволяет перейти к полноценному автоматизированному учету фондов, в том числе к созданию единых информационных систем для региональных архивов.

Кроме того, появляется возможность простого и удобного поиска по фондам, что облегчает внутреннюю деятельность и позволяет перейти к предоставлению архивных услуг в электронном виде.

Документы сканируются в текущем режиме при поступлении запросов от пользователей. Для этого архиву достаточно иметь хотя бы один профессиональный сканер. А вот для оцифровки больших по объему массивов, описей, а также особо ценных документов по прежнему привлекаются эксперты из организаций, специализирующихся на сканировании и ретроконверсии.

Специфика оцифровки архивных документов

Теперь рассмотрим чуть подробнее некоторые особенности сканирования и индексирования архивных документов и описей. В отличие, к примеру, от тиражируемых книг, в архивах почти каждый документ уникален. Огромная ответственность ложится на оператора сканирования, который должен увидеть особое состояние документа (ветхость, повреждения, уход текста в корешок, особую сшивку и т.д.) и оперативно настроить оборудование, либо передать документ на реставрацию.

Один из часто сканируемых видов архивных фондов – межевые дела. Это стандартный архивный документ с толстым корешком. Однако среди его листов встречаются вложения формата до А0. Расшивать дела нельзя, протяжную технику не применишь. Исполнитель должен обладать другим классом оборудования – широкоформатными сканерами планетарного типа (пример).

Очень высокое значение приобретает опыт , которого привлекают к работам в учреждении. Как показала многолетняя практика, частая перенастройка оборудования, необходимость в режиме реального времени отслеживать качество оригиналов и получаемых электронных образов не под силу новичкам в оцифровке. Если конкурс выиграла такая компания, велики риски значительно увеличить сроки проекта или получить некачественный ресурс (поэтому нужно обязательно досконально проверять подготовленные электронные образы при сдаче работ).

Оборудование

Особенности документов предъявляют симметрично высокие требования и к оборудованию. Для архивных документов можно использовать исключительно бесконтактную сканирующую технику – планетарные сканеры.

Причем сканер должен обладать высочайшими характеристиками разрешения, цветопередачи и контрастности, так как велико наличие неконтрастных, угасающих текстов и изображений. Какое оборудование пользуется популярностью на рынке планетарных сканеров, можно узнать из нашего обзора 2014 года.

Первый такой сканер был разработан ЭЛАР в рамках проекта оцифровки фонда 350 «Ревизские сказки и исповедальные ведомости» Российского государственного архива древних актов. Для того, чтобы сканировать ветхие оригиналы высотой до 50 см и весом до 50 кг, сканер оснащен моторизированной колыбелью. Безопасный уровень силы прижатия к стеклу контролируется несколькими сенсорами.

Особая структура, толщина, вес архивных документов иногда приводят к необходимости разработки специальной техники. Так, в большинстве государственных архивов среди востребованных фондов генеалогической направленности имеются дела толщиной более 30 см и весом до 60 кг: например, материалы переписей населения (переписные книги), документы церковных приходов о рождении и пр. Долгое время, несмотря на востребованность, эти фонды не сканировались по причине отсутствия оборудования. Подходящие сканеры появились на рынке только в конце 2013 г., но сегодня уже завоевали популярность.

Индексирование

Чтобы вести учет и иметь возможность искать документы, их надо проиндексировать – заполнить карточки в АИС. Большинство архивных документов и описей выполнены вручную или с помощью печатной машинки, то есть не поддаются качественному программному распознаванию. Требуется ручная ретроконверсия.

Снова появляются дополнительные требования к исполнителю. Во-первых, он должен обладать достаточным штатом, чтобы выполнить работу в срок. В наиболее масштабных на сегодня проектах по оцифровке архивных фондов участвовало до 700 операторов индексирования. Держать такой постоянный штат невыгодно, поэтому крупные и опытные компании именно для крупных региональных архивных проектов часто привлекают местное население. Впервые такая технология была применена при оцифровке метрических книг для проекта «Поколения Пермского края». Через Центр занятости были временно трудоустроены несколько сот человек. Причем работали они на дому, через специальное приложение.

Классический пример – в старинном документе указана дата 37 мая. Обученный и здравомыслящий оператор, естественно, не стал вносить неверные данные, а уточнил дату по соседним листам метрической книги.

Главный вопрос – как добиться 100% качества? Ведь в ФИО, датах, номерах ошибаться нельзя. На помощь приходят жесткая система и технологии. Например, метод двойного ввода, когда информация попадает в Базу данных только после одинакового внесения 2 операторами.

Но все равно остается проблема мертвых языков и написания. При ретроконверсии таких документов на первый план выходит опыт руководителей групп индексирования, которым часто приходится решать и сложные нестандартные задачи.

Описи

А теперь о главном. Как уже отмечалось в начале статьи, перспективной стратегией оцифровки архивных фондов является перевод в электронный вид полного НСА. Это – наиболее сложная работа. Методическими рекомендациями Росархива установлены правила ведения баз данных по архивным описям. Поэтому описи необходимо индексировать по широкому набору полей.

Сложность оцифровки архивных описей учтена, в том числе, в 44-ФЗ «О контрактной системе». Согласно ч. 2 ст. 56 закона, «оказание услуг, связанных с необходимостью допуска подрядчиков, исполнителей к учетным базам данных музеев, архивов, библиотек» является основанием для проведения конкурса с ограниченным участием (участие ограничено результатами предквалификационного отбора). То есть только после подтверждения претендентом своих компетенций и опыта выполнения аналогичных проектов.

Описи, как и документы, могут быть ветхими и написаны на одном из мертвых языков. Описи могут иметь очень сложную структуру и содержать . Отличается формат описей для обычной и научно-технической документации, а также объектов нефондового учета. Сформированную базу данных надо заносить в программный комплекс «Архивный фонд» и т.д.

Без глубокого понимания процессов архивной деятельности, знания нормативной и методологической базы осуществить качественный перевод НСА в электронный вид не получится. Поэтому необходимо доверять оцифровку только проверенным компаниям, доказавшим на деле свое умение обращаться с архивными фондами. А оценить бюджет можно, заказав .

В офисе часто бывает нужно переслать электронной почтой копии - электронные версии печатных документов. Это могут быть различные акты, счета-фактуры, письма, договора, уставы, служебные записки и любые другие возможные документы.

Дома у нас есть старые фотографии, которые с годами дряхлеют, и мы хотели бы их сохранить.

Нам дали на время интересную книгу, а хочется иметь ее у себя. Как это все сделать? Наши недолговечные бумажные документы надо преобразовать в электронный вид, то есть оцифровать и сохранить.

Оцифровка – это перевод изображения, или аналогового аудио/видеосигнала в цифровой формат пригодный для записи в электронный носитель.

Для оцифровки изображений объекта существуют специальные устройства – сканеры. Есть сканеры штрих-кодов, сканеры кинопленки. Биометрические сканеры считывают рисунок сетчатки глаза или папиллярный рисунок кожи пальцев руки. Форму объемного объекта считывает трехмерный 3D-сканер.

В сканерах для обработки бумажных носителей – рисунков, фотографий, текстовых документов, изображение построчно освещается специальной лампой, и отраженный световой поток фокусируется на светочувствительной матрице. Полученные электрические сигналы аналогово-цифровой преобразователь превращает в систему двоичных данных, которая и образует цифровую копию изображения.

Выбор сканера зависит от задач и специфики его применения. Сканер в офисе почти всегда используется для оцифровки документов. Даже, если сканируются фотографии, в офисе к ним не предъявляются высокие требования качества. Разрешения в 300 dpi вполне достаточно для обеспечения точной работы программ распознавания и получения хорошо читаемого текста. Любой выпускаемый сегодня сканер обеспечивает приемлемое для офисных работ разрешение.

Это касается и глубины цвета. Практически каждый современный сканер воспроизводит необходимый для печатных документов уровень цвета серого.

Важно в офисе, где основной задачей является быстрая постраничная оцифровка текстовых документов, это - автоматизация процесса сканирования. Могут применяться листопротяжные сканеры. Здесь, лист документа вставляется в щель аппарата и протягивается, как и в факсе , по направляющим роликам. Такой сканер удобен со встроенным автоподатчиком листов. Загружаем в лоток несколько листов многостраничного документа, и пока сканер выполняет оцифровку, параллельно занимаемся другим делом. Здесь все просто. Если установлена соответствующая программа распознавания текста, для оцифровки и сохранения документа в нужном формате на таком сканере достаточно нажать одну кнопку.

Современным офисным решением для отдела проектной компании, например, может быть сканер формата А3 входящий в многофункциональное устройство вместе с принтером А3/А4. На таком МФУ удобно оцифровывать и делать копии чертежей.

Ясно, что сосканировать сброшюрованный журнал или разворот книги на листопротяжном сканере не получится.

Для сканирования двусторонних документов существуют дуплексные сканеры, где два сканирующих элемента обрабатывают обе стороны листа в один проход.

Хорошим решением для дома является цветной струйный МФУ. МФУ - это многофункциональное устройство включающее в себя сканер и принтер. Такое устройство одновременно является и копировальным аппаратом. То есть, МФУ может в автоматическом режиме сканировать документ и печатать его копию - создавать фотокопию документа.

Компактный аппарат с совмещенными функциями занимает меньше пространства на столе. Стоимость его будет существенно ниже суммарной стоимости входящих в него устройств, если покупать их по отдельности. На цветном струйном принтере мы делаем качественные цветные фотографии и визитки , а планшетным сканером оцифровываем документы, фотоальбомы или нужные книги.

В следующих уроках мы поучимся вручную постранично, на планшетном сканере оцифровывать, преобразовывать и сохранять текстовые документы.

В этих примерах для сканирования я использовал популярный настольный МФУ формата А4. Такое недорогое устройство является оптимальным решением для дома и может быть вторым, дополнительным МФУ в офисе.

Предположим, что мы имеем многостраничный логически связанный документ, который нужно оцифровать и отправить на мейл нашему контрагенту. Назовем его «Договор».

В любимой всеми нами Windows XP есть стандартный «Мастер работы со сканером или цифровой камерой». Чтобы мастер заработал, на компьютере должен быть установлен сканер, и он должен быть включен. Работать в мастере очень просто и в уроке оцифровка документов в Windows XP есть небольшое руководство.

В Windows 7 инструментом для создания электронных копий печатных документов и изображений служит стандартный компонент "Факсы и сканирование Windows" .

Итак, мы почитали уроки и с помощью одной из этих программ получили файлы сканов страниц нашего договора в одном из графических форматов, сохранили, и пожалуйста, прикрепляем их к электронному письму, отправляем по адресу.

Плохо здесь то, что при сканировании многостраничного документа этими програмками мы не сможем объединить сканы страниц в единый файл. Конечно, можно пронумеровать файлы страниц по порядку и заархивировать их, чтобы компактно переслать. Но адресат наш сможет только по очереди просматривать страницы в графическом редакторе, не имея возможности навигации по документу. Это некомфортно и убивает время. И, вообще, неприемлемо.

Фактически, используя эти инструменты, мы получаем отдельные цифровые фотографии страниц документа.

Чтобы преобразовать наши разрозненные сканы в единый документ с возможностью полнотекстового поиска, нужна программа распознавания текста. Лучшей на сегодня является FineReader.

FineReader – это программа российской компании ABBYY. Последний ABBYY FineReader двенадцатой версии выпущен в феврале 2014 года. Эта программа извлекает текстовые данные из цифровых изображений - распознает символы текста. Ознакомительную версию ABBYY FineReader 12 Professional можно скачать с официального ресурса: http://www.abbyy.ru/finereader и потренироваться в течение 30 дней.

Лучше, когда на компьютере установлена одна из последних pro-версий. Здесь и далее описывается работа в ABBYY FineReader 10 Professional Edition.

Итак, в предыдущих уроках мы насканировали страниц стандартными инструментами Windows, пронумеровали их, сохранили с расширением "jpg" и поместили в отдельную папку, которую назвали «Договор».

Вот так, используя замечательные возможности программы распознавания мы легко преобразуем различные изображения в редактируемые форматы.

Об этом, пожалуйста, в следующем уроке: Сканируем в ABBYY FineReader .

И вот, мы почитали эти уроки и видим какие преимущества дает нам программа распознавания. Вместо нудного и трудоемкого набора текста из книги, или брошюры, мы, просто, сканируем нужные страницы FineReader"ом, редактируем их, если надо, и сохраняем в выбранном формате. Так, можно быстро сверстать, например, статью или реферат.

А, как сканировать страницы книг и оцифровывать книги читаем в теме: Оцифровка книги .

В заключение темы подытожим: сканер в сочетании с программой распознавания - рациональная замена набора текста с клавиатуры. Имея бумажную версию - напечатанный на принтере или в типографии текст, мы вместо ввода с клавиатуры просто сканируем его. Другой популярной областью применения сканера является оцифровка разнообразных печатных продуктов - этикеток, открыток, фотографий, журналов, книг.

В настоящее время все больше внимания уделяется вопросам сохранности культурных ценностей. В этой связи утверждаются государственные программы, в рамках которых, по замыслу их создателей, применение новых технологий, инновационных подходов, а также мирового опыта позволит обеспечить сохранность культурного наследия, исторически значимых документов. Поэтому сегодня архивы России осуществляют перевод бумажных документов в электронный вид. О том, что послужило началом этой масштабной работы, с какими трудностями сталкиваются архивисты и как решают вопросы сохранности оцифрованных документов, заместитель руководителя Федерального архивного агентства (Росархива) Олег Наумов рассказал корреспонденту PC Week/RE Ольге Звонаревой.

PC Week: Расскажите, пожалуйста, как начинался процесс оцифровки архивных документов, каковы особенности этой работы?

Олег Наумов: Задача массового перевода архивных документов в электронный вид была поставлена в программе “Информационное общество (2011—2020)”. Это совсем непростая задача. К тому же одно дело — оцифровка документов, а другое — оцифровка научно-справочного аппарата (НСА), без которого не найти нужного документа. Поэтому, когда года два назад появилась возможность нормального финансирования работ в рамках федеральной целевой программы “Культура России 2012—2018”, в первую очередь стали создавать в электронном виде НСА, позволяющий эффективно искать документы.

PC Week: Какое программное обеспечение используется при этом?

О. Н.: Задолго до принятия программы “Информационное общество” Росархив начал разработку общероссийского стандартизированного ПО организации учета документов — программный комплекс “Архивный фонд”. Система, являющаяся собственностью Российской Федерации, внедрена на уровне федеральных, региональных и муниципальных архивов. С ее использованием создан центральный фондовый каталог, размещенный на портале “Архивы России”. Изначально “Архивный фонд” создавался как учетный аппарат, но потом его стали использовать как поисковый. Сейчас в ряде архивов используются специализированные поисковые системы.

PC Week: Опыт какого архива был основополагающим в деле оцифровки описей?

О. Н.: Первым, кто у нас оцифровал все описи, исключительно в силу сложившихся обстоятельств, стал Российский государственный Исторический архив в Санкт-Петербурге. Когда встал вопрос о его переезде, описи были отсканированы, и их электронные образы использовались на всех этапах перемещения, т. е. отслеживалась каждая коробка, каждое дело.

Это был хороший опыт, но с точки зрения развития информационных технологий он был не очень удачным. Хотя появилась возможность ознакомиться с ними в читальном зале и в онлайн-режиме, коллекция графических образов не позволяет проводить автоматизированный поиск. Куда большие удобства предоставляют пользователям описи, переведенные в формат базы данных, с возможностью простого и расширенного поиска. Росархив начал активно финансировать эти работы. К настоящему времени сделано порядка 20—30% описей федеральных архивов.

PC Week: С какими трудностями сталкиваются архивы при оцифровке документов?

О. Н. Первая проблема — огромный объем. Общий объем Архивного фонда РФ составляет 494 млн. дел, из них 9% приходится на федеральные архивы.

Но самое сложное — это определить, какие именно документы следует оцифровывать. Самый простой ответ — наиболее востребованные. А как определить эту востребованность? Сегодня востребовано одно, завтра — другое. И в советское время было введено понятие особо ценных архивных фондов и документов. На них создавался страховой фонд на микропленке, а также фонд пользования. Однако сегодня эти документы практически не востребованы. То есть критерии ценности и востребованности документов советской эпохи совершенно не работают сейчас. Спрос меняется постоянно. Определить наверняка, какие документы будут наиболее востребованными, практически невозможно.

Немаловажной является и техническая сторона вопроса. Например, возник огромный спрос на составление собственных родословных. Дело хорошее и нужное. Стали активно заказывать эти дела: метрические книги, ревизские сказки. Но они абсолютно не приспособлены для такого массового использования. Сканировать их как наиболее востребованные — нонсенс. Из книги толщиной в 80 см человеку нужна только одна страница. А чтобы удовлетворить этот спрос, нужно сканировать всю тысячу страниц. Да еще и с оборотом. Но, с другой стороны, если отсканировать эти документы, то подлинники выводятся из оборота и гарантируется их физическая сохранность. Они все уникальные. И самое главное, несчастные хранители (среди которых немало женщин) не будут таскать на руках все эти тонны бумаг.

Однако тут мы упираемся в форму предоставления информации. Ведь пользователю куда интереснее было получить не образ, а расшифровку и БД. А массив этих документов огромен. Только в РГАДА в фонде 350 “Ландратские книги и ревизские книги” — пять с лишним тысяч дел, около 3 млн. стр. Сколько людей нужно привлечь? В Перми нашли хороший выход: привлекли финансы, которые выделялись для обеспечения рабочих мест. Работа выполнялась людьми на дому. Успешно решили проблему безработицы. И в итоге у них получилось сделать то, что больше никому в России, на моей памяти, сделать не удалось.

Имеющийся опыт сканирования в федеральных архивах позволяет сделать два вывода. Во-первых, создавать электронный фонд пользования без создания НСА — занятие малопродуктивное. Получается огромная куча сканов, где невозможно найти нужный. Во-вторых, сканированию, особенно массовому, целесообразно подвергать законченные комплексы — фонды или описи. При этом дела должны сканироваться целиком, дабы избежать конфликтов в случае ошибок в нумерации. В отдельных случаях, в силу уникальности и значимости документов, вне зависимости от того, есть на оборотной стороне листа какой-либо текст или нет, нужно оцифровывать лист, включая оборот. Тогда и вопрос о том, что мы, возможно, что-то утаили, отпадает.

Есть проблема с выбором оборудования. Где-то нужен простой сканер, где-то он должен быть сложнее. К примеру, для оцифровки ландратских книг специально заказывали “глубокую колыбель”. Иначе не скопировать, потому что толщина корешка некоторых книг достигает 80 см.

PC Week: Какова основная цель оцифровки в настоящее время?

О. Н. Их три. Первая — расширение и облегчение доступа к документам Архивного фонда. Вторая — обеспечение сохранности подлинников путем вывода их из оборота и предоставление доступа к электронному фонду пользования. Третья — упрощение предоставления государственных услуг. Сейчас появляется много индивидуальных запросов граждан на документы по личному составу. Архивы начинают их также оцифровывать и использовать электронные копии для подготовки ответов, что значительно ускоряет работу.

PC Week: А как архивы оцифровывают документы?

О. Н. Процесс идет по-разному: где-то делают сами, используя подручные средства или приобретая разнообразную технику. Второй путь — это привлечение сторонних организаций. Но все-таки на самый главный вопрос однозначного ответа пока нет: к чему мы стремимся, оцифровывая документы?

PC Week: И никто им не задается?

О. Н. Почему, все задаются. Но как найти единственно верный ответ? Конечно, преимущество использования оцифрованных документов, очевидно. Это и, обеспечение сохранности, и удаленный доступ, и простота предоставления информации, и простота изготовления копий — полный спектр плюсов. Другое дело, как этого достичь? Вот вы пользователь, вы зашли на сайт и определили, что нужные вам документы находятся на хранении. Допустим, в Перми. Зашли на сайт по ссылке, нашли описи дел. Интересующее дело есть. И как его получить? Хорошо, если оно уже оцифровано. А если нет? Ехать самому в архив и заказывать подлинники? Или же архив должен оцифровывать все дела? Но это невозможно. Значит, по сути, остается только один вариант. Создание в каждом архиве возможности оперативного изготовления электронных копий по требованию пользователя. Причем это не обязательно может быть собственное подразделение. Это может быть и аутсорсинг. Но такая услуга должна быть оперативно предоставлена. Но изготавливать эти копии, как показывает опыт, имеет смыл только тогда, когда уже есть электронная система, которая позволит качественно и структурировано разместить эти материалы. Вот тогда это заработает. Когда мы это сделаем, и сможем ли мы это сделать, скажу честно, не знаю.

PC Week: Наверное и до утверждения программы “Информационное общество” в 2010 г. работы по оцифровке уже проводились?

О. Н. Да. Были отдельные проекты. Например, Электронный архив Коминтерна или коллекция документов СВАГ. Как правило, они реализовывались совместно с зарубежными партнерами. Собственных средств для их осуществления не хватало. Дело шло не просто. Были и технические, и методические, и организационные, и технологические сложности. Но опыт накапливался. И сейчас он очень пригодился.

PC Week: То есть уже после утверждения программы стали определять, какими должны быть основные критерии при оцифровке документов?

О. Н. Эта программа, скажем так, позволила архивистам привлечь внимание властей к тому, что проблема есть и надо ее решать. Готовить и утверждать программы по оцифровке. И привлекать под это финансы. Но на сегодняшний день нет ни одного универсального критерия. Сложно определить единый подход для всех, потому что архивы хранят совершенно разную документацию.

PC Week: То есть каждый архив фактически определял критерии сам?

О. Н. Фактически да. В принципе, это четыре критерия, они общепринятые, но не скажу, что они самые правильные. Это востребованность документов, обеспечение сохранности, облегчение работы сотрудников архива, улучшение условий обслуживания пользователей. Плюс еще ускорение работ. Если у меня на сайте есть электронный НСА, то пользователь приходит в архив подготовленным, просмотрев описи в Интернете. Если искомые документы уже оцифрованы, он имеет возможность посмотреть их у себя на компьютере, не заходя в архив, или без задержки получить в читальном зале.

PC Week: Получается, каждый архив должен сам определить, что ему оцифровывать в первую очередь?

О. Н. Совершенно верно. Это должна быть исключительно индивидуальная программа каждого архива. Нельзя сделать единую. Это зависит от многих факторов: от финансовых возможностей, от степени развития и внедрения ИТ-технологий, от конкретного спроса. Так, у кого-то очень востребованы документы по личному составу, и необходимо удовлетворять потребностям граждан. Хотя с архивной точки зрения это документы не постоянного, а временного срока хранения — 75 лет. Но это облегчает работу и помогает людям, потому что человек ждет ответа на запрос не месяц, а получает искомую информацию через два дня. Значит, надо в это вкладывать силы и средства.

PC Week: Определяя приоритеты документов, которые подлежат оцифровке, архивы согласовывают их с Росархивом?

О. Н. Если говорить о региональных архивах, то нет. Это дело каждого архива. Они присылают нам свои программы по информатизации, по оцифровке. Мы с ними знакомимся и даем свои советы. В меру своих сил им помогаем, выделяем средства ФЦП. Другое дело — федеральные архивы. Здесь позиция Росархива имеет определяющее значение. Но и тут нет универсального критерия. Для удовлетворения все возрастающего спроса на генеалогическую информацию Росархив выделил более 40 млн. руб. на перевод в электронный вид ландратских книг, хранящихся в РГАДА. Отвечая на устойчивый интерес общества к истории нашего отечества в недавнем прошлом, в июне этого года был запущен сайт “Документы советской эпохи”, где размещены образы документов личного фонда И. В. Сталина и Политбюро ЦК. Были подготовлены интернет-проекты, посвященные 1150-летию российской государственности, 400-летию окончания Смуты, 200-летию Отечественной войны 1812 года. Естественно, там были размещены образы наиболее важных и востребованных документов.

PC Week: Значит теперь в читальном зале архива будут выдавать только электронные копии, а не подлинные документы?

О. Н. В идеале нужно, чтобы человек нашел искомый документ на сайте, заказал дело и ему выдали отсканированные документы. И подлинник остается нетронутым. Однако возникают случаи, когда необходимо посмотреть подлинник. К примеру, какой бы хорошей ни была техника, водяных знаков она не передаст. А по ним можно установить дату документа. Но таких случаев один на тысячу.

PC Week: Получается, архив предоставил пользователю государственную услугу, но после оцифрованную копию документа необходимо сохранить?

О. Н. Конечно, в этом и заключается преимущество сканирования. Раньше были микрофильмы, ксерокс, машинопись. И архивист, сделав копии, отдавал их пользователю. То есть копии документа у него не оставалось. В случае с оцифровкой копия остается. Но для нее должно быть четко определено место хранения. И если впоследствии будет второй запрос, не будет надобности поднимать дело. Нужно накопить опыт такой работы.

PC Week: Каким образом определяются сроки оцифровки массивов документов?

О. Н. Сроки зависят от трех причин: от технических и финансовых возможностей и от состояния документов. Есть документы, которые сброшюрованы так, что даже самой современной техникой получить текст полностью не удается. То есть придется их расшивать, чего очень не любят ни документы, ни архивисты. Сканировать. Потом обратно сшивать. Это требует времени. Также сроки зависят от объема дел, от количества листов в них. Не так сложно отсканировать стопку бумаг стандартного формата, а вот карту размером 3х8 м — уже сложнее. По учетным документам это один лист. Но сканируется он только частями. А после в ПО надо это все “сшивать”, подгонять и смотреть, как этот документ будет выглядеть.

PC Week: Как идет работа по реализации 89-го пункта федеральной целевой программы “Культура России (2012—2018): формирование архивных электронных ресурсов и их предоставление в сети Интернет”?

О. Н. В рамках реализации этого пункта происходит оцифровка описей. Также осуществляется оцифровка документов, в том числе ландратских книг. Причем стараемся и регионам помогать: приблизительно пять-шесть регионов в год мы включаем в эту программу и выделяем от 10 до 15 млн. руб. Создаем интернет-выставки и т. д. Всего на реализацию работ по этой программе в год выделяется 67 млн.

PC Week: Распределение средств зависит от степени важности и значимости документов?

О. Н. Да. Архивами подаются заявки в определенной форме на участие, мы эти заявки рассматриваем. Также и фирмы, которые считают, что предлагают интересные вещи, подают заявки. Мы их рассматриваем, выбираем интересные перспективные решения, составляем общий план и осуществляем закупку на конкурсной основе. В прошлом году по этому мероприятию было 52 госконтракта. То есть каждую неделю мы заключали контракт.

PC Week: Вы затронули тему уже хранящихся в архиве документов, начиная с XI века, но ведь в архивы поступают и новые бумажные документы и это огромный массив. Как проводится работа с ними? Как решается вопрос по их оцифровке?

О. Н. Для нас важно только одно: относятся ли эти документы к составу архивного фонда или не относятся. То есть подлежат они постоянному сроку хранения или нет. А дальше с точки зрения использования абсолютно не важно, документы ли это XI или XXI века. В этом плане они равны. Другое дело, что на документы XI века у нас, естественно, есть страховой фонд и фонд пользования. И эти уникальные документы крайне редко выдаются на руки. Имеется специальный Государственный реестр уникальных документов РФ, который размещен на сайте Росархива и содержит их описания и электронные образы.

PC Week: В этой связи наверняка проще принять на хранение документы, переведенные в электронный формат? К примеру, вступили в силу изменения в законодательстве относительно кадровой документации, и архивы, наверное, могут принимать ее в электронном виде?

О. Н. В принципе да. Но особого смысла государственному архиву принимать современные документы по личному составу сейчас нет. Зачем? Рассчитывать пенсию? Есть Пенсионный фонд, у которого налажен специализированный учет граждан, начиная с 2000 г.

PC Week: То есть архивы не принимают документацию, хранящуюся 75 лет?

О. Н. Нет, она у нас хранится с давних времен. И сейчас мы активно ведем переговоры с тем же Пенсионным фондом, чтобы нам этот срок для бумажных документов сократили с 75 до 15 лет. Но Пенсионный фонд боится, что их электронная система может рухнуть.

А те документы, которые со временем будут поступать к нам в электронном виде — проблема очень большая и совершенно отдельная. Это вопросы, касающиеся электронного документооборота, электронных документов. Как их принимать, как хранить, это отдельная тема.

PC Week: Пока еще такие документы не поступают?

О. Н. Нет, поступают. Материалы переписи населения и сельскохозяйственной переписи ГАРФ принял в электронном виде. Другое дело, что эти переписи только в электронном виде и существуют. Но массового приема делопроизводственной документации пока нет. Тут довольно много нерешенных вопросов.

PC Week: А как быть с документами ликвидированных организаций? Их принимают на хранение?

О. Н. Принимаем. Правда, конкурсные управляющие обязаны в случае банкротства и ликвидации компании найти деньги на описание документов ликвидированных организаций, но не всегда находят.

PC Week: Под руководством Росархива находятся 15 федеральных архивов. Региональные архивы в настоящий момент выведены из-под контроля вашего ведомства?

О. Н. Да, прямого контроля над ними нет. Они подчиняются исполнительным органам субъектов федерации. Где-то это самостоятельные архивные службы. Где-то они, как и мы, входят в министерства культуры. Где-то — в министерства юстиции или непосредственно в аппарат губернатора. Но той вертикали власти, которая была в Советском Союзе и просуществовала до 2004 г., к сожалению, уже не существует. Пока мы сохраняем методическое единство. Чем можем, помогаем региональным архивам. Представители Росархива принимают участие в ежегодно проводимых в каждом федеральном округе научно-методических советах. Раз в год проводится Совет по архивному делу, где собираются архивисты со всей страны. То есть связи остаются. Мы шутим, что архивист — это такая профессия, при которой в любом городе можно оказаться без денег и вещей, прийти к коллегам архивистам, и они тебя примут, накормят и отправят домой. Есть такое братство, которое, на самом деле, не свойственно ни одной другой профессии.

PC Week: Спасибо за беседу.

SCAN: Технологии

Что такое оцифровка?

02.10.2015, Пт, 14:05, Мск 2707

Сканирование, ретроконверсия и сопутствующие услуги. Обзор технологий перевода документов в электронный вид.

Существует несколько вариантов организации процессов оцифровки. Они могут производиться самостоятельно или с аутсорсингом услуг, с вывозом документов или выполнением работ на своей территории. При оцифровке могут применяться офисные, профессиональные документные или планетарные сканеры. Данные могут извлекаться в ручном, полуавтоматическом или автоматическом режимах, с проведением предварительной архивной обработки бумажных документов или классификацией информации уже в электронном виде и т.д.

Какой путь выбрать?

Решение зависит от конкретной задачи, потому что каждое из вышеупомянутых «или» определяет качество получаемого результата и стоимость работ. Например, извечен вопрос сшитых документов: выгодней медленно отсканировать в сшитом состоянии или потратиться на расшивку, зато быстро оцифровать на документных сканерах?

Самый простой способ выбрать наиболее подходящий для вас путь – обратиться за экспертизой к специализирующейся на оцифровке организации. Заинтересованные в работах, крупные компании проведут обследование бесплатно, и за вас определят оптимальный подход. Не пренебрегайте этой возможностью и не ждите склонения к заказу услуг: большинство этих компаний также заинтересованы в поставке оборудования и ПО для самостоятельной оцифровки.

Сколько документов нужно сканировать?

Определяющий параметр – объем документов.

Определяющий параметр – объем документов. Для ежедневного сканирования небольших пачек расшитых документов (например, первичной бухгалтерии) подойдет обычный офисный сканер, выдерживающий нагрузку в несколько тысяч страниц в день. Нужно лишь дополнить его удобной программой для индексирования.

Для регулярного сканирования больших объемов необходимо профессиональное оборудование. Это – промышленные сканеры, которые стоят немалых денег (подобное оборудование используют ФНС, ФТС, крупные банки). Поэтому менее дорогой альтернативой может стать рамочное соглашение на оказание периодических услуг оцифровки.

Перевод в электронный вид больших ретроспективных массивов своими силами экономически не обоснован: помимо закупки оборудования и обучения сотрудников, потребуются значительные трудовые и временные затраты. Однозначно эффективнее заказывать услугу, так как крупная компания может выделить большой штат и решить задачу оперативно.

Где сканировать документы?

Определяющий параметр – востребованность сканируемых документов. Влияет ли на деятельность организации изъятие документов на время сканирования? Особенно это критично при оцифровке документов, к которым регулярно обращаются сотрудники, либо которые могут быть внезапно запрошены контролирующим органом, а также для устранения связанных с документами ЧП. Примеры: финансовые и кадровые документы, техническая и эксплуатационная документация, книги ЗАГС и другие отраслевые фонды.

Участок сканирования, организованный в помещениях компании-заказчика услуг.

Если необходимо оцифровать их достаточно быстро, то традиционным подходом является заказ услуг с выездом бригады сканирования на вашу территорию. Зачастую это оказывается дешевле, чем доставлять документы на производство исполнителя и обратно, но все определяет территориальная удаленность. Регламент выездных работ подразумевает сканирование выданного дела в течение одного-двух рабочих дней, без длительного изъятия из рабочего процесса.

Расшивать ли документы?

Определяющие параметры: состояние документов и возможность расшивки. Если есть такая возможность, и бумага пригодна для протяжки документным сканером, то следует расшивать. Дело в том, что сканирование сшитых документов на планетарном (книжном) сканере в несколько десятков раз медленнее потоковой оцифровки. Пропорционально увеличиваются время работ и стоимость труда. Сканирование на документных сканерах, даже с учетом расшивки, оперативнее и дешевле.

Расшивать можно самостоятельно, а можно доверить это исполнителю.

Расшивать можно самостоятельно, а можно доверить это исполнителю: если выбрана авторитетная компания, опасаться утраты документов не стоит. Наоборот, жесткая регламентация всех процессов и качественные материалы позволяют компаниям застраховаться от дополнительных финансовых потерь и ущерба имиджу. Этому подходу доверяют даже российские суды: при организации сканирования обычно внутренним приказом разрешается расшивка и последующая сшивка судебных дел.

К слову, крупные компании параллельно могут провести профессиональную архивную обработку: во-первых, часть работ итак выполняется при подготовке к сканированию, во-вторых, архивная обработка помогает выявить невостребованные документы и сократить объемы сканируемых массивов, что может снизить стоимость работ.

Какое качество выбрать?

Сегодня высококачественно можно отсканировать любой объект: от маленькой библиотечной карточки до карт формата 8А0 и театральных декораций.

Определяющие параметры: вид документа и объем получаемого ресурса в электронной форме. Сегодня сканирующее оборудование позволяет получать образы с разрешением от 200 до 1200 точек на дюйм (dpi). Для художественных произведений обычно применяется разрешение 400–600 dpi, позволяющее создавать высококачественные репродукции. Более высокое качество используется только при необходимости увеличения изображения и детализации мелких предметов, например, монет.

Детализированные и неконтрастные чертежи, часто выполненные на кальке и синьке, нуждаются в сканировании с разрешением 300-400 точек на дюйм и дополнительной обработке изображений в графических редакторах. Остальные документы обычно сканируются с разрешением 300 dpi, достаточным для распечатки копий без потери качества. Необходимая обрезка изображений, геометрическое исправление, цветокоррекция, конвертация в форматы pdf, tiff, jpegи др. может проводиться в полностью автоматическом режиме программами, встроенными в сканирующее оборудование или поставляемыми вместе с ним.

В большинстве случаев используется цветной режим съемки. Это нужно для всех документов, в которые вносились исправления или ставились печати поверх текста, для удостоверения того, что электронная копия снималась с оригинала документа с печатью и подписью, а также для читаемости угасающих текстов и передачи уникальных особенностей оригинала. Необходимость цветного сканирования художественных произведений не обсуждается. Режим «градации серого» применяется лишь в некоторых случаях: когда документы не содержат цветных атрибутов, либо когда необходимо сократить объем получаемого электронного ресурса.

Сканирование может осуществляться самостоятельно. Главной задачей становится обучение сотрудников правильной работе со сложной техникой, так как качество получаемых изображений важно для последующего индексирования: плохо отсканированный документ, тени, засветка и другие дефекты на электронном образе могут сделать нечитаемой важную информацию. Это не позволит применить технологии автоматического извлечения данных и может привести к ошибкам в индексировании. Загрузка ошибочных данных в некоторые системы (государственные реестры, бухгалтерские учетные системы) не позволительна.

Индексирование

Простое сканирование применяется редко, поскольку при последующей работе искать информацию в наборе графических файлов будет лишь немногим проще перелистывания бумаги. Для возможности поиска необходимо выделить в документе несколько атрибутов (индексных полей).

Сотрудники, задействованные в массовом индексировании документов методом ручного ввода.

Выделенные атрибуты можно внести в имя файла. Такая практика сложилась в российских судах: для того чтобы оператор сканирования не имел доступа к внутренним системам суда, при оцифровке все необходимые реквизиты вносятся в имя файла. В последующем эти реквизиты распознаются системой судопроизводства при загрузке каждого документа по отдельности.

Но обычно оцифрованные документы загружаются в информационную систему группой, что требует создания базы данных. Так, если необходимо прикрепить документ к уже существующей карточке в учетной системе, бывает достаточно извлечь пару однозначно определяющих его реквизитов – обычно номер и дату.

Если же нужно сформировать поисковую базу на основании самих документов, то объем извлекаемых данных определяется задачей: от пары реквизитов для поиска файла в электронном архиве до переноса всей значимой информации в аналитическую БД (ФИО, адресов, ИНН, КПП, дат, номеров документов-приложений и т.д.).

Свои правила индексирования применяются в музеях, библиотеках и архивах при оцифровке единиц хранения и учетных документов. Отдельным направлением услуг также является векторизация, которая применяется, в частности, при оцифровке каротажных лент (автоматическая) и чертежей (ручная отрисовка в CAD-системах).

Сколько данных извлекать?Ответ на этот вопрос также лучше получить, воспользовавшись экспертизой, так как количество извлекаемых реквизитов зависит от функциональной задачи и в значительной мере определяет стоимость оцифровки. В некоторых случаях можно ограничиться подборками документов, когда электронные образы объединяются под эгидой основного документа (например, договора или реестра счетов). В других необходимо извлечение всех содержащихся в документе данных для заполнения карточки информационной системы.

Примеры извлекаемых данных

Анализ размещенных на портале zakupki.gov.ru заказов компаний с государственным участием и госучреждений (44-ФЗ, 223-ФЗ), показывает, что:

– Для привязки электронных копий ОРД к системе электронного документооборота достаточно номера, даты и типа документа.

– Сканирование финансовой документации часто сопровождается извлечением номера, даты, наименований и реквизитов плательщиков, сумм.

– Оцифровка архивных документов муниципалитетов (постановления администраций, горисполкомов, сельсоветов и т.д.) в целях оказания услуг и инвентаризации объектов земельно-имущественных отношений требует извлечения номера и даты документа, всех встречаемых ФИО и адресов. Причем адреса необходимо сопоставлять с текущими справочниками КЛАДР/ФИАС.

– Оцифровка документов Архивного фонда РФ сопровождается строгим заполнением НСА и описанием фондов в соответствии с архивным законодательством.

– Индексирование описей и реестров подразумевает распознаванием всех порядковых записей.

– Для работы с чертежами в электронном виде необходимо извлечь практически все поля штампа.

– Сканирование составных дел требует не только извлечения реквизита каждого документа, но и установления взаимосвязей. Наиболее сложен случай конструкторской документации, где формируемая база данных обладает многоуровневой иерархией и связями документов.