ГОСТ Р 54989-2012. Обеспечение долговременной сохранности электронных документов стр. 2

Примечание - В зависимости от нужд и потребностей организации этот период может варьироваться от нескольких лет до нескольких сотен лет. Его продолжительность определяется законодательно-нормативными требованиями и деловыми потребностями. В некоторых организациях, таких как архивы государственных документов, период времени, в течение которого необходимо сохранять электронные документы, обычно исчисляется сотнями лет.
3.8 метаданные (metadata): Данные, описывающие содержание (включая ключевые слова, используемые для извлечения документов), структуру и контекст электронного документа, а также управление документом во времени.
3.9 миграция (migration): Процесс переноса электронных документов из одной программно-аппаратной среды или с одного носителя информации в другую среду или на другой носитель информации, без изменений либо с минимальными изменениями в структуре и без каких-либо изменений в контенте (содержании) и контексте.
3.10 хранитель информации (storage repository): Специализирующаяся на хранении информации организация либо подразделение, на которые возложена ответственность за хранение и поддержание аутентичных электронных документов.
Примечание - Данное определение отличается от "технических" определений понятия "хранилище информации" (storage repository).
3.11 технологическое устаревание (technological obsolescence): Вытеснение с рынка признанного технического решения вследствие значительных улучшений и развития технологий.

4 Обозначения и сокращения

ASCII (American Standard Code for Information Interchange) - Американский стандартный код для обмена информацией;
CRC (Cyclical Redundancy Code) - циклический избыточный код;
HTML (Hyper Text Markup Language) - язык разметки гипертекста;
JPEG (Joint Photographic Engineers Group) - Объединенная группа специалистов по компьютерной обработке фотографических изображений;
OCR (Optical Character Recognition) - оптическое распознавание символов;
PDF/A-1 (Portable Document Format - Archive) - вариант для архивного хранения формата переносимого документа;
SHA-1 (Standard Hash Algorithm 1) - стандартный алгоритм вычисления хэш-функции N 1;
TIFF (Tagged Image File Format) - тегированный формат файлов изображений;
WORM (Write Once Read Many [times]) - носитель информации однократной записи и многократного считывания;
XML (Extensible Markup Language) - расширяемый язык разметки.

5 Долговременная сохранность

5.1 Общие положения

Распространение компьютерных технологий, поддерживающих создание, использование, хранение и сопровождение информации, все чаще приводит к тому, что организации частного и государственного секторов полагаются на электронные документы как на официальное свидетельство своей деловой деятельности. Как следствие, организации все чаще сталкиваются с проблемой обеспечения долговременной доступности созданных в надежных и заслуживающих доверия информационных системах и сохраненных на электронных носителях аутентичных электронных документов и информации. Эти носители могут быть затронуты процессом технологического устаревания, что, в отсутствие корректирующих мер, сделает документы недоступными. Важность этой проблемы возрастает вследствие того, что организации все чаще ведут свою деятельность и совершают транзакции, не документируя их на бумажных носителях.
Таким образом, необходимо, чтобы организации разработали и применяли на практике тщательно продуманные стратегии обеспечения долговременной сохранности аутентичных электронных документов и доступа к ним. Элементы такой стратегии описаны в 5.2.

5.2 Цели стратегии обеспечения долговременной сохранности

5.2.1 Общие положения
В данном подразделе выделены шесть ключевых факторов, которые хранители информации должны принять во внимание при разработке стратегии долговременной сохранности.
5.2.2 Читаемость электронных документов
Стратегия обеспечения долговременной сохранности направлена на то, чтобы электронные документы в будущем оставались читаемыми. Для достижения этой цели составляющий электронные документы поток битов должен быть доступен на той компьютерной системе или устройстве:
- на которой(ом) он первоначально был создан, или
- на которой(ом) он в настоящее время хранится, или
- которая(ое) в настоящее время используется для доступа к нему, или
- которая(ое) будет использоваться для хранения электронной информации в будущем.
Данные четыре варианта обеспечения возможности обрабатывать информацию (processability) исходят из того, что информация, сохраненная на электронном носителе, может со временем стать нечитаемой. Есть два основных сценария, по которым это может произойти.
В первом случае нечитаемость носителя - следствие воздействия неблагоприятных условий хранения. Все виды носителей, используемых в настоящее время для хранения электронных документов, чувствительны к воздействию неблагоприятной среды хранения, например к перепадам температуры и влажности. Подобные неблагоприятные условия или приводят к повреждению носителя, или ускоряют процесс его "старения". Для обеспечения максимального срока службы различных типов электронных носителей информации требуются разные уровни контролируемой среды хранения. При использовании некоторых технологий записи информации порча данных возможна из-за воздействия магнитных полей, пыли и загрязняющих окружающую среду веществ (магнитные носители), в то время как другие виды носителей (оптические носители) менее подвержены влиянию внешних факторов и реже повреждаются при использовании их вне жестко контролируемой среды хранения. Однако какие бы из технологий записи информации ни использовались, необходимо понимать, что все виды носителей информации могут портиться и/или деградировать вследствие воздействия окружающей среды.
Во втором случае нечитаемость может стать следствием морального устаревания носителей, т.е. когда устройство для хранения информации (например, лента или диск) физически несовместимо с имеющимся компьютерным оборудованием (например, приводом для чтения лент или дисков), и, следовательно, информация не может быть прочитана. Моральное устаревание носителей информации представляется неизбежным, поскольку достижения в технологиях хранения постоянно изменяют способы физического хранения электронных документов (происходят, например, изменения в технологии записи, в интерфейсах оборудования/программного обеспечения дисковых приводов), изменяются способ физического представления потока битов, лежащего в основе документированной информации (например, использование кодов с коррекцией ошибок) и конструктивные параметры (form factor) носителей. Как следствие, со временем более старые носители информации становятся несовместимыми с появившимися позднее носителями и оборудованием.
Стратегия обеспечения долговременной сохранности должна целенаправленно решать проблему устаревания носителей, устанавливая процедуры периодически выполняемого переноса документов со старых носителей на более новые.
Примечание - Правильный выбор форматов данных так же важен, как и читаемость данных. Следует обратить внимание на то, что данные должны форматироваться таким образом (т.е. с использованием "технологически нейтральных" форматов), чтобы в будущем пользователи могли эти данные обрабатывать.
5.2.3 Интерпретируемость электронных документов
Стратегия долговременной сохранности должна обеспечить возможность правильной интерпретации и отображения электронных документов. Электронная информация "понятна" (intelligible) компьютеру только тогда, когда ему также доступны сведения о том, как интерпретировать лежащий в основе этой информации поток битов. Возможность интерпретировать электронные документы зависит, таким образом, от наличия сведений о том, представлением какого объекта является поток битов, и от способности обрабатывающего информацию программного обеспечения на основе этих сведений выполнить соответствующие действия.
Пример - Двоичный код (из нулей и единиц), из которого состоит графический образ в формате TIFF, сам по себе не может быть правильно интерпретирован. Однако наличие заголовка файла, содержащего такие сведения, как информация о порядке байтов и об использованном алгоритме сжатия, позволяет компьютеру (используя совместно возможности операционной системы и программного обеспечения для работы с графическими образами) показать и распечатать изображение. Так и документ, подготовленный в текстовом редакторе, содержит метаданные, делающие его "понятным" для программы обработки текстов.
5.2.4 Идентифицируемость электронных документов
Стратегия долговременной сохранности должна обеспечить идентифицируемость электронных документов. Идентифицируемые электронные документы должны быть организованы, классифицированы и описаны таким образом, чтобы дать возможность пользователям и информационным системам различать информационные объекты на основе уникального атрибута, такого как имя или идентификационный номер. Группировка (aggregating) электронных документов по категориям на основе общих атрибутов упрощает поиск и извлечение информации. Отсутствие подобной идентификации резко ограничивает возможности поиска и извлечения информации.
5.2.5 Доступность электронных документов
Стратегия долговременной сохранности должна обеспечить доступность документов. Это означает, что отдельные информационные объекты (или их части) могут быть извлечены и показаны. Доступность обычно зависит от программного обеспечения, поскольку для ее реализации требуется знание ключей или указателей, устанавливающих связь между логической структурой информационных объектов (например, полями данных или текстовыми строками) и их физическим местоположением.
Примерами таких связей являются запись в базе данных, структура каталогов файловой системы, таблица размещения файлов (file allocation table), заголовки или метки, содержащие сведения, позволяющие определить начало объекта и число байтов в каждом компоненте или элементе данных, а также определить их физическое местоположение на носителе информации.
Интерпретация логической структуры документов является функцией операционной системы или драйвера устройства, работающих совместно с определенной прикладной системой, разработанной для хранения, управления и предоставления доступа к электронной информации. Таким образом, доступность информационных объектов неразрывно связана с драйверами устройств, программными приложениями, файловыми и операционными системами.
Новые поколения файловых форматов, поддерживающие читаемость более старых форматов, способствуют обеспечению доступности электронных документов. Обратная совместимость (совместимость "сверху вниз" - backward compatibility) с предыдущими версиями может, однако, оказаться ограниченной, поскольку многие поставщики программного обеспечения поддерживают лишь некоторые файловые форматы, в то время как другие поддерживают все версии различных форматов данных. Примером может служить поддержка данных в форматах TIFF, JPEG и HTML, обеспечивающая совместимость "сверху вниз".
5.2.6 Понятность электронных документов
Стратегия долговременной сохранности должна обеспечить возможность понять смысл документов. Чтобы электронные документы были понятными, и компьютер, и человек должны быть способны воспринимать содержащуюся в них информацию. Значение отдельного документа не определяется одним лишь его содержанием (контентом), оно, скорее, устанавливается из контекста его создания и использования (т.е. на основе метаданных). В связи с этим хранители информации должны осознавать, что обеспечение понятности электронных документов кардинально отличается от решения той же задачи в отношении бумажной документации. В отличие от бумажной документации, где ее физические характеристики обычно передают контекст создания и использования, контекст создания и использования электронных документов обычно связан с ними логически, а не на физическом уровне.
Пример - Если набор бумажных документов, относящихся к определенной транзакции, можно скрепить степлером или положить в папку "Дело", то электронные документы по такой же транзакции могут располагаться на нескольких носителях, находящихся в нескольких местах, и, следовательно, должны собираться воедино электронным образом. Соответствующие логические связи могут включать идентификацию как деловых процессов, приведших к данной транзакции, так и участников транзакции.
Контекст создания и использования включает также связи с другими документами. Для фиксации этих связей могут использоваться различные способы, включая ссылки в профиле ("карточке") документа на другой документ по тому же вопросу или классификационный код, объединяющий все документы, относящиеся к одной и той же транзакции.
Успешное извлечение сохраненных электронным образом документов, таким образом, отчасти зависит от сохранения этих логических связей (независимо от давности их установления).