Проблемы сохранения цифровых информационных ресурсов Лабораторная работа по дисциплине:

Мировые информационные ресурсы
Это я, выполняю работу по МИР

Проверил:

доцент Петров П.П.

Задача сохранения информации стояла перед людьми всегда, хотя для подавляющего большинства она всегда была видна мало. С появлением информационных и коммуникационных технологий эта задача усложнилась многократно. Ведь сегодня, помимо сохранения информации на традиционных аналоговых носителях (что всегда было делом нелегким и дорогостоящим), необходимо сохранять еще и электронную (цифровую) информацию, как рожденную в электронном виде, так и полученную в результате оцифровки информации на аналоговых носителях: тексты; статические и движущиеся двух- и трехмерные изображения; аудиозаписи; базы данных, в том числе электронные каталоги; компьютерные программы; электронные мультимедийные издания, в том числе книги, аудиокниги; произведения медиаискусства; веб-страницы, порталы, сайты, блоги и микроблоги; различный мобильный контент и т. д.

Объемы электронной информации уже сегодня значительно превысили объемы информации на аналоговых носителях и продолжают лавинообразно увеличиваться в силу расширения и усложнения коммуникации, повсеместного распространения и использования технических средств, развития способов производства, распространения, агрегации и хранения цифровой информации.

Долгосрочное сохранение значимых для общества электронных информационных ресурсов, создаваемых институциональными структурами и частными лицами, на различных носителях и в самых различных форматах является новой сложной актуальной и мало исследованной проблемой для всего мира. Россия столкнулась с ней позже западных стран.

Целью сохранения цифровых информационных ресурсов является обеспечение их долговременной (или вечной) доступности с сохранением всех смысловых и функциональных характеристик исходных материалов, возможностей поиска, презентации и интерпретации для широкого доступа к ним и использования нынешним и будущими поколениями.

Даже поверхностное изучение проблемы сохранения электронной информации показывает, что проблема имеет множество аспектов – философский, социокультурный, политический, управленческий, правовой, этический, экономический, психологический, методологический, методический, организационный, технологический, кадровый и другие. При этом основная причина утрат ценной электронной информации состоит не столько в технологических сложностях и технических недоработках (большинство из которых зачастую очевидны, решаемы и устранимы), а в том, что в целом в обществе отсутствует понимание самого наличия этой проблемы и осознание ее остроты, масштаба и многоаспектности, причем отсутствует тотально, на всех уровнях общества, включая политический, управленческий, институциональный. Результатом этого является отсутствие должной организации процессов сохранения электронной информации на всех этапах ее жизненного цикла (деятельность по сохранению электронной информации должна начинаться даже не в момент ее рождения, а еще на стадии планирования ее создания). Как следствие – отсутствует критическая масса специалистов, способных на нынешней начальной стадии комплексно осмыслить и правильно запустить необходимые процессы, а в дальнейшем их успешно реализовывать.

Для того чтобы оценить масштабы, остроту и многоаспектность проблемы сохранения электронной информации, стоит обратиться к опыту прошлого и проанализировать, как была организована деятельность по сохранению печатной информации на бумажных носителях, поскольку именно здесь, в этом сегменте, человечество добилось наилучших результатов. Мы сделаем это на примере библиотек. Хотя информацию на бумаге сохраняют и библиотеки, и архивы, и музеи, но из всех этих институтов, созданных человечеством для сохранения культурного, научного,образовательного наследия (институтов памяти), библиотеки лучше других научились сохранять информацию и предоставлять ее в открытый доступ. Ни в архивной, ни в музейной сфере (по крайней мере в России) нет и в обозримой перспективе не появится столь хорошо отработанной системы сбора, упорядочения, организации доступа и хранения информации, и пока не предвидится появления серьезных программ, аналогичных тщательно проработанной и детальнейшим образом структурированной Национальной программе сохранения библиотечных фондов.

К содержанию

1. Методы сохранения цифровых объектов

2. Оцифровка культурного и научного наследия

3. Создание крупных хранилищ цифровых объектов




1. МЕТОДЫ СОХРАНЕНИЯ ЦИФРОВЫХ ОБЪЕКТОВ

Различаются следующие методы сохранения цифровых объектов:

Для полной долговременной сохранности рекомендуется использовать сочетание различных методов сохранения цифровых материалов.

К содержанию

2. ОЦИФРОВКА КУЛЬТУРНОГО И НАУЧНОГО НАСЛЕДИЯ

- Экономические аспекты

Оцифровка – дорогостоящий процесс, требующий значительных инвестиций, непосильных для учреждений, хранящих информацию. Тотальная оцифровка практически невозможна, т.е. необходимо производить отбор и устанавливать очередность оцифровки.

Стоимость оцифровки включает в себя отбор материала, выяснение правового статуса документа, стоимость собственно оцифровки, создание метаданных, обеспечение пользователям доступа в оцифрованному документу, контроль и гарантии качества, сохранение оцифрованного материала.

Аналитики считают, что затраты на собственно оцифровку смешанных коллекций составляет около 32% общей стоимости, а приписывание метаданных – 29%. Остальные затраты составляют администрирование и контроль над качеством. Подробное исследование, проведенное Национальной библиотекой Новой Зеландии, определяет стоимость собственно оцифровки, одной страницы текста в 0,27 Евро, включая стоимость оборудования и персонала. Другой источник определяет стоимость оцифровки одного монохромного изображения от 0,12 до 0,30 Евро, а оцифровка изображения в шкале серого – от 0,26 до 1,00 Евро. Распознавание текста оценивается в 0,08 Евро за страницу. Стоимость реализации инициативы Google пo оцифровке 15 миллионов книг оценивается в 150–200 миллионов долларов (122–164 миллиона Евро). Если считать, что в среднем в книге 200 страниц, это составляет 0,05–0,075 доллара (0,04–0,06 Евро) за страницу или 10–15 долларов (8–12 Евро) за книгу.

Оценка стоимости оцифровки аудиовизуального материала зависит от типа и состояния носителя. Оцифровка одного часа медийного материала может стоить от 100 Евро для аудио до 2000 Евро для фильма.

- Oрганизационные аспекты

Стратегия «однократная оцифровка – широкий доступ». Координация оцифровки для исключения дублирования. Партнерство с бизнесом.

Партнерство публичного сектора с бизнесом для обеспечения доступа к информации или спонсорская поддержка оцифровки частными компаниями может облегчить финансирование этого процесса. Сотрудничество публичного и частного сектора может принимать разнообразные формы, от спонсорства до партнерского участия, при котором частная компания использует оцифрованные материалы в своем бизнесе. Эти формы сотрудничества еще не отработаны. При таком сотрудничестве очень важно, чтобы информация оставалась доступной для всех, необходимо избегать передачи эксклюзивных прав на информационные ресурсы частным компаниям. Хорошим примером такого сотрудничества является Archivo General de Indias, в котором хранятся исторические коллекции по испанскому завоеванию американского континента (9 км полок). По случаю 500-летия открытия Америки 8 млн. документов, или 10% всех коллекций, было оцифровано за 1986–1992 гг., в том числе каталогизирована и описана часть коллекции. Эта работа спонсировалась El Corte Ingles и IBM Spain. С тех пор Archivo General de Indias продолжает оцифровку своих коллекций, но гораздо медленнее. Сейчас оцифровано около 12%.

- Правовые аспекты

Решение проблем прав на интеллектуальную собственность при создании цифровой копии; возможны исключения для библиотек, музеев, архивов, образовательных учреждений. Ограничения на использование цифровой копии являются одним из препятствий для оцифровки.

- Технологические и технические аспекты

Совершенствование технологий для улучшения качества и уменьшения стоимости оцифровки, разработка оборудования для автоматической подачи книг и документов, развитие технологий распознавания текстов. Ключевую роль имеют лингвистические аспекты. Одной из причин того, что Google собирается оцифровать огромные объемы англоязычных книг при минимальных затратах, является то, что системы оптического распознавания англоязычных текстов отрабатываются уже в течение 10–15 лет, опробованы на различных печатных шрифтах и усилены автоматическими или полуавтоматическими системами корректировки правописания. Эти системы основаны на лингвистическом анализе, сегментации текста и на огромных словарях общей лексики, а также словарях географических названий и имен, названий организаций и пр.

Кроме того, для обработки огромных массивов книг и документов требуется специальное оборудование для автоматической подачи книг и документов и переворачивания страниц, адаптированное для сканнеров разных форматов. Уменьшая ручной труд в процессе оцифровки, можно добиться уменьшения стоимости и повышения качества оцифровки. Технологические проблемы имеют диапазон от совместимости формальных описаний информационных ресурсов (метаданные и системы идентификации) до адаптации поисковых машин к нуждам библиотек и архивов.

В среднесрочной перспективе необходим прогресс в области автоматического распознавания рукописных текстов, идентификации изображений и средств автоматического реферирования, и/или приписывания документам метаданных и ключевых слов. Наконец, определение материалов, требующих срочной оцифровки, на основе разумных потребностей пользователей также увеличит эффективность работ по оцифровке в среднесрочной перспективе.

К содержанию

3. СОЗДАНИЕ КРУПНЫХ ХРАНИЛИЩ ЦИФРОВЫХ ОБЪЕКТОВ

Наиболее распространённым способом обеспечения долговременной сохранности цифрового наследия является создание крупных специализированных хранилищ цифровых объектов. Это могут себе позволить либо очень крупные учреждения культуры (например, национальные библиотеки), либо территориальные или отраслевые образования, которые создают подобные хранилища в порядке реализации национальных, региональных или отраслевых программ по сохранению цифровых материалов. Такие хранилища могут создаваться при порталах-агрегаторах, предоставляющих доступ к объединённым ресурсам музеев, библиотек, архивов.

Хранилище должно обеспечивать физическую (битовую) сохранность данных и возможность воспроизведения (семантическая сохранность) данных в течение длительного срока (до 100 лет). Получаемые на хранение цифровые объекты одного типа, изначально имеющие разные форматы, переводятся в единый формат хранения и снабжаются метаданными, необходимыми для сохранности и миграции, включающими в себя, в том числе, статус объекта относительно прав на интеллектуальную собственность. Объекты поступают на хранение в соответствии с договорами о доверительном хранении, заключаемыми с организациями и лицами, владеющими правами на объекты, в которых определяются процедуры и периодичность обновления хранимых данных. Для обеспечения физической сохранности организуются «зеркала» хранилища, по возможности, расположенные в разных зданиях, а также обеспечивается защита данных от несанкционированных вторжений. Проводится мониторинг развития технологий, по результатам которого планируются мероприятия по миграции хранимых цифровых объектов для обеспечения возможности долговременного доступа к ним. Международный комитет по стандартам ISO принял стандарт ISO 14721 OAIS – Space data and information transfer systems - Open archival information system - Reference model для сохранения цифровых информационных ресурсов, которым пользуются все крупные хранилища цифровых объектов.

Референционная модель для стандарта OAIS – это широкая концептуальная модель, которая была использована многими организациями для разработки наборов метаданных сохранения цифровых объектов.

OCLC (Online Computer Library Center) ввёл понятие Trusted Digital Object (TDO), которые составляют Trusted Digital Repository (TDR). TDO определяются набором атрибутов и сфер ответственности: соответствие референционной модели OAIS, административная ответственность, организационная жизнеспособность, финансовая устойчивость, технологическая и процедурная устойчивость, безопасность, регистрация история изменений, информация и учёт прав на интеллектуальную собственность.

Очень важным компонентом стратегий сохранения цифрового наследия являются метаданные, содержащие информацию, необходимую для документирования процесса сохранения [4]. Метаданные для сохранности представляют собой информацию о формате, структуре и использовании цифрового контента, историю всех операций, произведённых над объектом сохранения, в том числе любые изменения, аутентичность, техническую историю, историю хранения, ответственность, права, связанные с сохранением и пр. [5] Для долговременного сохранения цифровых объектов необходимо, чтобы метаданные хранились отдельно от объектов, в системе, независимой от той, которая была использована при их создании.

Существует целый ряд исследований стоимости жизненного цикла долговременного сохранения цифровой информации. Например, проект LIFE (Life Cycle Information for E-Literature) Британской библиотеки и JISC (Joint Information Systems Committee) убедительно показывает, что стоимость хранения в специализированных хранилищах, совместимых со стандартом OAIS, по сравнению с обычным файловым хранением, уменьшается в 2-3 раза за первые 1-2 года и в 15–16 раз в течение 5 лет. Около 50% затрат, связанных с технологическим циклом сохранения цифровых объектов, приходится на создание метаданных. Поэтому в рамках различных проектов разрабатываются системы автоматического или полуавтоматического приписывания метаданных, необходимых для обеспечения сохранности.

К содержанию

Инвестиции в оцифровку без соответствующей стратегии сохранения цифровых ресурсов могут оказаться потерянными. Проблема сохранения цифровых ресурсов является жизненно важной для информационного общества, в котором объем ресурсов растет по экспоненте, а ресурсы становятся все более и более динамическими.

В настоящее время опыт по сохранению цифрового контента незначителен, правовые основы в стадии становления, научная и технологическая база недостаточна, и результат усилий по сохранению не ясен. Необходимо срочно привлекать серьезное внимание политиков и наиболее заинтересованных институций к этой проблеме. Она относится не только к библиотекам и архивам, но и ко всем, кто производит цифровые информационные ресурсы и заинтересован в долговременном доступе к ним. Серьезным фактором является скорость технологического прогресса и быстрое моральное старение оборудования, технологий и носителей.

На европейском уровне деятельность по сохранению цифрового контента фрагментарна, а на национальном уровне многие страны не имеют четкой стратегии в этой области. Наибольший прогресс достигнут в организации обязательного депонирования цифрового материала в центрах, обладающих соответствующими технологиями и опытом. Однако эта практика не распространена повсеместно, существует значительный разброс в методах организации, технологиях, полноте охвата материала.

- организационные аспекты

Как решить, кто отвечает за сохранение цифровых материалов? В сфере, в которой нет четких ответов на базовые вопросы, существует риск широкого разброса вариантов решений и дублирования. На европейском уровне необходима иерархия ответственности и распространение положительного опыта. Сохранение цифрового материала также требует новых методов работы, переподготовки персонала, а также сотрудничества публичного и частного секторов.

- экономические аспекты

Реальная стоимость долговременного сохранения цифровых информационных ресурсов не ясна. Она зависит, например, от количества необходимых миграций. Однако, очевидно, что в силу ограниченности финансовых средств необходим отбор материала, который должен быть сохранен.

- правовые аспекты

Так как сохранение цифрового наследия требует копирования и миграции, эти вопросы необходимо рассматривать в контексте прав на интеллектуальную собственность. Другие проблемы связаны с легальным депонированием цифрового материала. Проблемы легального депонирования и прав на интеллектуальную собственность, введение методов технологической защиты от нелегального копирования, управление правами с ограничением доступа влекут за собой целый ряд новых проблем.

- технологические и технические аспекты

До сих пор научные исследования в области сохранения цифрового наследия носили ограниченный характер. Основная задача – сделать эту деятельность экономически эффективной и доступной. Другая задача – развивать исследования и разработки в области сохранения больших объемов быстро изменяющейся распределенной информации. Прогресс в связанных с этим областях, таких как инструменты автоматического анализа и индексации, обеспечит доступность информации и возможность ее последующего использования.

  1. Cборник материалов Международной конференции «Сохранение электронной информации в информационном обществе: проблемы и перспективы». 3-5 октября 2011 г., Москва;


  2. Н.В. Браккер, Л.А. Куйбышев, Центр ПИК. Сохранение цифрового наследия – мировой опыт. //Доклад на XIII Ежегодной конференции АДИТ, 15–19 июня 2009 г., Чебоксары;


  3. Надежда Браккер, Леонид Куйбышев «Оцифровка, доступ и сохранение цифрового культурного и научного наследия: стратегия европейской комиссии».


  4. Preservation metadata. Preserving Access to Digital Information: National Library of Australia.


  5. Смородина А.А. Технологические аспекты долговременного использования электронных изданий. //Мат-лы 11-й Междунар. конф. "EVA 2008 Москва". - М.: 2008