Содержание

Содержание

Введение. 3

1. Понятие и история создания электронного каталога. 4

1.1. Понятие «электронный каталог». 4

1.2. База данных, электронный каталог и банк данных библиотеки. 6

1.3. История создания электронного каталога. 9

1.4. Электронные каталоги в США.. 10

2. Сущность электронного каталога работы с ним. 14

2.1. Особенности работы с электронным каталогом. 14

2.2. Форма информации электронного каталога. 16

2.3. Сущность работы электронного каталога. 17

3. Проблема аналитической переработки информации в электронных каталогах 20

Заключение. 28

Список литературы.. 30

Введение

В условиях перехода человечества к информационному обществу, компьютеризации учебного процесса, увеличения в числе и объеме сетевых источников информации и создания корпоративных информационных баз данных возникает необходимость формирования у будущего специалиста информационной культуры, заключающейся, в частности, в активном и эффективном взаимодействии с современными информационными технологиями. Это является одним из традиционно сложившихся направлений информационно-библиографической работы библиотеки высшего учебного заведения. Целью работы в этом направлении должна стать подготовка квалифицированного пользователя, который легко ориентируется в справочно-поисковом аппарате библиотеки, имеет навыки информационного поиска и способен получать необходимые сведения в интерактивном режиме. Все это предполагает свободную ориентацию специалиста в мировом информационном пространстве.

Между тем, с развитием информационных технологий, особенно сети Интернет, на первый план выступают проблемы организации информационного обслуживания. Они обусловлены, в первую очередь, противоречиями непосредственно между уровнем подготовленности информационных работников и пользователей.

Поэтому исследование вопросов создания электронных каталогов выступает весьма актуальным.

Целью данной работы является изучение электронных каталогов в современной библиотечной системе.

Поставленная цель конкретизируется рядом задач:

1) рассмотреть понятие электронного каталога и историю его создания

2) рассмотреть сущность работы с электронным каталогом

3) рассмотреть современные проблемы, возникающие при работе с электронным каталогом

1. Понятие и история создания электронного каталога

1.1. Понятие «электронный каталог»

Понятие «электронный каталог» пришло к нам из США. Странно, но в английской профессиональной лексике нет эквивалента сочетанию «electronic catalog». Американцы, услышав это выражение, обязательно спросят, что имеется в виду. В отличие от нашей страны, в Соединенных Штатах этот термин имеет несколько значений.

«Machine-readable catalog» использует библиографические записи (БЗ) в машиночитаемой форме. Строго говоря, такой каталог может иметь две разновидности. Первая называется «Online catalog» – когда обеспечивается прямой доступ к постоянно пополняемому массиву БЗ. У нас иногда такой каталог называют «работающим в реальном режиме времени». Не совсем верно называть его диалоговым или интерактивным, так как другая разновидность, например, на CD или дискетах, – «Ofline catalog» (дословно «отключенный от линии») – тоже может иметь программу, позволяющую пользователю работать в диалоге.

Наибольшее распространение в зарубежных странах (не только в англоязычных) получила аббревиатура ОРАС (от первых букв сочетания «Online Public Access Catalog»). Это понятие определяется в американских словарях следующим образом: «An online catalog that is available for use by the general public» («Работающий в реальном режиме каталог, доступный для публичного пользования»). Такое определение полностью соответствует традиционному пониманию термина «читательский каталог» в отечественном библиотековедении. Таким образом, в американской практике четко дифференцируются два вида машиночитаемых каталогов в зависимости от того, предоставлены ли они непосредственно в пользование читателям. «Public access» означает, что предварительное общение с сотрудником библиотеки совершенно не обязательно: читатель работает с ОРАС самостоятельно, бесконтрольно и, что очень важно, бесплатно. При этом именно второе условие выделяет ОРАС в отдельную группу.

В отечественной каталогизации все необходимые термины стандартизованы, а встречающиеся иногда «пошатывания» надо отнести на счет авторов, пытающихся опираться на собственные соображения, вместо того чтобы изучить стандарты. О том, что библиотечный каталог может функционировать в машиночитаемой форме, сказано в ГОСТ 7.76–96, п. 3.5. А в п. 8.19 того же стандарта (ГОСТ 7.76–96) дано определение электронного каталога с принятой аббревиатурой ЭК: «Машиночитаемый библиотечный каталог, работающий в реальном режиме времени и предоставленный в распоряжение читателей». Рядом в качестве англоязычного эквивалента значится «On-line public access catalogue, ОРАС»[5,с . 149].

He следует называть библиотечный каталог базой данных. Покопавшись в стандартах, легко найдем определение (п. 3.3.1 в ГОСТ 7.73– 96): «База данных, БД: набор данных, который достаточен для установленной цели и представлен на машиночитаемом носителе в виде, позволяющем осуществлять автоматизированную переработку содержащейся в нем информации». Аналогичный набор данных на бумажном носителе (на карточках), предназначенном для использования в ручном режиме мы, как известно, называем картотекой. Отсюда один шаг до осознания того, что библиографическая картотека в других обстоятельствах соответствует понятию «библиографическая база данных».

«Картотека» и «каталог» – разные понятия. В каталоге обязательным элементом БЗ является шифр хранения документа и соответствие конкретному фонду, состав и содержание которого он раскрывает. Картотека .как и библиографическая БД) от этих обязательств освобождена, кроме того, изъятие карточки (или машиночитаемой БЗ) из каталога регламентируется особыми правилами (сначала надо решить вопрос об исключении документа из фондов). Туже операцию в картотеке свободно совершает библиограф, принимающий решение самостоятельно.

1.2. База данных, электронный каталог и банк данных библиотеки

В известных терминологических словарях, связанных с библиотечным делом и компьютеризацией библиотечных процессов, нет устоявшихся определений ряда терминов, которые необходимы при современном уровне развития библиотек в стране. Эти термины широко используются, но, как правило, разными авторами в различных смыслах. Речь идет прежде всего о таких понятиях, как "электронный каталог библиотеки", "банк данных библиотеки", определениях различных баз данных библиотеки. Сделаем попытку уточнить эти понятия.

Прежде чем перейти к определению информационно-библиотечных терминов, напомним необходимые для этого понятия информатики.

База данных (БД) — совокупность данных, организованных по определенным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными, независимая от прикладных программ [2, с. 41].

Банк данных (БнД) — автоматизированная информационная система централизованного хранения и коллективного использования данных. В состав БнД входят одна или несколько БД, система управления базами данных (СУБД), а также набор прикладных программ, составленных на языке данной СУБД [2,с. 43].

Система управления базами данных — комплекс программ и языковых средств, предназначенных для создания, ведения и использования баз данных [2, с. 41].

Прикладная программа — программа, предназначенная для решения задачи или класса задач в определенной области применения систем обработки данных [2, с. 40].

Все указанные термины являются общепринятыми в информатике в целом. Говоря на этом языке, создание компьютерной библиотечной системы заключается в следующем: выбор и установка СУБД; написание или покупка прикладных программ, обеспечивающих ввод и вывод нужной информации; формирование баз данных.

Рассмотрим пять групп БД: библиографические, лексикографические, комплектования, обслуживания читателей, текстовые.

Библиографические БД — это БД, содержащие библиографические описания документов. К ним относятся БД: книг, журналов, газет, статей, диссертаций, патентов, рукописей, изобразительных материалов, фонодокументов и т. д. — по видам изданий.

Лексикографические БД — это словари, рубрикаторы, классификаторы и т. п. С их помощью ведутся систематический, предметный поиск, поиск по ключевым словам и более сложные виды поиска, возможные с помощью компьютера. Среди этих БД могут быть словари ключевых слов (нормализованной лексики), словари предметных рубрик, тезаурусы, классификационные системы, БД авторитетных записей (точек доступа).

БД комплектования, читателей и текстовые не являются составляющими электронного каталога, они нужны для обеспечения процессов комплектования литературы и обслуживания читателей.

Основные БД комплектования — это БД планов издательств, подписки на периодические издания, заказа книг.

БД обслуживания читателей фактически сводятся к одной БД читателей, где содержатся все необходимые данные о читателях, включая сведения о заказе и выдаче литературы.

Собственные функции выполняют БД международного книгообмена и БД межбиблиотечного абонемента. Хотя первую из них можно отнести к БД комплектования, а вторую — к БД обслуживания читателей.

Под текстовыми БД понимаются полнотекстовые, гипертекстовые, фрагментальные БД и т. п.

Еще несколько лет назад было очевидно, что крупные библиотеки должны иметь большие текстовые БД статей из периодических изданий, журналов, газет в полном объеме, да и книг тоже. (В связи с этим появилось понятие "электронная библиотека". Однако в связи с бурным развитием сети Интернет сегодня необходимость этого вызывает сомнение. Видимо, основным источником доступа к текстовым БД для пользователей в ближайшем будущем будет Интернет. Библиотекам целесообразно иметь на CD—ROM, других машинных носителях только полные тексты редких книг и рукописей из своих фондов, так как непосредственная работа с ними должна быть значительно ограничена.

Перечислив наиболее существенные БД библиотеки, дадим основные определения. Они, естественно, следуют из содержания тех или иных баз данных и приведенных выше понятий информатики.

Поисковый аппарат электронного каталога библиотеки — совокупность лексикографических баз данных.

Электронный каталог библиотеки (синоним: библиографический банк данных библиотеки) — совокупность библиографических и лексикографических баз данных в комплексе с СУБД и набором прикладных программ.

Надо подчеркнуть, что электронный каталог библиотеки дает принципиально новые возможности поиска по сравнению с традиционными библиотечными каталогами не только потому, что он машиночитаемый. Объединение различных библиографических и лексикографических БД в единое целое приводит к качественно новому понятию.

Банк данных библиотеки — совокупность всех баз данных библиотеки в комплексе с СУБД и набором прикладных программ.

Термин "электронная библиотека" в настоящее время толкуется двояко. С одной стороны, под ним понимают любую реализацию библиотечной технологии с помощью вычислительной техники, с другой — наличие полных текстов документов в машиночитаемой форме по определенной тематике или всему фонду. Второе толкование кажется более соответствующим понятию "библиотека". Например, ясно, что означает "электронная библиотека собрания сочинений А.С. Пушкина", и непонятно, что такое "электронная библиотека Московского университета".

1.3. История создания электронного каталога

В 1964 г. Библиотека Конгресса начала вести исследовательскую работу по проекту «Machine-Readable Cataloging». Так появилась аббревиатура MARC, которую знают сегодня во всем мире. Через год формат машиночитаемой записи был готов, а в 1965–1968 гг. велась уже практическая реализация проекта MARC I. С 1968 г. началась работа с форматом MARC II. На первых этапах шла каталогизация книг на английском языке. Затем были разработаны форматы машиночитаемых БЗ для архивных документов, аудиовизуальных материалов, компьютерных файлов, фильмов, рукописей, картографических материалов, нотных и сериальных изданий. Можно было вводить БЗ на многих десятках языков, в том числе использующих различную графику. MARC быстро распространился во многих странах. К тому моменту, когда в Библиотеке Конгресса была подготовлена очередная его редакция, уже существовало немало зарубежных версий, называемых национальными (CanMARC, FinMARC и др.). В США было принято решение назвать переработанный формат USMARC (на самом же деле это был MARC III). Такое решение внесло некоторую путаницу. Часть национальных стандартов стала разрабатываться уже на основе USMARC, но их аббревиатуры этого факта не отражают. Последняя редакция формата получила оригинальное название MARC 21 (имеется в виду – двадцать первого века). Появление формата MARC на первых порах, естественно, вело к созданию в библиотеках США каталогов online, которые очень быстро и практически везде, даже в таких крупнейших книгохранилищах, как Библиотека Конгресса или Нью-Йоркская публичная, превратились в ОРАС. Американские коллеги до сих пор не могут решить, что было причиной, а что – следствием, но факт остается фактом: в подавляющем большинстве все эти ЭК являлись сетевыми (то есть охватывали информацию о фондах нескольких библиотек, связанных друг с другом, чаще – находящихся в определенных административных территориальных границах, и имели дружественный интерфейс: были готовы к диалогу с пользователем, от которого не требовалось предварительной подготовки).

1.4. Электронные каталоги в США

         Первые ЭК появились в 1970 г. в библиотеках США на том уровне их развития, когда некоторые другие достижения, связанные с применением технических средств, уже были повсеместно внедрены. Таковы, например, системы охраны фондов, оперативно реагирующие на вынос незарегистрированных изданий. Трудно найти библиотеку в США, в которой эта проблема не была бы решена раньше появления ЭК. Сегодня коллеги часто не могут и вспомнить, когда именно. Но мы знаем, что завоевание американского рынка системами «Electronic collection security» началось с мая 1964 г., а весь процесс занял всего несколько месяцев – настолько это оказалось выгодным для налаживания столь желанного всеми хорошего психологического микроклимата в библиотеках.          Стоит ли заниматься электроникой, если не решены элементарные технические вопросы (а у нас в стране тот самый случай)? Ведь фонды оказываются спрятанными от читателей, а библиотекари видят в каждом посетителе потенциального вора, четко подразделяя всех вошедших на «своих» и «чужих».

Удивительно, но проведенные в Великобритании исследования показали, что воруют, как правило, те самые свои: хорошо знакомые, от которых ждут добра. И напротив, несут собственные книги в дар библиотеке другие, от которых такого поступка не ожидают.

Широкое распространение компьютеров позволило внести Circulation, что никак не было связано с ОРАС. Когда и книги в фонде, и читатели оказались пронумерованными, в компьютере просто соединились те и другие «номера», а примитивная программа выдавала на экран монитора данные по читателю, по книге, по срокам возврата. Все данные вводились в компьютер «в ручном режиме», что значительно проще и выгоднее, чем записывать те же сведения в читательский формуляр (его надо найти, потом вернуть на место в определенном порядке). С появлением бар-кодов (штрихового кодирования) задача значительно облегчилась: можно было поручить устройству считывать номера с наклеек на книгах и пластиковых читательских билетов.

Обе указанные технические новинки взаимосвязаны: нечто, обеспечивающее безопасность в системе Electronic collection security, попадает в книгу именно под этой самой наклейкой, имеющей штриховой код книги.

Публичные библиотеки США уже в начале XIX в. имели всего один каталог, который назывался словарным и представлял собой симбиоз алфавитного и предметного в рамках единого алфавитного ряда. Американские читатели обращались к нему со всеми своими запросами: по имени автора, заглавию, предмету и всему прочему, что можно было как-то сформулировать: примерно так же, как мы обращаемся, например, к энциклопедическим словарям.

Умение предметизировать воспитывалось в читателях с детства. США – родина теоретической и практической предметизации. Первое в истории руководство по предметизации и предметному каталогу Ч. Кеттера было издано в Америке в 1876 г. под названием «Правила словарного каталога». К монографии автор приложил перечень рубрик, на основе которого Американская библиотечная ассоциация (ALA) издала в 1895 г. «Список предметных рубрик для использования в словарных каталогах». Так началась история всемирно известного свода – «Списка предметных рубрик БК» (Library of Congress Subject Headings – LCSH), выдержавшего множество изданий и ныне функционирующего в самых различных формах – от книжной до онлайновой. Объемы этого списка, отражающего все «literary warrant» (труднопереводимое выражение, смысл которого примерно можно передать как «подтвержденные в литературе темы и понятия»), были слишком велики для сети «публичек». Для них, начиная с 1923 г., выходил в свет другой широко известный «Список предметных рубрик для небольших библиотек» М. Сире, выдержавший более сорока изданий и хорошо согласованный с LCSH.           Нам трудно представить себе открытый доступ к фондам современных университетских библиотек, имеющих миллионы томов. Надо увидеть, как он организован в Америке. Открытый доступ всегда имел систематическую расстановку, естественную для непосредственного подбора книг. Поэтому классификационные системы как бы «работали» в фонде, а не в каталоге, обеспечивали поиск по иерархии внутренней, отраслевой структуры науки.

Практически во всех штатах нормой стала сетевая практика, однократный (одноразовый) ввод, который осуществляется в сетевой ЭК той библиотекой, которая первой приобрела издание. Другая библиотека не тратит время на оригинальную каталогизацию: каталогизаторы заимствуют готовую запись из любого каталога, выставленного в Интернете. При этом сохраняется часть библиотек, которые не имеют ЭК вовсе. Их не только никто не упрекает, им даже завидуют: они смогут приобрести (когда найдутся деньги у властей или спонсоров) ту систему, которая будет на порядок совершеннее применяемых вокруг. Например, лучшая, по мнению экспертов, система VTLS внедрена немногими библиотеками. Она молода, в ходе ее разработки были учтены достоинства и недостатки десятков других. Но именно потому VTLS применяется не везде: библиотеки начали с других систем и к моменту ее рождения уже набрали массив БЗ.

Готовых систем на рынке десятки, они отличаются в мелочах, в деталях, но едины в одном – у всех программы поддерживают американский стандартный набор: МАRС 21, AACR2R, LCSH или Sears, DDC. Другую систему на рынок не выбросят уже потому, что ее никто не купит. Для нас интересен такой аспект: держатель сетевого каталога обязательно обеспечит библиотеку каталожными карточками в необходимом количестве. В любой библиотеке запросто могут доказать, что если книга нужна «здесь и сейчас», то ее быстрее и проще найти без всякого ЭК – по карточному каталогу или прямо в фонде. Потребуется больше времени, чтобы найти документ в закрытом фонде, отраженном только в электронном каталоге.

Другое дело – библиографический запрос в границах сети (например, библиотек штата или своей системы) или, что совсем редко встречается, «в мировых информационных ресурсах». Для этого во всех американских библиотеках есть выход в OCLC – бесплатный для читателя, но стоящий библиотеке некоторую сумму денег. Достаточно стать членом OCLC, чтобы представить свои фонды в его каталоге (войти в holdings record).

Руководят OCLC избираемые советы и комиссии по всем направлениям деятельности, в состав которых входят представители десятков стран – членов Центра. Сегодня в OCLC представлено более 41 тысячи библиотек из 82 государств. Это число нам трудно себе вообразить: например, в таком огромном городе, как Нью-Йорк, всего несколько публичных библиотек. (Каждая из них может иметь густую сеть филиалов и отделений, дополняемых библиобусами но в статистике будет отражена одна библиотека).

Говоря о руководстве OCLC, имеется в виду и финансовый менеджмент. Бюджет Центра открыт и прозрачен, он проверяется аудиторами и публикуется в годовых отчетах. Огромные суммы – десятки миллионов долларов направляются ежегодно библиотекам в качестве кредитов. На первых порах им предоставляется право безвозмездного пользования OCLC, в том числе – базами данных ассоциированных с ним известных в мире информационных банков. OCLC обеспечивает входящие в него библиотеки мощными компьютерными терминалами.

Каталог OCLC сначала назывался OLUC (от OnLine Union Catalog – «Онлайновый сводный каталог»), но спустя 25 лет получил новое имя – WorldCat («Всемирный каталог»). В нем на конец 2002 г. имелось около 49 миллионов БЗ. Каждые 15 секунд заносится новая запись. В фондах библиотек – членов OCLC эти записи представлены 864 миллионами экземпляров документов, активно используемых в системе МБА. Информация охватывает четыре тысячелетия человеческой истории на 400 языках народов мира.      Русский язык по числу записей занимает не самое почетное шестое место (после английского, французского, немецкого, испанского, японского). Документов на русском языке представлено в 30 раз меньше, чем на английском, но они введены в WorldCat американскими библиотеками. Весь мир очень заинтересован, чтобы в OCLC были представлены фонды российских библиотек.

2. Сущность электронного каталога и работы с ним

2.1. Особенности работы с электронным каталогом

Установлено, что в объем первичной информации, которую надо знать любому пользователю ЭК до того, как засветится экран, входят ответы на такие вопросы:      – как включить компьютер

     – как выбрать язык диалога (в США, как правило, только английский, в других странах – английский или родной язык)      – как исправить свою ошибку (в том числе – отредактировать уже введенные данные)      – сколько времени дается на ответ и как его продлить (иначе машина автоматически отключится)

     – как сделать так, чтобы номер читательского билета был считан машиной, а если считывающего устройства нет, то как ввести свои персональные данные.          Последнее обстоятельство, пока еще неведомое нам, в России, очень важно. ЭК, как правило, является лишь одним из элементов системы, обеспечивающей не только поисковые функции, но и работу модуля Circulation (непереводимое на русский язык понятие, включающее в себя регистрацию возврата и выдачи документов библиотечного фонда плюс все сопутствующие функции: учет сроков возврата, наложение «взысканий» и т. п.).

Считается естественным, если эти сведения будут предлагаться в традиционной для пользователя форме – например, в виде краткой инструкции, помещенной рядом с монитором. В США были выработаны общие принципы такого диалога, при котором достигается высокая эффективность использования вычислительной техники и обеспечивается доверие пользователя к «машине».

     1. Диалог должен вестись исключительно на естественном языке. Следует избегать излишнего кодирования символов или команд, прибегая во всех возможных случаях к мнемонике. Например, команда «Да», выражающая согласие пользователя, подается нажатием клавиши «Y» (Yes), команда «Нет» – клавиши «N» (No, Not). Автор обозначается литерой «A» (Author), имя лица – «N» (Name), название произведения – «Т» (Title), дата, год издания – «D» (Date).      2. Диалог осуществляется с помощью двух различных систем ввода информации. Если пользователю предоставляется выбор, он знакомится с полным списком опций (на экране монитора появляется меню). Неэтично спрашивать читателя, какой вид документа он предполагает искать. Правильное решение – вывести на экран их перечень и дать возможность самостоятельно выбрать. Однако в тех случаях, когда пользователь должен назвать конкретные данные, например, имя автора, название произведения и т. п., ему предоставляется возможность это сделать: на экране монитора появляется маска-бланк.      3. Прежде чем вывести на экран библиографическую информацию, следует дать статистическую справку по результатам поиска. Во всех случаях, когда эти результаты превышают объем от 15 до 40 записей, которые пользователь, как правило, просматривает сразу, надо предложить ему ввести дополнительные параметры поиска, ограничивающие выдачу. Вне зависимости оттого, какое решение будет принято, прежде чем на экране появится информация, пользователю нужно сообщить, в какой последовательности сгруппированы найденные БЗ, и предложить изменить эту последовательность (опции предлагаются). Для читателя практически всегда выгоднее получить информацию в обратной хронологической последовательности(сначала – самые новые, последние из введенных в ЭК записи). Но по желанию перечень можно «перевернуть» – прямая хронология представит литературу по вопросу в исторической последовательности. Подобных преимуществ не имеет алфавитный порядок.      4. ЭК обязан обеспечивать весь комплекс услуг, которые предоставлялись пользователям традиционными каталогами. Но меньше, хуже – ни в коем случае. Этот принцип пригодится нам при анализе ситуации, складывающейся в России сегодня. ЭК – технический инструмент поиска, обеспечивающий удобство работы, большую оперативность получения информации, позволяющий «перелопатить» огромные ее объемы, находящиеся – что самое главное – на больших расстояниях от пользователя.      Возможно, будут найдены методы глубокого индексирования, при которых пользователю ЭК предоставят информацию, которой он не смог бы получить в традиционных каталогах при ручном поиске, даже затратив сотни часов.

     2.2. Форма информации электронного каталога

Уже в начале процесса автоматизации каталогов была достигнута договоренность: в ответ на запрос «машина» будет выдавать пользователю две различные «картинки» – одну с БЗ (bibliographical record), вторую (holdings record) – с информацией о том, в фондах каких библиотек есть данное издание и выдается ли оно по МБА. Как правило, пользователь не должен получать третьей «картинки» на каждый документ – той самой, где собраны данные по полям формата. Она носит рабочий, внутренний характер: на ней остается много контрольных сведений(например, даты, личные номера каталогизатора и редактора, записи и т. п.). Формат holdings record постоянно совершенствовался, пока не приобрел вид всем понятной таблицы (где находится издание, в скольких экземплярах, предоставляется ли по ILL(МБА) и др.).          Сложной оказалась судьба основной БЗ. Большинство американских библиотекарей считало, что переход от карточного каталога к ЭК совсем не обязательно приводит к изменению формата выдачи информации. Они полагали, что на экране монитора должна появляться привычная всем карточка, за ней – другая, третья и т. д. С трудом «традиционалисты» согласились с тем, чтобы на экран выводился легко обозримый ряд записей. Однако каждая БЗ должна содержать все элементы карточки в единой последовательности.          Дважды проводились достаточно репрезентативные исследования. Оказалось, что такую точку зрения поддерживает подавляющее большинство читателей. Тем не менее привычный внешний вид записи не всегда сохранялся. В меньшей степени изменения проявлялись в системах, рассчитанных на сеть публичных библиотек. В крупных, в основном – в академических (так называются в США университетские библиотеки), запись не всегда напоминает каталожную карточку. Однако внешняя форма и здесь, как правило, не отразилась на полноте элементов или их последовательности.

2.3. Сущность работы электронного каталога

Процесс аналитической обработки информации и определения ключевых слов к документу включает этапы, которые осуществляются в указанной ниже последовательности:

1)    Определение содержания документа. При анализе документа индексатору должна быть предоставлена возможность ознакомления с текстом документа в полном объеме.

2)    Выбор понятий, отражающих содержание документа. При этом основным критерием отбора является потенциальная ценность данных понятий для поиска документа пользователем (можно ориентироваться, например, на тему предполагаемого запроса).

3)    Выбор терминов индексирования для обозначения понятий. При классификационном индексировании выбор терминов осуществляется на основе определенных классификационных таблиц и правил индексирования, при предметном индексировании основой является словарь предметных рубрик, а при контролируемом терминологическом индексировании – тезаурус дескрипторного типа. При атрибутном индексировании используются ключевые термины. Ключевые термины (слова) по форме могут представлять собой одиночные имена, именные словосочетания, сокращения (аббревиатуры).

4)    Поисковый образ документа строится из выбранных терминов индексирования с помощью грамматических средств используемого языка индексирования.

Часть I. Подготовка

Следует внимательно прочитать текст статьи и определить тематику публикации. Особое внимание нужно обратить на ту часть документа, где описана проблема или основной тезис статьи. Это – наиболее информативная часть документа. Кроме этого, анализу подлежат: заглавие, продолжение заглавия, предисловие к статье, аннотация или реферат, резюме. Прочитав текст, следует определиться, для какой темы читательского запроса подходит данная статья и сформулировать основной тезис (проблему).

Далее следует выписать наиболее значимые слова или понятия в тексте, которые несут основную смысловую нагрузку текста, обозначают признак предмета, состояние, процесс или действие. При создании первоначального списка слов учитывается то, что разным читателям интересны различные аспекты проблемы: одному будет интересно узнать новые научные факты, другому выяснить специфические термины, и т. п.

Часть II. Оценка результатов

Построить из выписанного перечня слов смысловые ряды и дополнить список более широкими понятиями, которые в статье могут и не встретиться, но состоят с выписанными словами в определенных парадигматических отношениях. Смысловые ряды могут начинаться с комплекса клишированных ключевых слов, которые в дальнейшем будут использоваться при росписи статей с аналогичным содержанием. Например, статья «К вопросу о критериях художественности» посвящена рассмотрению эстетических категорий на материале художественной литературы. В этом случае смысловой ряд ключевых слов следует начинать со слов ТЕОРИЯ ЛИТЕРАТУРЫ, ХУДОЖЕСТВЕННОЕ ПРОИЗВЕДЕНИЕ, ЭСТЕТИКА ХУДОЖЕСТВЕННОГО ПРОИЗВЕДЕНИЯ, ЭСТЕТИЧЕСКИЕ КАТЕГОРИИ, ХУДОЖЕСТВЕННОСТЬ ЛИТЕРАТУРНОГО ПРОИЗВЕДЕНИЯ (КАТЕГОРИЯ). Далее, в конце смыслового ряда, можно указать жанры и названия конкретных художественных произведений, на анализе которых построена данная статья. В нашем случае достаточно придерживаться только общих терминов и понятий.

Если в статье встречается принципиально новое понятие (термин), то его также следует использовать в качестве ключевого слова, даже если оно окажется не очень удобочитаемым и на момент создания базы данных не описано ни в справочных изданиях, ни в других базах данных. При этом нужно иметь в виду, что комплекс ключевых слов не должен содержать информацию о смысле и значении этих слов. Это – поисковые слова, их основное назначение – способствовать поиску библиографической информации о документах, где дается подробное толкование и описание этих понятий и (или) явлений.

Часть III. Итог

Наконец, из полученных логических цепочек слов или словосочетаний нужно выявить те, которые составляют доминанту данного текста. При этом необходимо учесть, что современные ИПС в большинстве случаев предполагают поиск не только по отдельным полям библиографической записи, но и по всем полям одновременно. Поэтому при окончательном отборе следует избегать полного дублирования заглавия, продолжения заглавия и названий основных и (или) предметных рубрик.

Таким образом, должен получиться набор из 4–8, максимум, 10 ключевых слов

В качестве примера приведем комплекс ключевых слов:

ИНФОРМАЦИОННОЕ ОБСЛУЖИВАНИЕ ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ ЭЛЕКТРОННЫЙ КАТАЛОГ (ПОНЯТИЕ) ДОКУМЕНТ (ПОНЯТИЕ) СМЫСЛОВАЯ ОБРАБОТКА ДОКУМЕНТА ИНДЕКСИРОВАНИЕ ИНФОРМАЦИИ АТРИБУТНОЕ (КООРДИНАТНОЕ) ИНДЕКСИРОВАНИЕ ПОИСКОВЫЙ ОБРАЗ ДОКУМЕНТА КЛЮЧЕВОЕ СЛОВО (ПОНЯТИЕ)

Основными особенностями предлагаемой модели смысловой обработки информации и формирования поискового образа документа являются максимальная полнота индексирования информации, возможность описания сферы интересов пользователя в виде перечня основных понятий (ключевых слов), которые предметно независимы и могут быть не регламентированы тезаурусами и другими формами нормативных словарей. Наконец, данная технология представит значительный интерес для информационных служб, поскольку она универсальна, ориентирована на пользователей как локальных, так и глобальных телекоммуникационных сетей и призвана способствовать повышению качества смыслового поиска.

3. Проблема аналитической переработки информации в электронных каталогах

На стыке противоречивых тенденций в развитии лексического обеспечения баз данных оказались электронные каталоги крупных научных библиотек, к которым в разных условиях предъявляются следующие требования:

·                    с одной стороны, унификации в связи с созданием сводных каталогов и корпоративных сетей, а с другой – большей гибкости и выразительности в связи с увеличением объема баз данных;

·                    с одной стороны, упрощения в связи с расширением самостоятельного поиска, а с другой – большей дифференциации в соответствии с требованиями отдельных категорий пользователей.

Электронный каталог – это автоматизированная информационно-поисковая система (ИПС), база данных, поиск информации в которой производится в соответствии с информационно-поисковым языком (ИПЯ). В современных ИПС распространены два варианта создания записи:

·                    смысловая обработка документов при помощи информационно-поискового тезауруса;

·                    бестезаурусный ввод документов в ИПС.

Информационно-поисковый тезаурус – это нормативный словарь ИПЯ с зафиксированными в нем парадигматическими отношениями лексических единиц [9, с. 55]. Словари типа «тезаурус», или идеографические, чаще имеют расположение слов по смысловой близости. Примерами информационно-поискового тезауруса могут являться Библиотечно-библиографическая классификация (ББК) или Государственная автоматизированная система научно-технической информации (ГАСНТИ). Основное назначение тезауруса – обеспечивать индексирование документов для ввода в ИПС, служить основным терминологическим пособием.

В плане работы над концепцией лексического обеспечения корпоративных библиотечно-информационных систем интересен опыт ГПНТБ России [22], [23]. Был проведен анализ результатов индексирования документов ключевыми словами в крупных массовых библиотеках городов России. Анализ показал, что выбор ключевых слов и формы их представления в поисковом образе документа производится бессистемно и не имеет более или менее согласованных правил. В результате один и тот же документ, проиндексированный разными сотрудниками, содержит совершенно несопоставимые поисковые образы. С целью устранения указанного недостатка в ГПНТБ России была начата работа по «мягкому» нормированию составления ключевых слов: произведен сбор, анализ и обработка словарей ключевых слов для последующей разработки на их основе согласованных в системе словарей с целью перехода на полностью нормированную тезаурусами лексику [22; с. 88].

Безусловно, одним из бесспорных достоинств работы с использованием информационно-поискового тезауруса является упорядоченность терминосистемы, что обеспечивает однозначную формулировку термина или понятия. Однако на практике использование тезаурусов представляется проблематичным, поскольку это – априори не ориентированная ни на конкретного пользователя, ни тем более на текст конкретного документа система, с помощью которой должна производиться смысловая индексация. Кроме того, для индексирования необходим очень полный словарь терминов при том, что статус слова в качестве нормативного термина достаточно изменчив. Разработка тезаурусов – работа трудоемкая, нуждающаяся в оперативном редактировании, а поиск информации в свою очередь может оказаться неудовлетворительным. Поэтому разработчики ИПЯ сегодня больше предпочитают бестезаурусный ввод документов в ИПС.

Бестезаурусный режим ИПС – это работа на естественном языке. Специфика бестезаурусного ввода информации заключается в том, что поисковые образы документов представлены в виде комплекса ключевых (поисковых, смысловых) слов, выбранных из текста конкретного документа. На данный момент действительно нет единого принципа отбора ключевых слов к документу. Так, ГПНТБ России считает, что список ключевых слов должен, в первую очередь, наиболее полно отражать те части содержания документа, которые представляют наибольший читательский спрос или интерес. Список ключевых слов может быть не упорядочен и не зависеть от их роли и характера отношений между ними в содержании каждого конкретного документа [22; с. 89]. Однако за время работы с базами данных в корпоративных системах библиографы пришли к выводу, что в качестве ключевых слов должны выступать прежде всего понятия, называющие отрасль знания, и слова, состоящие с этими понятиями в ассоциативной связи и в родовидовых отношениях [26; с. 73].

Проблемы противоречивых подходов к принципам лексического обеспечения библиотечно-информационных систем побудили к необходимости разработки и апробирования на практике интеллектуальных технологий смыслового анализа, индексирования и поиска библиографической информации в электронных базах данных. В некоторых публикациях особое внимание уделяется формированию метаданных (т.е. информации об информации или информации, формируемой создателями электронных ресурсов и представляющей собой обязательный минимум сведений, который позволяет их использовать при каталогизации и при поиске информации). При этом отмечается, что сама организация информации в ИПС, как и в электронных полнотекстовых базах данных, должна учитывать поведение пользователей при проведении поиска [1; с. 15], [5; с. 30].

В основе идеи свертывания первоисточников информации на базе ключевой лексики лежит представление о том, что фразы текста, особенно научно-теоретического, выполняют не только внетекстовую функцию (фраза как отражение некоторой экстралингвистической реальности – о ч¨м и что говорится), но и внутритекстовую грамматико-стилистическую (фраза как способ отражения этой экстралингвистической реальности в виде некоторой целостной композиции имеющей свою логику и структуру). В рамках аналитико-синтетической обработки информации выделяют три основных направления: статистический, позиционный и индикаторный. Статистические методы основаны на использовании статистических параметров для оценки информативности различных элементов текста (слов, предложений) прежде всего по частоте встречаемости полнозначных слов в тексте. В результате ранжирования лексики в том или ином документе по степени частотности употребления слов они определяют в тексте слова с высокой частотностью и по этому показателю оценивают информативность данного текста. Позиционные методы опираются на предположение о том, что информативность предложения находится в зависимости от его позиции (места) в тексте документа; однако они «работают» относительно удовлетворительно на строго структурированных документах: стандартах, патентных описаниях и т.п., а в остальных случаях применяются лишь в сочетании с другими методами, поскольку в чистом виде не обладают необходимой репрезентативностью результатов [5; с. 33].

Индикаторные методы, или методы атрибутного индексирования (по ГОСТу-96 – координатного, [9]), основаны на функциональной идентификации фраз первичного документа с помощью индексации их специальными словами, образующими лексический аппарат данного документа. Совокупности таких фраз, определенным образом упорядоченных, и образуют комплекс ключевых слов к документу – основного средства информационного обслуживания. Под ключевым словом здесь понимается единица текста – слово, словосочетание, предложение, единые синтаксические целые и т.п., обладающие смыслом и имеющие самостоятельное значение вне контекста документа, из которого они извлечены. Соответственно, комплекс ключевых слов является своего рода лексической моделью научного текста. Функциональная значимость ключевых слов определяется тем, что они являются одним из наиболее оптимальных способов классификации, хранения и передачи информации. Отражая развитие и терминодинамику определенной научной отрасли, комплекс ключевых слов представляет собой еще и систему отслеживания и распространения современной терминологии.

Каждый описываемый источник имеет свою логическую организацию материала. Например, статья в научно-теоретическом журнале может строиться по следующей модели:

·                    вступление и формулировка тезиса (противоречия)

·                    известный вариант решения проблемы, его оценка;

·                    отступления от заглавной темы, которые могут содержать научно-исторический экскурс и (или) анализ степени изученности проблемы;

·                    развитие тезиса, обозначенного во вступительной части;

·                    предлагаемый вариант решения проблемы, его оценка;

·                    экспериментальная проверка, экономическая эффективность;

·                    область применения;

·                    выводы, рекомендации, резюме.

С точки зрения лексической организации материала, практически в каждой статье содержатся определенные синтаксические конструкции (фреймы), вводятся словесные клише, штампы, уточнения, связки и прочие метаинформативные элементы. Таким образом, большинство фраз текста не только номинативны, но и функциональны, причем определенным синтаксическим конструкциям, «выполненным» из лексики внетематического (неключевого) слоя, соответствуют определенные типы фраз, которые относятся к различным содержательным аспектам или выполняют модально-оценочные функции [5; с. 33–34].

В библиографической практике сущность понимания текста и формирования его поискового образа заключается в сведении содержания текста к коротким и существенным формулам, определении в каждой формуле центрального по смыслу понятия, связывании понятий между собой и образовании в итоге единой логической цепи идей. Следовательно, в смысловом плане комплекс ключевых слов к такому документу укладывается в следующую схему: Субъект; Качественные характеристики, свойства; Действия, способы, технологии; Области деятельности (применения) [15; с. 18].

Серьезные ограничения при использовании методов атрибутного индексирования связаны со следующими обстоятельствами:

·                    определение ключевых слов – достаточно субъективный процесс, поскольку даже при участии самого объективного эксперта трудно избежать односторонности в формулировке;

·                    определение ключевых слов – трудоемкая процедура из-за невозможности автоматической индексации документа;

·                    ключевые слова способны переходить в разряд словесных клише, или штампов, снижая тем самым ценность анализируемого текста;

·                    предполагается, что пользователи будут осуществлять поиск информации предсказуемым способом, используя предопределенные поисковые атрибуты;

·                    поиск по ключевым словам – это четкий поиск. Если сделана ошибка при формулировке ключевого слова в процессе создания баз данных, то результат поиска вряд ли будет удовлетворительным. В то же время, если сделана ошибка в запросе для поиска, система никогда не найдет нужную информацию.

По определению терминологического словаря «Библиотечное дело», ключевое слово ( это «слово или словосочетание естественного языка, выбираемое из текста документа и используемое для его индексирования» или «слово или словосочетание из текста документа или запроса, которое несет в данном тексте существенную смысловую нагрузку с точки зрения информационного поиска» [4; с. 54]. Другими словами, под ключевым (поисковым) словом понимается лексическая единица, которая должна обеспечивать однозначность поиска.

В современных информационно-поисковых системах индексирование документов заключается в анализе их содержания и усечении этой информации до набора ключевых слов. Пользователь же в процессе поиска информации выполняет эту процедуру в обратном порядке: от ключевых (поисковых) слов – к документам. Основная проблема здесь заключается в том, что пользователь может задавать только те поисковые параметры, которые предусмотрены создателями записи заранее. Поэтому современный уровень подготовленности пользователя пока требует наличия словарных баз данных и их интерактивного использования при поиске, то есть возможности осуществления навигации и прямого поиска по словарю, отбора словарных элементов и перенесения этого запроса в базу данных. Для пользователя более предпочтительна работа в каталогах с открытыми поисковыми словарями, прежде всего потому, что поиск в закрытых поисковых системах часто не приводит к отбору интересной для него информации и отсеву неинтересной. Кроме того, пользователь может обогащать свой запрос, используя поисковый словарь. Практика показывает, что при поиске с помощью словаря ключевых слов пользователю действительно удается найти большее число релевантных документов, чем при поиске в закрытых информационно-поисковых системах. Причина этого кроется не только в сложности для пользователя формулирования своего запроса в виде списка слов, составляющего поисковый образ. Недостаточно эффективно и само использование создателями библиографической записи элементов текста документа для включения их в поисковый образ. Данная поэтапная модель смысловой обработки документа (на примере данной статьи) предлагается для того, чтобы помочь создателям электронной библиографической записи эффективно и правильно выбирать ключевые слова.

Заключение

         В ходе выполнения работ была достигнута ее основная цель и решены все задачи, поставленные во введении. В заключении сделаем несколько основных выводов.

Понятие «электронный каталог» пришло к нам из США. Странно, но в английской профессиональной лексике нет эквивалента сочетанию «electronic catalog». Американцы, услышав это выражение, обязательно спросят, что имеется в виду. В отличие от нашей страны, в Соединенных Штатах этот термин имеет несколько значений.

В отечественной каталогизации все необходимые термины стандартизованы, а встречающиеся иногда «пошатывания» надо отнести на счет авторов, пытающихся опираться на собственные соображения, вместо того чтобы изучить стандарты.

В известных терминологических словарях, связанных с библиотечным делом и компьютеризацией библиотечных процессов, нет устоявшихся определений ряда терминов, которые необходимы при современном уровне развития библиотек в стране. Эти термины широко используются, но, как правило, разными авторами в различных смыслах. Речь идет прежде всего о таких понятиях, как "электронный каталог библиотеки", "банк данных библиотеки", определениях различных баз данных библиотеки. Сделаем попытку уточнить эти понятия.

Электронный каталог библиотеки (синоним: библиографический банк данных библиотеки) — совокупность библиографических и лексикографических баз данных в комплексе с СУБД и набором прикладных программ.

Основными особенностями предлагаемой модели смысловой обработки информации и формирования поискового образа документа являются максимальная полнота индексирования информации, возможность описания сферы интересов пользователя в виде перечня основных понятий (ключевых слов), которые предметно независимы и могут быть не регламентированы тезаурусами и другими формами нормативных словарей. Наконец, данная технология представит значительный интерес для информационных служб, поскольку она универсальна, ориентирована на пользователей как локальных, так и глобальных телекоммуникационных сетей и призвана способствовать повышению качества смыслового поиска.

Список литературы

1.     Алешин Л.И. Поиск документов: анализ и новые возможности /Л.И. Алешин // Библиография. 2002. No 4. С. 14-18.

2.     Барышева О.В. Библиография в эпоху электронных коммуникаций /О.В. Барышева, Д.С. Гиляревский //Библиография. 1999. No 2. С. 3-13.

3.     Бахтурина Т.А. Проблемы стандартизации библиографического описания электронных ресурсов /Т.А. Бахтурина //Научные и технические библиотеки. 2000. No 7. С. 16-21.

4.     Библиотечное дело: Терминологич. словарь /Рос. гос. б-ка. М., 1997. 167 с.

5.     Блюменау Д.И. Индикаторный метод компьютерного свертывания в процессе обучения аналитико-синтетической переработке информации /Д.И. Блюменау, Л.Н. Афанасова //Научные и технические библиотеки. 2001. No 12. С. 29-41.

6.     Воройский Ф.С. Аналитико-синтетическая обработка и переработка информации в автоматизированных системах НТИ: Основы организации и технологии /Ф.С. Воройский; Ин-т повышения квалификации инормацион. работников. М., 1991. 218 с.

7.     Воройский Ф.С. Индексирование документов в АБИС /Ф.С. Воройский //Библиотека. 1996. No 9. С. 42–44.

8.     Воройский Ф.С. Систематизированный толковый словарь по информатике: Вводный курс по информатике и вычислительной технике в терминах /Ф.С. Воройский. М.: Либерея, 1998. 375 с.

9.     ГОСТ 7.74-96 Информационно-поисковые языки. Термины и определения.

10.                       Информационно-поисковый язык на основе ББК для электронного каталога: Методич. пособие /Рос. гос. б-ка. М., 1998. 58 с.

11.                       Зайцева Е.М. Лингвистическое обеспечение автоматизированных библиотечно-информационных систем: современные требования и направления развития /Е.М. Зайцева // Научные и технические библиотеки. 2000. No 3. С. 54–57.

12.                       Захаров В.П. Языковые средства современных информационно-поисковых систем: Автореф. дис... канд. филол. наук /В.П. Захаров; Санкт-Петерб. ун-т. СПб., 1997. 22 с.

13.                       Леонов В.П. Терминологические проблемы создания информационных комплексов по консервации документов /В.П. Леонов, Ю.П. Нюкша, В.П. Захаров //Научно-техническая информация. Сер. 1, Организация и методика информационной работы. 2000. No 2. С. 10-14.

14.                       Максимов Н.В. Информационный поиск и модели поведения пользователей /Н.В. Максимов, Н.Н. Забегаева //Научно-техническая информация. Сер. 1, Организация и методика информационной работы. 2001. No 11. С. 10-21.

15.                       Оранская Л.И. Некоторые особенности использования дескрипторного поискового языка в библиографической информационно-поисковой системы универсальной библиотеки /Л.И. Оранская //Научные и технические библиотеки. 1997. No 9. С. 13-23.

16.                       Паршукова Г.Б. Информационно-библиографическое обеспечение научной деятельности потребителя в условиях высшего учебного заведения как фактор повышения качества образования: Автореф. дис... канд. пед. наук /Г.Б. Паршукова; ГПНТБ СО РАН. Новосибирск, 1998. 26 с.

17.                       Пименов Е.Н. Нормативность и некоторые проблемы разработки тезаурусов и других лингвистических средств ИПС /Е.Н. Пименов //Научно-техническая информация. Сер. 1, Организация и методика информационной работы. 2000. No 5. С. 7-16.

18.                       Пименов Е.Н. О факторах, влияющих на индексирование: индексирование и предметная область /Е.Н. Пименов //Научно-техническая информация. Сер. 1, Организация и методика информационной работы. 2000. No 2. С. 15-23.

19.                       Ручимская Е. Поиск в электронном каталоге: помощь техническая и семантическая /Е. Ручимская //Библиография. 1998. No 3. С. 10-13.

20.                       Синклер А. Большой толковый словарь компьютерных терминов: Русско-английский, англо-русский /А. Синклер. М.: Вече; АСТ, 1998. 512 с.

21.                       Скарук Г.А. Тематический поиск в электронном каталоге: проблемы лингвистического обеспечения /Г.А. Скарук //Библиотековедение. 2001. No 3. С. 48–57.

22.                       Создание и использование информационных ресурсов общего пользования корпоративных сетей: Сб. учеб.-метод. материалов /Науч. рук. Я.Л. Шрайберг; отв. исп. Ф.С. Воройский; ГПНТБ России. М., 2000. 123 с. (На правах рукописи).

23.                       Создание корпоративной сети публичных библиотек Москвы: Эскизный проект с элементами технического проектирования /Науч. рук. Я.Л. Шрайберг; отв. исп. Ф.С. Воройский; ГПНТБ России. М., 1999. 84 с. (На правах рукописи).

24.                       Создание электронных каталогов: Из опыта работы Российской государственной библиотеки /Сост. О.А. Лавренова; Рос. гос. б-ка. М., 1996. 80 с.

25.                       Терещенко С.С. Тенденции развития автоматизированных информационных систем /С.С. Терещенко //Научно-техническая информация. Сер. 1, Организация и методика информационной работы. 2001. No 6. С. 8-19.

26.                       Щербинина Г.С. Философия координатного индексирования /Г.С. Щербинина //Научные и технические библиотеки. 2000. No 9. С. 67–78.