Информационный поиск
Информационный поиск
Вопросы:
1. Понятие информационного поиска.
2. Библиотека как информационно-поисковая система. Поисковые ресурсы библиотек.
3. Методика информационного поиска
4. Информационный поиск в Интернете.
1. Понятие информационного поиска
Выбор источников информации, стратегий ее поиска, методы оценки полезности найденной информации все эти факторы являются характеристиками информационного поведения человека. Критериями информационной культуры человека можно считать его умение адекватно формулировать свою потребность в информации во всей совокупности информационных ресурсов, перерабатывать информацию и создавать качественно новую, вести индивидуальные информационно-поисковые системы, адекватно отбирать и оценивать информацию [11].
Основным средством передачи научной информации во времени и пространстве был и продолжает оставаться письменный документ. Такая система научной связи существует с момента возникновения науки и в целом успешно выполняет свою функцию.
Возникновение системы научной коммуникации при помощи письменных документов сразу же потребовало организации промежуточных хранилищ, в которых бы последние накапливались и хранились в систематизированном виде. Это давало исследователю возможность производить поиск документов в любое удобное для него время.
Информационным поиском (ИП) называется некоторая последовательность операций, выполняемых с целью отыскания документов, содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на данные вопросы. Термин «ИП» ввел в информатику американский математик Кэлвин Муэрс в 1947 году.
Побудительная причина ИП - информационная потребность, выраженная в форме информационного запроса. Объектами ИП могут быть документы, сведения о их наличии и (или) местонахождении, фактографическая информация.
ИП различают следующим образом:
• в зависимости от цели - адресный (формально-механический) и семантический (тематический);
• от объекта поиска - документный и фактографический;
• от степени использования технических средств - ручной или автоматизированный.
• в зависимости от функциональной роли - доминирующие/второстепенные, центральные/периферические, устойчивые/ситуативные потребности.
Все виды ИП пересекаются, так как их цели и объекты часто взаимосвязаны. Например, документный и фактографический виды поиска могут быть как адресными, так и семантическими.
ИП производится при помощи информационно-поисковых систем (ИПС). ИПС - это комплекс связанных друг с другом отдельных частей, предназначенный для выявления в каком-либо множестве элементов информации, отвечающих на предъявленный информационный запрос. Массив элементов информации, в котором производится ИП, называется поисковым массивом.
ИПС подразделяются на документальные и фактографические. Документальные ИПС в ответ на вводимые в них информационные запросы выдают оригиналы, копии или адреса хранения документов, содержащих требуемую информацию. Подкласс документальных ИПС, выдающих лишь библиографические описания (БО) искомых документов, иногда называют библиографическими ИПС.
В отличие от документальных ИПС фактографические поисковые системы предназначены для выдачи непосредственно требуемой информации (например, температуры кипения какой-либо жидкости; структурных или молекулярных формул химических соединений, обладающих некоторыми свойствами, и т.д.).
Принципиальных различий между документальными и фактографическими ИПС нет. Если провести аналогию, то документальные ИПС отличаются от фактографических не в большей степени, чем первичные научные документы от справочников. Основным признаком, объединяющим документальные и фактографические ИПС в один общий класс, является то, что и первые, и вторые могут по запросам выдавать такую и только такую информацию, которая была ранее в них введена.
Любая документальная ИПС - от ручной до автоматизированной - включает в себя следующие элементы: информационно-поисковый язык (ИПЯ), правила перевода текстов документов и запросов с естественного языка на ИПЯ, формальные правила (алгоритмы) поиска, технические устройства, реализующие алгоритмы поиска, фонд документов (или их адресов), записанных на каких-либо носителях информации.
ИП осуществляется по определенным правилам, определяющим стратегию поиска, т.е. способы достижения оптимального результата. Стратегия ИП зависит от типа поисковой задачи, критериев выдачи и характера диалога между потребителями информации и ИПС.
В общем случае процедура ИП состоит из четырех этапов:
• уточнения информационной потребности и формулировки запроса;
• определения совокупности держателей информационных массивов;
• извлечения информации из информационных массивов;
• ознакомления пользователя с полученной информацией и оценки результатов поиска.
Наиболее эффективный метод поиска документов, содержащих научную информацию - прочитать каждый документ некоторой библиотеки. Но такой способ практически неосуществим, поскольку число документов обычно бывает слишком большим, чтобы все их можно было прочитывать при каждом информационном запросе. Поэтому приходится использовать другой, менее эффективный метод, при котором ИП производится не по самим текстам документов, а по кратким характеристикам содержания или определенным внешним признакам документов. Для этого каждый документ снабжается поисковым образом документа (ПОД) - характеристикой, в которой кратко выражается основное смысловое содержание документа. В виде такой же краткой характеристики - поискового предписания или поискового образа запроса (ПОЗ) - должен быть сформулирован и информационный запрос. Благодаря этому процедура ИП может быть сведена к простому сопоставлению ПОД с заданным ПОЗ. Если ПОД в необходимой и достаточной степени совпадает с ПОЗ, считается, что этот документ отвечает на информационный запрос. Такое сопоставление оправдано лишь тогда, когда поисковый образ и поисковое предписание формулируются в терминах одного и того же языка, и притом такого, в котором каждая фраза допускает одно и только одно толкование.
В ПОД в краткой форме выражается лишь основное смысловое содержание документа. Поэтому такой метод не может обеспечить отыскания в библиотеке всех документов, содержащих требуемую информацию. Кроме того, в числе найденных документов могут быть такие, которые фактически не отвечают на данный информационный запрос. Эти документы образуют так называемый «поисковый шум».
Важно иметь в виду, что информация, содержащаяся в научных документах, объективно подчиняется закону рассеяния. Полнота и точность поиска представляют собой конкурирующие показатели: повышение одного из них ведет к снижению другого. Увеличивая полноту поиска, мы неизбежно уменьшаем его точность и наоборот, увеличивая точность поиска, уменьшаем его полноту.
Эффективность ИП определяют показатели, характеризующие нахождение релевантных документов. Они делятся на семантические (точность и полнота поиска, коэффициент информационного шума и коэффициент потерь) и технико-экономические (оперативность поиска, стоимость и трудоемкость поиска).
С проблемой ИП раньше всего столкнулись библиотекари. Для того, чтобы читатели могли находить в фондах библиотеки интересующие их документы, в ней создаются различные каталоги и указатели. В одной из крупнейших библиотек древности - в Александрийской библиотеке - к 47 г. до н.э. насчитывалось около 700 тыс. томов (свитков папируса). Составленный Каллимахом каталог к фондам этой библиотеки (примерно в 250 г. до н.э.) имел объем 120 томов. В качестве основных элементов книгоописания в этом каталоге использовалось имя автора и заглавие произведения. Если произведение не имело заглавия, то Каллимах приводил его начальные строки.
Простейшим ПОД является его заглавие. По заглавию книги или статьи читатель в большинстве случаев может судить о том, представляет ли для него интерес эта книга или статья и стоит ли с ней знакомиться подробней.
Аннотация и реферат документа также суть его поисковые образы. С увеличением объема реферативных журналов (РЖ) число помещаемых в них аннотаций и рефератов стало настолько большим, что РЖ пришлось снабжать дополнительным справочным аппаратом - системой указателей, значительно облегчающих для читателей решение информационно-поисковых задач. Таким образом, РЖ, а также РЖ с системой указателей - это простейшие документальные ИПС, рассчитанные на индивидуальное использование.
Существует три основных типа информационно-поисковых задач:
• ретроспективный информационный поиск, т.е. отыскание письменных документов (всех или части), в которых содержатся сведения по определенному вопросу;
• срочное оповещение отдельных специалистов (абонентов) о публикациях, представляющих для них потенциальный интерес. Данный тип информационного поиска называется избирательным (адресным) распределением информации (ИРИ). Он производится по постоянным информационным запросам (так называемым «профилям интересов»), которые формулируются самими потребителями. Это особый случай ИП;
• поиск имен специалистов, располагающих информацией по определенному вопросу.
2. Библиотека ка информационно- поисковая система. Поисковые ресурсы библиотек.
Информационный поиск в библиотеках осуществляется при помощи справочно-библиографического аппарата, как традиционного, так и виртуального. Справочно-библиографический аппарат библиотек (СБА) является средством раскрытия содержания фонда библиотеки и оказания помощи пользователям в подборе документов [8].
В состав современного СБА входят система библиотечных каталогов и картотек (баз данных); справочно-библиографический фонд; фонд выполненных библиографических справок. Виртуальный СБА включает каталоги, БД и иные библиографические ресурсы интернета, используемые библиографом при разыскании документов, сведений о них, фактографической информации.
Система каталогов отражает библиотечный книжный фонд в разных аспектах. Каталоги бывают карточные (традиционные) и электронные (машиночитаемые).
Библиотечный каталог это совокупность расположенных по определенным правилам библиографических записей на документы, раскрывающая состав и содержание фонда библиотеки.
Библиографические записи для каталогов составляются по определенным правилам (ГОСТ 7.12003. Библиографическая запись. Библиографическое описание: общие требования и правила составления). Они являются элементом библиографической информации, фиксирующим в документальной форме сведения о документе, позволяющие его идентифицировать, раскрыть его составные части и содержание в целях его поиска. Библиографическая запись включает в себя заголовок, библиографическое описание, классификационные индексы, шифры хранения документа, сведения служебного характера.
Различают алфавитный, систематический, предметный каталоги.
Алфавитный каталог (АК) это библиотечный карточный каталог, в котором библиографические записи располагаются в алфавитном порядке фамилий индивидуальных авторов, наименований коллективных авторов или заглавий документов [8]. С помощью АК можно проводить поиск по следующим типам запросов:
имеется ли в библиотеке конкретное произведение данного автора (индивидуального или коллективного) и, если имеется, то каков его адрес (полочный индекс);
какие произведения данного автора имеются в библиотеке;
какие переиздания данного произведения имеются в фондах;
в каких изданиях то или иное лицо участвовало в качестве соавтора, редактора и т.п.;
какие выпуски входят в ту или иную серию;
запрос на библиографическое уточнение, касающийся тех или иных элементов библиографической записи, например, в каком году вышло данное издание, было ли оно переработано и дополнено, каково место издания и др. По данному каталогу можно осуществлять адресный и уточняющий поиск.
Систематический каталог (СК) это каталог, в котором библиографические записи располагаются по отраслям знания в соответствии с определенной системой классификации. СК состоит из собственно систематического каталога и алфавитно-предметного указателя (АПУ) к нему. АПУ это картотека, в которой карточки расположены в алфавитном порядке. На карточке рядом с понятием ставятся индексы соответствующих отделов систематического каталога. В СК производят поиск по семантическим запросам.
Карточки внутри разделов СК расставляются в алфавитном порядке по фамилиям авторов и названиям [8].
Поиск в систематическом каталоге проводится следующим образом: обозначьте тему поиска словом или коротким словосочетанием и посмотрите, есть ли оно в АПУ СК. Если есть, то по указанному в АПУ индексу найдите соответствующий раздел СК, в котором ищите описание нужной книги. Если нужного слова или словосочетания в АПУ нет или нет описания на книгу в СК, то следует изменить формулировку и повторить поиск по АПУ. Если опять получается отрицательный результат, обозначьте предмет поиска более широким понятием и еще раз повторите поиск в АПУ. Если опять ничего не нашли, обратитесь к дежурному библиографу-консультанту. По систематическому каталогу можно вести тематический поиск.
Предметный каталог - библиотечный каталог, в котором библиографические записи располагаются в алфавитном порядке предметных рубрик. При поиске формулируется его предмет самостоятельно либо при помощи АПУ, в котором указан раздел каталога, содержащий информацию о сформулированном предмете.
Электронный каталог. Базы данных
Электронный каталог (ЭК) это машиночитаемый библиотечный каталог, работающий в реальном времени и предоставленный в пользование читателям.
Электронный каталог обеспечивает одновременный многоаспектный оперативный поиск. Он вобрал в себя функции традиционных каталогов учетную, информационную и поисковую. Электронный каталог дает принципиально новые возможности поиска по сравнению с традиционными библиотечными каталогами. В ЭК материалы можно искать по автору (коллективному или индивидуальному, с инициалами или без них), составителю, редактору, заглавию, месту издания, издательству, году издания, ключевым словам и предметным рубрикам, серии, месту хранения (сигла). Ключевые слова очень удобный вид поиска, т.к. не требует от читателя знания автора, названия документа. Зная точно или даже примерно тему своего запроса, можно набрать ее самостоятельно с клавиатуры или выбрать из имеющегося словаря.
В отличие от библиотечных каталогов картотеки отражают сведения о документах, которых может и не быть в библиотеке, но их можно получить, воспользовавшись услугами межбиблиотечного абонемента. Кроме того, в современных библиотеках создаются электронные базы данных сведений о таких документах (документографические), а также БД полнотекстовых документов. Тематика картотек и структура БД самая разнообразная и соответствует различным информационным потребностям пользователей: адресно-справочные, адресно-фирменные, актуальной тематики, краеведческие, т.е. посвященные какому-либо краю, области, городу и т.п.; персональные, фактографические, полнотекстовые (содержащие полные тексты документов). Главное требование к ведению БД они должны постоянно обновляться.
База данных (БД) это совокупность относящихся к определенной области знания (теме, проблеме) взаимосвязанных данных, представленных в определенном формате на машинном носителе.
Базы данных важная и наиболее перспективная составляющая ресурсов современного общества. Мировой информационный рынок характеризуется десятками тысяч БД в Интернете и на компакт-дисках, обеспечивающих возможность многоаспектного поиска информации.
Фонд справочно-библиографических источников составляют различные энциклопедии, словари, справочники, библиографические пособия. Справочное издание издание, содержащее краткие сведения научного или прикладного характера, расположенные в порядке, удобном для их быстрого отыскания, не предназначенное для сплошного чтения. К справочной литературе относятся различные энциклопедические словари, справочники, статистические сборники, хроники исторических событий, календари знаменательных дат, путеводители [10].
Справочные издания, благодаря своей основной функции собирать и закреплять современные им знания в форме возможно более точных и кратких данных всегда отражали уровень культуры народа. Главная задача справочных изданий дать необходимые или интересные читателю сведения в максимально сжатом изложении. Материалы, включаемые в справочное издание, могут быть самыми разными и по тематике, и по форме: просто текст, цифры и факты, формулы и графики, параметры и характеристики объектов и т.д. Информация, включенная в справочное издание, обязательно подвергается критическому анализу с учетом последних достижений науки и производства. Получая в руки справочное издание, читатель должен быть уверен, что он пользуется данными достоверными и отвечающими требованиям сегодняшнего дня.
Текст справочного издания имеет свои особенности: язык текста лаконичен и прост, изложение данных схематично и сопровождается большим объемом специальных терминов и условных сокращений, характерно свертывание информации при помощи таблиц и формул. Основным структурным элементом справочного издания является справочная статья, которая представляет собой краткий и исчерпывающий ответ на какой-либо вопрос. Справочные статьи собираются в определенном порядке. Структура справочного издания такова, что читатель получает возможность быстро найти нужную ему справку. В энциклопедиях и словарях статьи располагаются по преимуществу в алфавитном порядке, в справочниках, как правило, используется какая-либо логическая система, в основу которой положен тематический, хронологический или иной принцип.
Необходимый компонент любого справочного издания его справочный аппарат, каждый элемент которого оглавление, предисловие, перечень условных сокращений и обозначений, библиографический список по-своему способствует поисковой ориентации читателя.
3. Методика информационного поиска
Центральная задача информационного поиска (ИП) удовлетворить информационную потребность. Информационная потребность формулируются как некоторый запрос, представляющий собой набор ключевых слов, характеризующий то, что ищет пользователь.
Запрос это формализованный способ выражения информационных потребностей пользователем системы.
Информационный запрос в широком смысле текст, выражающий информационную потребность. Информационный запрос в узком смысле входное сообщение в автоматизированную систему, содержащее требование на выдачу информации.
Важнейшей проблемой, связанной с проведением эффективного с точки зрения пользователя ИП, является разработка поисковых стратегий.
Практика выработала универсальный алгоритм поисковой деятельности (совокупность операций, выполняемых в строго установленном порядке дискретными прерывистыми «шагами»):
1. Информационная подготовка поиска. На этом этапе уточняется запрос, дополняются исходные данные о предмете поиска. Вместе с информационным консультантом (чаще всего библиотечным работником) или самостоятельно определяется тип поисковой задачи, используется опыт решения аналогичных задач.
2. Моделирование источников поиска. На этом этапе выявляется идеальный источник информации, который бы полностью отвечал характеру поисковой задачи. Если в библиотеке есть информационный источник, соответствующий виду запроса, поиск можно считать успешно завершенным. Однако чаще всего сложные запросы требуют обращения к многим полезным источникам для сплошного поиска, поскольку один источник не дает релевантной информации. В этом случае исследуются все информационные источники данной информационно-поисковой системы.
3. Выбор оптимального пути поиска. Среди имеющегося множества информационных источников ищем близкие к характеру поисковой задачи. На этом этапе используются каталоги, картотеки, справочные пособия, библиографические указатели, списки новых поступлений, базы данных, справочный аппарат первичных документов.
4. Реализация поиска это этап получения конкретного ответа в соответствии с запросом, просмотр информационных источников, выявление и отбор нужной информации из этих источников.
5. Оценка результатов поиска этап, на котором проверяются точность, качество проведенного информационного поиска. Пользователь должен быть уверен в том, что если информация не найдена, ее нет в данном информационно-поисковом массиве. Определение результатов поиска очень сложный этап, он требует
высокого, подчас профессионального уровня информационной деятельности, знания методики информационного процесса, средств выполнения запроса. На данном этапе более всего нужна помощь посредника специалиста информационной службы. На первом этапе информационной подготовки поиска уточняется запрос, то есть обращение пользователя в информационную службу, отражающее потребность в информации.
Формулировка информационного запроса должна отражать действительные потребности и интересы его автора. В запросе важны ясность образа предмета потребности, представление о конечном результате решаемой информационной задачи
По характеру необходимой информации запросы подразделяются на адресные, тематические, уточняющие, фактографические Исходя из вида информационного запроса осуществляется, соответственно, адресный, тематический, фактографический, уточняющий виды поиска. В свою очередь, вид информационного поиска определяет моделирование источников и оптимальный путь поиска, близкие характеру информационного запроса.
Рассмотрим виды информационного поиска в единстве методов осуществления и источников информации.
Адресный поиск это поиск данных о наличии и/или местонахождении, точном адресе хранения документа. Предположим, вам захотелось прочитать книгу Булгакова «Мастер и Маргарита». Самый необременительный путь поиска прийти в библиотеку и там искать данную книгу. Такой поиск сведений о наличии и местонахождении конкретного документа часто и называется библиотечным. В библиотеке можно вовсе не прикладывать собственных усилий, а сделать запрос библиотечному работнику, который найдет книгу и выдаст ее вам. Но если вы дорожите своей самостоятельностью и сознательно развиваете, повышаете информационную культуру, то сами проделаете эту достаточно простую процедуру. Надо только знать, что в библиотеке имеется специальный справочно-библиографический аппарат (СБА), важнейшей функцией которого является обеспечение информационного поиска.
В СБА входят: библиотечные каталоги, библиографические и фактографические картотеки, библиографические базы данных; справочно-библиографический фонд (СБФ), состоящий из официальных, нормативных, справочных и библиографических изданий; фонд неопубликованных библиографических пособий, созданных самой библиотекой. Все элементы СБА создаются в традиционной и электронной формах.
Какой из этих элементов СБА надо выбрать как источник поиска книги Булгакова? Есть вероятность, что в каждом элементе можно найти нужные сведения. Но главным источником здесь является библиотечный каталог (алфавитный). Поскольку вам известны фамилия автора и заглавие книги, вы находите в алфавитном каталоге карточку с фамилией «Булгаков». Но есть определенная трудность: вы не знаете инициалов писателя. Следовательно, вам надо провести не только адресный, но и уточняющий поиск. Вам поможет знание заглавия книги. По нему среди нескольких карточек с фамилией «Булгаков» и разными инициалами вы легко найдете карточку с описанием нужной книги «Мастер и Маргарита» и с указанием инициалов ее автора.
Шифр книги в левом верхнем углу каталожной карточки является ключом, с помощью которого библиотечный работник найдет роман в книжном фонде библиотеки.
Если вы не нашли в каталоге карточку с описанием романа М. А. Булгакова, это еще не значит, что данного романа в библиотеке нет. Очень возможно, что он вошел в сборник или собрание сочинений писателя.
Тематический поиск (поиск документов по узким и широким темам запроса) требует владения более сложными операциями с большим количеством документов. Источниками тематического поиска являются самые разные, многочисленные информационные ресурсы. Достаточно полно обеспечивают тематический поиск СБА библиотек. При этом успех зависит от ресурсов конкретной библиотеки. Поэтому со сложным тематическим запросом лучше обращаться в крупную библиотеку, имеющую богатые фонды и хорошо организованный СБА (республиканскую, краевую, областную и т. п.). Это особенно важно при узких темах запроса, когда искать литературу намного трудней, чем по широким темам. Так, легче подобрать материал по истории русской литературы XVIII века, чем только о развитии одного жанра поэзии в этот период. А если, например, будущий литературовед пишет научную работу о ссыльных поэтах-декабристах, ему предстоит длительный многоуровневый поиск.
Традиционными источниками тематического поиска являются систематический и предметный каталоги библиотек, картотеки, библиографические пособия.
В систематическом каталоге карточки с библиографическими записями (сообщениями о первичном документе в особой документной форме) систематизированы по отраслям знания в соответствии с определенной системой библиотечно-библиографической классификации (ББК).
Предметный каталог доступнее и проще, его удобно использовать в дополнение к систематическому при запросах на узкие темы. Записи в предметном каталоге располагаются в алфавитном порядке предметных рубрик.
Прямыми источниками тематического информационного поиска являются библиографические пособия.
Важнейшее достоинство библиографического источника возможность быстрого нахождения нужного документа благодаря наличию «ключей» вспомогательных указателей в пособии. Вспомогательные указатели бывают самые разные имен, авторов, заглавий, тематические, предметные, географические и т. п. С их помощью легко и быстро можно узнать, какие книги и статьи посвящены определенной теме, предмету, кто автор книги, кто переводчик, произведения каких авторов вошли в издание и т. д.
Фактографический поиск это поиск какого-либо конкретного факта, данных, относящихся к какому-либо предмету, процессу, событию; поиск терминов, законов, дат, адресов, правил правописания и т. д., и т. п. Конечным результатом фактографического поиска является не документ, не список документов, а ответ по существу. В каком году произошла битва при Ватерлоо? Когда родился Эйнштейн? Что такое «спам»?
Как и при тематическом, и при адресном поиске, источниками фактографического поиска могут стать различные составляющие информационных ресурсов. Но особое значение здесь имеют справочные документы, специально собирающие наиболее важные и часто запрашиваемые сведения с целью их быстрого разыскания. Важнейшие виды справочных документов: энциклопедии, энциклопедические словари, справочники, путеводители, словари, хроники и календари, летописи жизни и творчества. Электронные фактографические ресурсы (фактографические базы данных) аккумулируют (собирают) в себе разные типы справочных документов, стремятся к целостному представлению информацию
Уточняющий поиск это восполнение или уточнение неполной или искаженной информации в документах. В информационных запросах содержатся типичные ошибки, связанные с искажением фамилии и инициалов индивидуального автора документа; сокращения и неточности в заглавии книг, периодических изданий; представление редактора, переводчика, издателя как автора; представление названия раздела, главы как названия всей книги и т. п.
Уточняющий поиск один из важных видов информационного поиска. В его процессе часто ставятся специфические поисковые задачи, решить которые может только специалист информационный работник. Уточнение неопределенных запросов является и чрезвычайно сложной психологической, а не только информационной процедурой, которая тесно связана с проблемой формирования информационной культуры личности.
В практике информационной деятельности все виды поиска взаимосвязаны. Одна поисковая задача может переходить в другую, любой информационный источник может использоваться для любого вида поиска. И, как правило, очень редко сложный информационный поиск можно провести по какому-либо одному из источников, одному из элементов ресурсов. Развитие сетевых коммуникаций может изменить соотношение источников поиска. Однако меняется форма, но не сущность процесса разыскания. Следует искать наиболее простой и эффективный способ решения каждой поисковой задачи, исходя из доступных средств и экономии времени. Традиционный, ручной и автоматизированный поиск, использование сети Интернет все это составляющие единого процесса информационного поиска.
Т. о. при осуществлении ИП важно определить для себя технологию и алгоритм выполнения запросов: вести поиск традиционным путем, воспользоваться локальными БД или Интернет, и определить, каким образом это лучше осуществить (продумать методику). Умение вести эффективный информационный поиск является показателем высокого уровня информационной культуры личности. В целом культура информационного поиска дает пользователю следующие преимущества:
зная структуру информационного источника и структуру поискового образа документа, можно самостоятельно ориентироваться в источниках и отражаемых источниками описаниях документов, лично, без помощи консультанта вести информационный поиск;
зная поисковые возможности элементов информационных ресурсов, умея в них ориентироваться, можно самому владеть стратегией каждого вида поиска;
зная видовую классификацию информационного поиска, можно выбрать оптимальные информационные источники для его конкретной разновидности;
зная структуру информационно-поисковой системы и владея универсальным алгоритмом поисковой деятельности, можно вычислить точность, полноту, оперативность поиска и самому судить о соответствии полученной информации информационному запросу.
Информационный поиск в Интернете
Интернет открыл доступ ко многим информационным ресурсам, получить которые другим способом в настоящее время невозможно (или слишком дорого). Объединяя локальные, национальные и глобальные сети, он стал громадным информационным ресурсом, наиболее динамичным из всех существующих в настоящее время.
Весьма важной чертой Интернета является то, что пользователь информации сам производит поиск, ведет диалог с поисковой системой, меняя тактику поиска в зависимости от полученных результатов. В связи с этим можно выделить два положительных момента:
- формируются основы научного мышления, навыки исследовательской работы: пользователь учится ориентироваться в сетевом пространстве, отбирать из большого количества документов то, что действительно необходимо и, наконец, варьировать свой запрос в зависимости от анализа уже выявленных документов;
- выявляется информация, которая не только соответствует запросу, но и может оказаться полезной в будущем.
Тем не менее, пользователи Интернета часто не получают удовлетворения от результатов поиска в новой информационной среде. Обычно это происходит по следующим причинам:
- как правило, пользователи в качестве инструмента поиска используют либо поисковые машины (AltaVista, HotBot), либо каталоги ресурсов (Yahoo). Несмотря на ряд достоинств, вышеупомянутые поисковые системы не обеспечивают научный контроль качества (т.е. процесс включения информации в БД этих поисковых систем не находится под контролем специалистов, отвечающих за точность, качество информации по этой тематике), что может привести к получению в результате поиска недостоверной информации;
- отсутствие знаний и навыков по составлению запроса к поисковой системе приводит к получению большого количества информационного шума. Информационный шум сведения, которые не несут полезную информацию.
Таким образом, можно утверждать, что в Интернете есть больше возможностей, нежели используется в настоящий момент. И, следовательно, проблема заключается не в недостаточности информации в Интернете, а в неумении пользователя ее найти [4]. Поэтому необходима правильная методика поиска в Интернете и знание возможностей поисковых машин, каталогов и баз знаний. Рассмотрим их по отдельности.
Методика поиска в Интернете. Поиск информации в новой информационной среде мы рассматриваем больше как процесс решения поисковой задачи, стоящей перед пользователем, нежели как просто нахождение релевантной запросу информации. Релевантная информация информация, актуальная для конкретной задачи, цели и периода времени.
Методика поиска в Интернете разбивает процесс поиска на 3 этапа [6].
Основными этапами являются:
- Формулировка и уточнение информационного запроса.
- Планирование поискового процесса.
- Реализация поиска. Окончательное решение поисковой задачи.
Этап 1. Формулировка и уточнение информационного запроса
Этап формулировки и уточнения запроса традиционно играет ведущую роль. От того, насколько верно сформулирован запрос, будет зависеть выбор информационных ресурсов и результат поиска. На данном этапе целесообразно сделать следующие шаги:
ШАГ 1. Формирование представления об искомой информации.
Для того чтобы получить это представление, обладателю информационной потребности необходимо как можно более точно выразить ее на естественном языке.
ШАГ 2. Определение типа информационной потребности.
Даже достаточно грубое представление о типе информационной потребности позволяет уточнить обуславливаемые ею требования, которые следует учитывать при поиске. Традиционно различают два типа информационных потребностей:
- границы информационной потребности четко определены. Например: «Какие учебные курсы делового английского были опубликованы в России в 2001 г.?», «Автомобили каких марок выпускались в России в 1966 г.?». В данном случае наилучшей информацией признается та, которая наиболее полно и точно описывает конкретную информационную потребность данного потребителя и позволяет получить точный ответ;
- границы определены нечетко, а также с течением времени могут изменяться. Например: «Методики преподавания делового английского», «Изучение информационных потребностей». В данной ситуации потребитель будет ощущать комфорт при возможности самому разбираться в информации.
Еще раз напомним, что процессы информационного поиска, с помощью которых удовлетворяются информационные потребности разных типов, в целом отличаются друг от друга, поэтому существуют разные виды информационного поиска. Об информационном поиске, удовлетворяющем информационные потребности первого типа, говорят как о фактографическом. Об информационном поиске, удовлетворяющем потребности второго типа, как о документальном. Однако часто, чтобы найти некоторые факты в Интернете, необходимо сначала провести поиск документов (веб-страниц), содержащих эти факты. В этом случае можно говорить о документально-фактографическом поиске.
Использование поисковых машин, каталогов и баз знаний.
Каталоги сайтов (справочники)
Каталог сайтов или справочник (Web-directory, синонимы: Директория, Каталог, Рубрикатор) - систематизированный перечень Интернет-ресурсов, имеющий иерархическую структуру и, фактически, представляющий собой систематический каталог Интернет-ресурсов. Это список адресов сайтов, сгруппированных по темам и снабжённых краткими описаниями. Объектом описания являются в большинстве случаев целые сайты или их большие разделы. Описания ресурсов включают название сайта, его адрес (URL) и аннотацию. Работа по классификации и аннотированию ресурсов производится вручную редакторами разделов. Каталоги делятся на универсальные и специализированные (отраслевые), а также на глобальные и национальные (региональные). С помощью справочников выполняется поиск ресурсов (сайтов), определенной тематики путем перехода от более общих его разделов, к более частным. Пример глобального справочника универсального характера: Yahoo!.
Как устроены каталоги. Информация о сайтах сгруппирована в каталогах по разделам. Каждый раздел имеет несколько подразделов. Кроме основных разделов многие каталоги имеют дополнительные, в которых сайты классифицированы по регионам, странам, сектору экономики. Внутри разделов сайты отсортированы по алфавиту. Встречается сортировка по посещаемости, дате создания, рейтингу, экспертной оценке. К названиям сайта прилагаются краткие описания, написанные редакторами.
К наиболее значительным справочникам всемирного масштаба относятся Yahoo! (www.yahoo.com), Open Directory (dmoz.org), About (www.about.com). Среди российских разработок в этой области значатся Апорт (www.aport.ru). Среди белорусских -- http://www.akavita.by/, http://www.all.by/, http://www.br.by/, http://catalog.tut.by/, http://www.poisk.com/ каталог + поиск по белорусскому интернету и др.
Главной отличительной особенностью справочников является то, что все они сделаны вручную. Редакционные коллегии каждого из справочников, которые по характеру труда более всего напоминают отделы каталогизации и систематизации крупных библиотек, регулярно просматривают содержимое вновь появившихся серверов и следят за изменениями на уже существующих. Выявленные данные анализируются и заносятся в разделы справочника в соответствии с принятой классификацией. Описание сервера в целом или его раздела, если он представляется вполне самостоятельным блоком, снабжаются краткой аннотацией, содержащей самые общие сведения о характере имеющейся информации. В некоторых случаях добавляются сведения о языке документов, посещаемости ресурса, его физическом месторасположении и т.п. Естественно, что подобным образом можно описать лишь часть ресурсов Сети, да и то только весьма крупные объекты, такие, как, например, сервера организаций и учреждений. По причине огромной трудоемкости такой работы, справочники отражают лишь незначительную часть ресурсов Сети, в первую очередь наиболее заметные сайты.
Основными параметрами, характеризующими достоинства справочников являются: объем; оперативность отражения новых или изменившихся ресурсов; логичность и последовательность иерархической схемы классификации; перекрестность структуры.
Объемом справочника определяется степень его надежности или "информационная прочность". От этого зависит уровень доверия, который пользователи питают к конкретному каталогу. Так как материалы в Интернет появляются, изменяются, а порой и бесследно исчезают ежедневно, важно то, насколько оперативно появляются ссылки на новые сайты и исправляются или удаляются ссылки на устаревшие ресурсы. В некоторых системах существует специальный механизм, периодически проверяющий доступность сайта и исключающий его из перечня при долгом "отсутствии" в Сети. Логичностью (научностью) применяемой схемы классификации определяется степень простоты, с которой пользователи могут находить требуемые сведения. Система же перекрестных ссылок позволяет выявлять информацию, используя разные подходы (например, территориальный или отраслевой). В этом случае схема классификации должна автоматически выводить пользователя на искомый объект, какой бы путь поиска не был выбран.
Возможности составления запроса для этого вида поисковых средств особой роли не играют, так как сложные разыскания, требующие большой детализации запроса, с помощью каталогов не проводятся.
Справочники предназначены для решения трех типов задач:
- ориентация в незнакомой отрасли знания;
- разыскание крупных объектов, каковыми являются, к примеру, серверы целых организаций или значительных проектов;
- получение готового перечня ресурсов, имеющих размытый поисковый образ, например, клиник пластической хирургии, библиотек определенного типа, транспортных расписаний или сайтов различных политических партий.
Следует помнить, что, обращаясь к справочникам, мы изначально можем рассчитывать на получение лишь очень общих сведений по тематике, и никогда - детальных данных.
Yahoo! (http://www.yahoo.com)
Yahoo! является одним из самых первых, надежных и авторитетных справочников Всемирной паутины. У каталога два основных достоинства: - внушительный объем (на сегодня отражено порядка 2 миллионов сайтов в более чем 25 тысячах категорий) и научность и логичность используемой схемы классификации. За счет этого в справочнике объективно отражаются все отрасли знания без каких либо приоритетов. Эти достоинства на протяжении всей второй половины 1990 годов позволяли Yahoo! оставаться незаменимым инструментом для первоначального ознакомления с информационным наполнением в Интернет по любой области деятельности.
Интерфейс справочника Yahoo. Сегодня его нелегко разглядеть среди множества других сервисов, предоставляемых компанией.
Основной ряд Yahoo! включает 14 категорий, в числе которых: БИЗНЕС И ЭКОНОМИКА, КОМПЬЮТЕРЫ И ИНТЕРНЕТ, НОВОСТИ И СМИ, РАЗВЛЕЧЕНИЯ, ИСКУССТВО И ГУМАНИТАРНЫЕ НАУКИ, ОБРАЗОВАНИЕ, ПОЛИТИКА, ЗДРАВООХРАНЕНИЕ, ЕСТЕСТВЕННЫЕ НАУКИ, ОБЩЕСТВЕННЫЕ НАУКИ и т.д. Использование Yahoo!, как и любых других справочников, наиболее эффективно для ознакомления с наполнением Интернет по различным областям деятельности, при размытости критериев поиска - когда неизвестно по каким ключевым словам осуществлять поиск. Разыскание осуществляется путем последовательного просмотра категорий: шаг за шагом, разворачивая пункты меню, построенные в иерархическом порядке, можно знакомиться с полным перечнем ресурсов, постепенно сужая и конкретизируя тему. Так, от самого общего раздела СПРАВОЧНЫЕ РЕСУРСЫ (REFERENCES) можно дойти до web-сервера конкретной библиотеки, миновав по пути разделы БИБЛИОТЕКИ, БИБЛИОТЕКИ ОПРЕДЕЛЕННОЙ СТРАНЫ, БИБЛИОТЕКИ ОПРЕДЕЛЕННОГО ТИПА. На каждой ступени иерархии после названий разделов в скобках указывается число отраженных в них ресурсов. При большом количестве объектов в одном разделе пользователям предлагается выбрать первую букву названия сайта (например, названия университета или фамилии популярного исполнителя).
Учитывая гигантскую популярность и, следовательно, посещаемость Yahoo!, в последние несколько лет его владельцы уделяют все большее внимание побочным сервисам, среди которых электронные магазины, аукционы, службы новостей, агентства путешествий и т.п. Собственно справочник занимает все более и более скромное место в интерфейсе титульной страницы сервера. Кроме того, с марта 2004 года за включение сайта в справочник взимается не только разовая, но и ежегодная абонентская плата - 300 долларов. Это не только затрудняет включение в Yahoo! новых сайтов мелкого бизнеса, но и приводит к исключению из каталога сайтов, не уплативших ежегодный взнос. Естественным следствием этого является то, что содержание справочника постепенно все менее соответствует реальному наполнению Интернет. Эксплуатация известной торговой марки без поддержания высокого качественного уровня основного продукта уже обернулась снижением авторитета Yahoo! как ведущего справочника, и если в ближайшее время в этой области не будут предприняты кардинальные шаги, его популярность будет снижаться, несмотря на громкое имя.
Поисковые машины
Поисковая машина - (Search engine, синонимы: поисковая система, поисковый сервер, “искалка”) - инструмент для поиска информации в Интернет. Поисковые машины состоят из двух основных частей: программы-робота и индексного файла (базы данных). Робот сканирует сайты Интернет, выгружая web-страницы на базовый компьютер, где производится их индексирование. Учитываются не только тексты, но и иллюстрации, а также аудио- и видеофайлы. Пользователь, вводя состоящий из ключевых слов запрос, обращается к индексному файлу и получает в ответ перечень страниц, содержащих искомые термины. По территориальному охвату поисковые машины различаются на глобальные и локальные (национальные или отраслевые).
К основным параметрам поисковых систем относятся:
- объем индексных файлов (число проиндексированных серверов и отдельных документов); Первая величина, являющаяся ключевой, устанавливает широту охвата материала и определяется числом проиндексированных документов. Сейчас эта цифра для лидеров мирового сетевого поиска составляет более триллиона документов.
- степень оперативности обновления базы данных за счет включения сведений о новых материалах и удаления устаревших; Учитывая тот факт, что в среднем интернетовский адрес сохраняет актуальность до полугода, после чего документ или меняет местоположение или убирается с сервера, большое значение имеет уровень оперативности обновления данных, характеризующий степень соответствия индексного файла поисковой системы реальному местоположению документов на сайтах. В настоящее время этот параметр колеблется от двух недель до полутора месяцев.
- возможности для составления запроса; Возможности поискового механизма выражать запрос максимально точно в значительной степени предопределяют долю релевантных документов в перечне полученных результатов. Каждая машина имеет свою собственную лексику, которая по-разному позволяет детализировать поисковое предписание.
- интеллектуальность системы ранжирования результатов поиска; Все поисковые машины обладают модулем ранжирования результатов поиска. Создание таких модулей - целая область программирования, в которой конкурируют сложнейшие алгоритмы, созданные разными компаниями. Перечень факторов, принимаемых во внимание при определении места документа в перечне ссылок, необычайно широк: от местоположения слова на странице до рейтинга (авторитета) страниц, имеющих ссылки на найденный документ
- наличие дополнительных сервисных функций, облегчающих работу пользователя. Не последнюю роль играет и простота интерфейса, наличие дополнительных сервисных функций, как, например, возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов "по образцу" и т.д.
По этим параметрам среди внушительного числа поисковых систем выделяются несколько наиболее признанных, позволяющих выявлять информацию с высокой степенью полноты и надежности. К наиболее авторитетным поисковым системам всемирного масштаба в настоящее время относится Google (www.google.com). Российские системы этого класса ныне представлены Яндекс (www.yandex.ru), Rambler (www.rambler.ru).
Практически все всемирно известные справочники и поисковые системы в настоящее время превратились во внушительные информационные корпорации с многомиллионными доходами. Заработав авторитет наиболее посещаемых мест в Сети, они предоставляют свои страницы для размещения рекламной информации, доходы от которой и составляют основу их бюджета. Постепенно поисковые сервера превращаются в многофункциональные порталы, в которых поисковый сервис остается главной приманкой для пользователей, но далеко не единственной и даже не основной из предоставляемых услуг. Помимо разыскания информации, такие сервера обычно предоставляют пользователям бесплатную электронную почту, возможность бесплатно размещать собственные страницы, сведения о погоде, текущих новостях, биржевые котировки, карты местности и т.д.
Профессиональная работа с поисковиками требует специальных навыков, поскольку простой ввод искомого термина в поисковую строку, скорее всего, приведет к получению списка из сотен тысяч документов, содержащих данное понятие, что практически равносильно нулевому результату.
Google (www.google.com)
Поисковая система, запущенная в 1998 году и являющаяся ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам. Главное достоинство Google - объем его индексного файла, который составляет на сегодня более триллиона web-страниц и статей из групп новостей по интересам. В сутки программы-роботы системы индексируют порядка трех миллионов новых и обновленных страниц, при том, что актуализация базы производится каждые 28 дней.
Второе несомненное преимущество Google - его способность индексировать документы не только в виде HTML-файлов, но также документы в форматах PDF, RTF, PS, DOC, XLS, PPT, WP5 и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML-файл, что освобождает пользователя от необходимости иметь специальное программное обеспечение для доступа к файлу.
Следующим важнейшим достоинством является специально разработанный модуль ранжирования результатов - PageRank. Он основан на алгоритме, согласно которому вначале устанавливается структура ссылок во всей Сети, а затем каждая отдельная страница ранжируется в соответствии с числом и значимостью ссылок на нее с других страниц. При этом авторитетность внешних ссылок более важна, чем их количество. Подобный алгоритм позволяет существенно повысить релевантность ссылок, вследствие чего Google отличает высокая степень соответствия найденной информации интересам пользователя. Этот результат достигается, в частности, еще и за счет специальной подсистемы защиты пользователя от сайтов, которые продвигаются с помощью различных недобросовестных методов.
Google отличается высокой степенью комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу www.google.com.ru. Длительность процесса в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.
Интерфейс первой страницы Google - на сегодня в Сети у него нет достойных конкурентов.
Методика поиска с помощью Google предельно проста. В поисковую строку водится запрос на естественном языке - неважно на русском, английском или любом другом. Язык запросов не допускает усечения терминов знаком "*", поэтому все возможные варианты слов (library, libraries, librarians) пользователю следует вводить самостоятельно. Все термины запроса по умолчанию объединяются условием AND (И) - перед ними нет нужды ставить знак "+". Таким образом, в список результатов попадают лишь страницы, содержащие все введенные ключевые слова. Для поиска по точной фразе традиционно используются кавычки: так, запрос "Кто убил кошку у мадам Поласухер?" прямо приведет к ссылке на полный текст "Собачьего сердца" Михаила Булгакова. Поисковый механизм игнорирует стоп-слова (предлоги, союзы, артикли), однако, если какое-либо из таких слов существенно, перед ним необходимо поставить "+", давая понять системе, что в данном случае термин даже из одной буквы является значимым (например, Александр +I).
Google имеет в своем арсенале множество опций для максимальной конкретизации запроса. Все они доступны через меню Advanced Search "Расширенный поиск". Помимо уже описанных возможностей, добавляются фильтры, ограничивающие язык документа, его формат (к примеру, "только документы в PDF"), время опубликования ("последние три месяца"), место термина в самом документе ("в заголовке страницы") или расположение страницы в определенном домене или даже сайте.
Помимо поиска текстовых материалов, Google обладает лучшими на сегодня возможностями поиска иллюстраций с помощью режима "Поиск изображений" (Images, "Картинки").
Кстати, совсем недавно Google сообщил о специальной индексации сайтов крупнейших учебных заведений, что должно несколько улучшить поиск различной информации академического характера. Новый вид поиска под названием Google Scholar (http://scholar.google.com) облегчит жизнь учащимся и научным работникам, так как он специально предназначен для поиска специализированной научной литературы, включая рефераты диссертаций, статьи, книги, различные научные публикации и ссылки на них. При этом в базу данных научного поисковика от Google войдут как документы, находящиеся в открытом доступе, так и материалы, доступные исключительно по подписке (статьи, которые только цитируются в проиндексированных материалах, выводятся в результатах с пометкой citation), причем последние включаются в базу данных по согласованию с издателями, полные версии статей будут доступны только подписчикам, а все остальные пользователи смогут ознакомиться только с рефератами таких материалов.
Академия гугл позволяет вести поиск научных, надёжных и проверенных источников информации.
Яндекс (http://www.yandex.ru или www.ya.ru)
Запущен в сентябре 1997 года. В настоящее время - признанный лидер российского поискового сервиса. Демонстрирует высокие показатели, как по объему проиндексированных документов, так и по релевантности поиска. Актуализация базы осуществляется еженедельно. Кроме того, Яндекс - поисковая система, индексирующая документы в форматах PDF, RTF и DOC.
Первая страница Яндекс. Находится если не все, то многое.
Интерфейс максимально прост - состоит из единственной строки ввода. За счет встроенной системы морфологической обработки терминов Яндекс приспособлен для формирования запросов на естественном русском языке. Мощнейшая лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить поисковое предписание в высшей степени широко, охватив все возможные сочетания терминов. В процессе обработки запроса поисковый механизм самостоятельно производит расширения, исключает стоп-слова, анализирует расстояние терминов друг от друга и пр. Типичный запрос в этом случае задается путем ввода отдельных терминов или целой фразы в поисковую строку.
Для формирования более точного запроса целесообразно обратиться к "Расширенному поиску" (пункт в нижней части титульной страницы). С помощью структурированного меню можно легко задать ограничения по различным сочетаниям ключевых слов, местоположению термина в документе, времени и языку публикации, месте на сайте.
Безусловным достоинством Яндекс является модуль ранжирования результатов поиска. В его основе лежит алгоритм анализа местоположения и повторяемости термина в документе и анализ внешних ссылок на страницу. Система производит группировку найденных страниц по сайтам на этапе формирования списка результатов и выдает по одному документу с сервера, который, по ее мнению, наиболее соответствует запросу. При этом в ссылке указывается общее число документов с данного сервера, также содержащих искомый термин. Яндекс показывает найденные термины в окружающем словарном контексте, что позволяет сразу же установить степень соответствия найденного документа информационной потребности пользователя.
Rambler (http://www.rambler.ru)
Запущен в октябре 1996 года и изначально предназначался для выявления материалов на серверах в пределах бывшего СССР. К началу нового тысячелетия Rambler на время утратил лидирующие позиции, устарев практически по всем показателям. Однако проведенная в декабре 2002 коренная модернизации всей программно-аппаратной части позволила поисковой системе вновь обрести былой авторитет. По результатам тестов, Rambler занимает второе место после Яндекса по величине базы данных.
Система обладает обычной и расширенной ("Расширенный поиск") формами ввода запроса. При серьезных разысканиях лучше обратиться к последней, которая предоставляет дополнительные возможности в ограничении запроса различными параметрами, задании критерия сортировки результатов и степени развернутости выводимых результатов. По умолчанию результаты поиска группируются по сайтам, что весьма логично, поскольку на одном сайте термин используется, как правило, в едином контексте. Всегда четко указывается дата создания документа и дата его последнего индексирования поисковым роботом.
Апорт (http://www.aport.ru)
Поисковая система, запущенная в феврале 1996 года, ныне прекратила своё существование является каталогом товаров и услуг. Хотя в своё время он был снабжен массой различных возможностей, заставляющих отнести его к числу самых удобных для пользователя. Именно в нем одним из первых в российской практике был применен сложный язык запросов (http://aport.ru/help.htm), позволяющий максимально детализировать поисковое предписание и избавить пользователя от информационного шума, возникающего при случайном сочетании ключевых слов. Апорт на достаточно высоком уровне осуществлял поиск MP3-файлов.
Список результатов содержал сведения об адресе, дате опубликования и последней проверке документа. Документы с одного сайта сгруппированы вместе. Помимо поисковой системы, Апорт имел одноименный справочник ресурсов, являвшийся наиболее объемным каталогом в России.
Бинг является русскоязычным вариантом текстовой версии поисковика, запущенного корпорацией Майкрософт в 2009 году. Он в настоящий момент не опережает Гугл. Однако объем индексного файла сопоставим с аналогами в Гугл, но по всем остальным параметрам, по определению релевантности поисковых запросов, Бинг пока ещё уступает своему сильному конкуренту. Система обладает стандартными возможностями поисковика, возможность поиска по картинкам и видеозаписям.
GoGo.ru является российским поисковиком, разработкой компании Mail.Ru, запущенный в июне 2007 года. Компания приобрела домен gogo.ru ещё в 2000 году. Спустя 6 лет началась разработка, которую возглавил Михаил Костин, создатель поисковика Апорт. Сумма инвестиций составила 700 тысяч долларов.
Результаты выдачи отличаются от встроенной системы на основе поисковика Яндекс. По данным специализированных статистических компаний, качество её поисковой выдачи находится на хорошем уровне.
Отличительными особенностями являются поиск на русском языке по видеозаписям, а также на основе данных проекта ответы. Мэйл.ру. разработчиками предусмотрена возможность фильтрации результатов поиска по теме. Есть возможность ограничить выдачу по коммерческим, информационным, а также пользовательским источникам.
В 1996 году в калифорнийском городе под названием Беркли была разработана новая поисковая система поисковик Ask.com.
Одна из особенностей поисковика Ask.com. состоит в том, что она вопросно-ответная. В ее основе лежит обычный разговорный язык, использующийся каждым из нас в повседневной жизни. Почему разработчики отдали предпочтение такому специфическому подходу. Прежде всего, потому, что количество пользователей глобальной паутины ежедневно возрастет. К тому же, многие новички не обладают нужными навыками использования глобальной паутины, а также временем, необходимым для изучения всех тонкостей составления верных поисковых запросов.
Благодаря, как уже было отмечено выше, «вопросно-ответной» концепции, пользователи этой поисковой системы избавлены от необходимости составлять запросы с нужными ключевыми словами. Кроме того, им не требуется использовать и логические операторы поиска и множество прочих поисковых функций, требующих специальных умений и знаний.
В поисковик Ask.com входят следующие возможности AskCity (результаты поиска для выбранного города, региона и т.д.), функция перевода страниц на английский язык, автоподбор синонимов ключевых слов, получение информации о времени размещения веб-сайта. Последняя функция позволяет узнать пользователям время появления выбранного портала в глобальной паутине. Благодаря всему этому данная ПС получила своих приверженцев во всемирной паутине.
Стратегия и методика профессионального информационного поиска
Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации - справочники или поисковые машины - не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как Google, отражают не более трети совокупного содержания Сети. Причина этого - постоянный колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, содержит огромное число белых пятен.
Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.
В тоже время многие крупные сайты имеют собственную систему поиска, которая отражает весь их информационный массив. Выявив такие сервера с помощью справочников, можно провести более детальное их обследование, использовав локальный поисковый механизм. Например, при поиске сведений о конкретном виде креветки, искусственно разводимой человеком, весьма рациональным будет найти и просмотреть сервера, посвященные в целом аквакультуре, отрасли, занимающейся выращиванием морепродуктов в искусственных теплых водоемах, а при выявлении данных о конкретном заболевании - сервера учреждений, ведущих исследования данной области. Таким образом, для достижения наиболее полных результатов следует применять справочники и поисковые системы в сочетании друг с другом.
Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.
Для поиска материалов по крайне узкой специфической тематике стоит начинать с мета-машин, дабы сразу получить представление о том, насколько богато данная проблематика представлена в Интернет.
Для получения более полных результатов по сложному запросу (например, там, где есть ограничения не только по содержанию документа, но и по дате обновления или местоположению документов) поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.
При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам. Так, например, при поиске материалов на испанском языке стоит обращаться не к глобальным, а к испанским поисковым системам, например, Trovator (http://www.trovator.com).
Формировать запрос надо максимально точно, используя все возможности механизма составления запроса. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска. При точном формировании запроса процент информационного шума будет намного ниже.
При составлении запроса на текстовый материал всегда стоит мысленно представить, каким может быть предполагаемое содержание документа. При поиске источников об А.С.Пушкине недостаточно просто ввести его фамилию (список результатов будет изобиловать адресами всевозможных учреждений, расположенных на улицах Пушкина в разных городах). Гораздо больший эффект принесет поиск по фамилии в сочетании с названиями произведений поэта. Для разысканий же полных текстов произведений, наоборот, стоит вводить в поисковую строки из произведения, которые однако не являются расхожими фразами (например, для поиска полного текста поэмы "Евгений Онегин" не стоит использовать "Мой дядя самых честных правил", гораздо лучший результат принесет "Когда на бледном небосклоне звезд исчезает хоровод " или другая характерная, но не столь распространенная точная фраза).
При систематическом обращении к поисковым средствам, необходимо постоянно следить за новостями, относящимися к поисковому сервису. В окружающем нас мире вообще, а в цифровом мире тем более, нет ничего вечного. Каждая поисковая система переживает периоды зарождения, расцвета и упадка. Не бойтесь отказаться от использования любимой, но устаревающей поисковой системы и перейти на использование новых поисковых инструментов, обладающих большей эффективностью.
Принципы поиска в Интернете:
Точность и простота запроса
Не пытайтесь полностью описать поисковой системе тему вашего реферата или диплома. Пытайтесь быть лаконичными и точными. Попытайтесь побольше узнать об искомом тексте, обдумать поисковый запрос, при необходимости, подобрать синонимы к ключевым словам!
Важнейшим фактором и залогом нашего успеха является правильность поискового запроса. К примеру, если вы хотите найти информацию о чемпионате по футболу Евро 2012 в Украине, вам следует вводить в строке поиска Евро 2012 Украина, а не просто футбол Украине. Помните, машина ищет именно слова и словосочетания, она не знает, что вы имели ввиду, запросив какую-либо информацию, она не будет думать за вас! Также полезно знать, что любой современный поисковик сортирует найденную информацию по релевантности (степени совпадения вашего запроса с информацией на сайте), т. е. самый подходящий вам сайт будет находиться на первом месте и т. д.
Также, обратите внимание, что при поиске был опусщен предлог «в». А все это от того, что поисковая система не индексирует и не ищет по предлогам и таким частым словам, как «где», «когда», «кто»; также она опускает знаки пунктуации (исключения составляют лишь очень распространенные комбинации, как $10 или С++).
Поиск цитаты или точного названия
Как быть с поиском цитат или точных названий фирм, музыкальных групп и пр., если поисковик не берет во внимание сильно распространенные слова? Очень просто. Стоит лишь заключить в кавычки весь запрос, и система тотчас же воспримет его как единое целое, не смея менять слова местами либо опускать какие-либо слова или символы. К примеру, если вы ищете текст песни «Белые розы», просто наберите фразу «что с вами сделали лед и морозы». Также вы можете заставить поисковую машину искать любое слово или символ, поставив пред ним «+». Результатом запроса «Обитель зла +3», будет именно ссылки на сайты о третьей части этого фильма.
Поиск по сайту или домену
Предположим, вы читали интереснейшую статью на каком-либо сайте, однако забыли сохранить ссылку в Избранном и теперь не можете ее найти. И с этой задачей способен справиться наш поисковик. К примеру, Гуглу стоит лишь указать, на каком сайте искать, например: Как купить компьютер site:mirsovetov.ru. Данный запрос направит поисковую систему на указанный сайт, и найдет там нужную информацию. В Яндексе такой запрос выполняется немного сложнее: Как собрать компьютер << url="mirsovetov.ru*". Также эта функция позволяет искать информацию в определенном домене, например, для поиска с помощью Гугла информации, расположенной на сайтах с адресом *.ru, можно ввести: Как купить компьютер site:ru что может быть полезно для поиска данных определенного региона.
Исключение из поиска
Поисковую машину можно не только «заставлять» искать нужный текст в Интернете, но и исключать некоторые слова из запроса. Если вы не хотите, что бы при поиске реферата на тему «История Древнего Египта» вам были предложены документы с его Культурой, просто введите в поисковое поле Google: история древнего египта -культура. В Яндексе вместо знака «-» используется сочетание знаков «~~». При таком запросе, слово «культура» было полностью исключено из критериев поиска.
Поиск с учетом регистра
Поисковые системы не учитывают регистр, все заглавные символы воспринимаются машинами как строчные, за исключением использования специального операнда. Таковым является знак восклицания «!», стоящий перед словом. Эта функция очень полезна, чтобы искать села или города с распространенными названиями, к примеру «село !Кошки». В данном случае, поисковик не будет искать сайты, где речь ведется о селе, где живут кошки, а будет вести поиск с учетом заглавной буквы.
Для более структурированного запроса обратитесь в раздел «Расширенный поиск», которым обладают все современные поисковики.
Справочные и библиографические ресурсы интернет
Справочные ресурсы интернет
К справочным ресурсам Интернет относятся электронные энциклопедии, справочники и словари, расположенные на web-серверах в различных частях света. Во Всемирной паутине широко представлены как электронные версии авторитетнейших печатных изданий, так и источники, существующие исключительно в Сети.
Среди всего богатства и разнообразия информационного наполнения Интернет справочные ресурсы, и в первую очередь энциклопедии, выделяются за счет своего главного достоинства, которое заключается в авторитетности размещенных в них сведений. Они более других источников подходят для получения точных фактических сведений об отдельных лицах, событиях, организациях и странах, а также для определения терминологических понятий. По этой причине цифровые справочные издания зачастую являются отправной точкой при изучении неизвестного предмета, а обращение к ним является одним из признаков профессионализма в поисковой деятельности. В большинстве случаев из справочников и энциклопедий можно почерпнуть точные данные по конкретной предметной области, отталкиваясь от которых следует расширять разыскания, используя поисковые системы и справочники ресурсов Интернет.
Доступ к значительной части имеющих признание справочных изданий полностью или частично платный. Это относится, прежде всего, к постоянно актуализируемым зарубежным энциклопедическим изданиям, а также к наиболее популярным отечественным энциклопедиям. Однако, при возникновении необходимости обратиться к платному ресурсу, в большинстве случаев можно воспользоваться бесплатным пробным доступом, который позволяет работать с материалом в течение ограниченного промежутка времени.
Рубрикон (http://www.rubricon.com)
Крупнейший энциклопедический портал не только России, но и мира. В настоящее время представлено более пятидесяти наиболее известных отечественных энциклопедий, словарей и справочников. Среди них полное издание Большой Советской Энциклопедии (1969-1979), выборочные статьи из Энциклопедического Словаря Брокгауза и Эфрона (1890-1906), Иллюстрированный энциклопедический словарь, Малая медицинская энциклопедия, Энциклопедические словари "История Отечества" и "Всемирная история", "Толковый Словарь живого великорусского языка" Владимира Даля и другие. Все источники представлены в полнотекстовом виде с полным перечнем иллюстраций и пристатейными списками литературы. Внутренние ссылки между статьями превращены в гипертекстовые, что позволяет без труда переходить от статьи к статье, знакомясь со всеми аспектами изучаемой проблематики. Рубрикон отличает высокая скорость обработки запросов и комфортный пользовательский интерфейс.
С июня 2003 года портал полностью перешел на коммерческое обслуживание клиентов по подписке. Предлагается несколько пакетов услуг, главный из которых "Все энциклопедии Рубрикона", включающий доступ ко всем источникам. Стоимость подписки на него для частных пользователей от 5 у.е. в месяц до 45 у.е. в год, для корпоративных клиентов - порядка 300 у.е. в год. Цена большинства других пакетов услуг от 2 у.е. в месяц до 18 у.е. в год. При регистрации каждому клиенту предоставляется неделя бесплатного пробного доступа.
Страница выдачи результатов Rubricon. Начала статей - максимум того, что доступно незарегистрированному пользователю.
Энциклопедия "Кругосвет" (http://www.krugosvet.ru)
Является дополненным и исправленным переводом на русский язык "Энциклопедии Кольера" ("Collier's Encyclopedia"), которая издавалась в США с 1952 по 1998 годы. По этой причине содержание и стиль подачи материала в "Кругосвет" явно тяготеют к американскому оригиналу. Исправления заключаются в продлении хронологии статей, относящихся к современности, и добавлении значительного числа персональных статей о российских деятелях, в том числе и ныне здравствующих. Помимо текстов включены иллюстрации: портреты, карты, виды городов и исторических памятников. Поиск возможен как по ключевому слову, так и по отраслям знания.
В конце каждой статьи "Кругосвета" есть функция "Поискать в Интернет". В этом случае запрос, в точности повторяющий название энциклопедической статьи, переадресуется в поисковую систему "Апорт".
Литературная энциклопедия. М., 1929-1939. Т. 1-9, 11 (http://feb-web.ru/feb/litenc/encyclop)
Ресурс воспроизводит многотомную "Литературную энциклопедию", изданную в Советском Союзе в период с 1929 по 1939 годы. Содержание представлено в виде единого алфавитного списка статей, не разбитых по томам. Сохранен внешний вид статей оригинального печатного издания, за исключением иллюстраций, которые порой в электронной версии отсутствуют. Многие ссылки между статьями энциклопедии превращены в гипертекстовые. Возможен поиск по заголовкам статей. Электронная версия выполнена весьма тщательно и может служить образцом оцифровки печатных изданий.
Энциклопедия Britannica (http://www.britannica.com)
Сетевой вариант самой авторитетной энциклопедии мира. Содержит более 75 тысяч статей по всем отраслям знания. Актуализируется ежегодно. Результат поиска включает не только тексты из энциклопедии, но и ссылки на ресурсы Интернет, а также избранные журнальные публикации. Энциклопедические статьи связаны между собой многочисленными гиперссылками. Широко представлены иллюстрации, таблицы, аудио- и видеофайлы. В настоящее время Britannica является полностью платным ресурсом. При необходимости воспользоваться ее ресурсами возможно оформление бесплатного "пробного доступа" длительностью 72 часа.
Книга фактов ЦРУ (http://www.odci.gov/cia/publications/factbook)
Содержатся детальные фактические и статистические сведения о всех странах мира и крупнейших международных организациях. Включаются сведения о географическом положении, численности и составе населения, политической деятельности и степени развития основных отраслей экономики страны. Незаменимый источник для получения надежных статистических данных по экономическому, военному, социальному и культурному развитию любой страны мира. Иллюстративный материал представлен политической картой и флагом страны. Информация ежегодно обновляется. В качестве дополнения к "Книге фактов", ЦРУ также публикует справочник "Chiefs of State" (Главы государств - http://www.cia.gov/cia/publications/chiefs), в котором еженедельно обновляются сведения о текущих перестановках в правительствах всех стран мира.
Русские Словари (http://www.slovari.ru)
Совместный проект Института русского языка им. В.В.Виноградова РАН и издательства "Азбуковник". На сайте представлено большое число языковых словарей, среди которых как известные труды, так и совершенно новые работы. Все словари являются электронными версиями печатных изданий, большинство которых увидело свет в указанном издательстве. Среди прочих представлены "Толковый словарь русского языка С.И.Ожегова и Н.Ю.Шведовой", "Русский орфографический словарь", "Русский семантический словарь под редакцией Н.Ю.Шведовой", "Популярный словарь иностранных слов", "Новый словарь иностранных слов", словари языков Пушкина, Достоевского и ряд других изданий. Поиск может осуществляется как по всем словарям сразу, так и по каждому в отдельности. Доступ к ресурсу в настоящее время полностью бесплатен.
Биографическая база данных на сервере Biography (http://www.biography.com)
Содержатся краткие сведения о более чем 25 тысячах персон, начиная с героев Древнего мира и заканчивая деятелями современности из разных стран. Поиск возможен как путем ввода фамилии в поисковую строку, так и методом последовательного просмотра алфавитного списка. Стандартная биографическая справка содержит даты жизни и краткий послужной список данного лица.
Энциклопедии компании "Кирилл и Мефодий"
Интернет-версии универсальной и ряда отраслевых энциклопедий, ежегодно издаваемых на компакт-дисках. В основе универсальной энциклопедии изначально лежал двухтомный Большой Энциклопедический Словарь 1996 года издания, дополненный затем большим количеством авторских статей. В настоящее время универсальная энциклопедия включает более 100 тысяч статей и более 20 тысяч иллюстраций. Обладает хорошими поисковыми возможностями. Помимо универсальной энциклопедии, на сайте представлен ряд отраслевых энциклопедий компании "Кирилл и Мефодий" в редакциях середины 2000-х годов. Отличительной особенностью всех энциклопедий "Кирилла и Мефодия" является наличие в статьях большого количества мультимедийных объектов, в числе которых, помимо высококачественных иллюстраций, трехмерные динамические анимации, аудио- и видеофайлы, интерактивные панорамы и таблицы.
Главная цель каталога "Белорусский язык в интернет" - поддержка и популяризация белорусского языка. Первоначально каталог создавался для сбора ссылок, посвященных белорусскому языку. Однако сейчас мы не ограничиваемся исключительно этой тематикой, поскольку, по нашему мнению, хороший белорусскоязычный сайт уже своим существованием содействует распространению родного языка. Поэтому в каталоге можно найти много ссылок другой тематики: посвященных, в первую очередь, белорусской культуре, истории, искусству, музыке, известным белорусским деятелям. Есть разделы средств массовой информации, белорусских организаций, программного обеспечения. Каждая ссылка снабжена кратким комментарием или характеристикой, что дерает работу с каталогом более удобной. Надеемся, что здесь Вы быстро найдете необходимую информацию. Языки каталога - белорусский (классическое правописание) и русский.
Есть разделы средств массовой информации, белорусских организаций, программного обеспечения
Slounik.org: беларускія слоўнікі і энцыкляпэдыі
Праект утрымлівае дзьве часткі: энцыкляпэдыі і слоўнікі. Энцыкляпэдыі, энцыкляпэдычныя даведнікі, сьпецыялізаваныя тлумачальныя слоўнікі знаходзяцца ў першым разьдзеле. Перакладныя і «моўныя» (тлумачальныя, арфаграфічныя, фразеалагічныя і інш.) слоўнікі сабраныя ў другім разьдзеле. Падрабязна пра кожную энцыкляпэдыю/слоўнік можна прачытаць на адпаведнай старон
Русский Биографический Словарь: Электронная репринтная версия / Под ред. А.А. Половцева
Электронная версия знаменитого словаря, который издавался в период с 1896 по 1918 годы. Издание не было завершено. Страницы словаря представлены в виде графических файлов формата DejaVu. Для пользования словарем, необходимо установить модуль (PlugIn) DejaVu (поддерживаются только браузеры IE5 и выше). Программа позволяет осуществлять просмотр страниц в данном формате, который обеспечивает высокую степень сжатия графической информации. Навигация в словаре осуществляется как по томам и страницам - из меню, так и по статьям - из оглавления. При этом необходимо учитывать, что оглавление адаптировано к современному русскому языку и алфавитный порядок следования статей может не совпадать с порядком, в котором напечатаны статьи в оригинальном издании конца позапрошлого - начала прошлого века. Скудость дизайна и сервисных возможностей компенсируется возможностью доступа к уникальным статьям этого известнейшего издания.
Словари Яндекс. Лингво
Комплекс словарей Lingvo версии 10.0 известной российской компании ABBYY. Обеспечивается двусторонний перевод с/на английский, французский, немецкий, итальянский и испанский языки. Могут переводиться как отдельные слова, так и целые словосочетания. В составе каждой языковой пары, помимо словаря общей лексики, могут присутствовать профильные словари: экономический, юридический, компьютерный, технический и т.д. Словарные статьи снабжены многочисленными примерами словоупотребления. Доступ к словарю обеспечивается также на оригинальном сайте Lingvo.
Словарь Мультитран
Мультитран - система перевода, включающая девять словарей, которые обеспечивают перевод в обе стороны с русского на английский, немецкий, французский, итальянский, испанский, нидерландский, латышский, эстонский и японский языки, а также 2 словаря, которые производят перевод в обе стороны с английского на немецкий и японский языки. Предоставляет возможности алфавитного, морфологического и фразового поиска.
Cловарный комплекс МультиЛекс Online
Словарный комплекс МультиЛекс является Интернет-версией электронных словарей, издаваемых на CD-ROM компанией МедиаЛингва. В их основу положены наиболее авторитетные словари, изданные в печатной форме, в частности, Большой Англо-русский словарь в трех томах под редакцией Э.М.Медниковой и Ю.Д.Апресяна, содержащий около 250.000 словарных входов. Словарный комплекс включает двусторонние словари пяти основных европейских языков: английский, французский, немецкий, испанский и итальянский. Способен переводить как с иностранных языков на русский, так и наоборот. Словарные статьи включают многочисленные варианты употребления. Помимо словаря общей лексики, англоязычный вариант снабжен многочисленными профильными лексическими словарями, в числе которых экономический, правовой, компьютерный, медицинский и некоторые другие.
Тезаурус Роже
Известный источник в электронной форме. В ответ на вводимый англоязычный термин выдает перечень слов, связанных с ним по смыслу. Серьезный ресурс для профессиональных лингвистов и переводчиков.
Авиация от A до Z
Очень информативная энциклопедия мировой авиации на русском языке, включающая краткие характеристики летательных аппаратов и их фотографии. Поиск осуществляется по названию конкретного самолета или вертолета, типам летательных аппаратов, а также путем ввода ключевых слов.
Библиографические ресурсы интернет
Термином "библиографические ресурсы" обозначается весь спектр источников, отражающих сведения о документах. Библиографические ресурсы глобальных сетей обширны и разнообразны. В них входят многочисленные списки литературы на персональных страницах, списки новых поступлений или тематические указатели на сайтах библиотек, перечни источников в различных электронных публикациях и еще многие подобные материалы. Но главными их составляющими являются электронные каталоги библиотек и библиографические базы данных. Такое деление весьма условно, поскольку электронный каталог фактически является частным вариантом базы данных (соотношение часть и целое). Однако в данном конкретном случае нам представляется возможным провести именно такое деление, поскольку с библиографической точки зрения каталоги и базы данных обладают еще одним очень важным отличием: каталоги библиотек за редким исключением ограничивают свой состав сведениями о документах в целом (книги, карты, ноты, видеокассеты и т.д.). Библиографические базы данных, наоборот, содержат сведения в основном об аналитических материалах (статьи из журналов, продолжающихся изданий, сборников и, реже, - газет).
Электронные каталоги библиотек
Электронные каталоги библиотек составляют основную долю библиографического потенциала Интернет.
Требования к "потребительским качествам" каталогов постоянно возрастают. На сегодня их перечень сводится к следующим характеристикам:
осуществление поиска по всем значимым полям с возможностью усечения терминов запроса или вариативностью их употребления (любой из терминов, все термины только вместе, точная фраза);
возможность ограничения поиска по формальным критериям (годы издания, вид издания, место издания, язык документа и т.д.);
наличие словарей с возможностью автоматического переноса термина словаря в форму запроса (поисковое предписание);
возможность формирования списка релевантных записей из общего перечня результатов поиска;
возможность отправки отобранных результатов поиска по электронной почте или сохранения на локальном диске пользователя;
наличие гипертекстовых ссылок на такие элементы библиографической записи, как авторы (индивидуальные или коллективные), предметные рубрики и название серии.
В наиболее мощных программных разработках существует возможность показа текущего состояния источника (выдан или находится на полке), а также добавлен ряд сервисных функций (сохранение истории поиска, представление записи в виде каталожной карточки, MARC-фомата и т.д.).
На сегодня в Интернет представлены многие тысячи таких каталогов: от крупнейших книгохранилищ мира до городских публичных библиотек. Большую часть из них составляют каталоги библиотек развитых зарубежных стран, прежде всего США.
Электронные каталоги зарубежных библиотек
Каталог Библиотеки Конгресса США (http://catalog.loc.gov)
Самым значительным электронным каталогом среди библиотек мира обладает Библиотека Конгресса США, предоставляющая доступ к сведениям о более чем 12 миллионах единиц хранения. Каталог, функционирующий на базе программного продукта Voyager компании Endeavor Information Systems, отражает сведения о книгах, периодических и продолжающихся изданиях, картах, рукописях и аудио записях. Из общего объема - 3.2 миллиона записей относятся к "старому каталогу", т.е. книгам и периодическим изданиям, поступившим в библиотеку с 1898 по 1980 годы и конвертированным из карточного каталога. В фондах Библиотеки Конгресса, помимо прочих, содержится много русскоязычных материалов, описанных в транслитерации. Главное меню каталога предлагает выбрать из двух вариантов поиска: Basic Search и Guided Search. Наиболее эффективен Guided Search, позволяющий легко формировать поисковое предписание любой сложности с помощью меню всего из двух строк с дополнительными ограничениями (Search Limits).
Помимо правильного ввода ключевых слов, максимально точно выражающих информационную потребность, существенное значение имеет правильное применение условий, задаваемых через выпадающие меню. Именно они обеспечивают правильную трактовку введенных терминов. Предлагается выбор из следующего перечня:
any of these - любой из терминов
all of these - все термины (и один и другой)
as a phrase - точная фраза
После этого необходимо определить поле/поля, в котором будет производиться поиск заданных терминов по указанным условиям. Наиболее важными из них являются:
Keywords anywhere - Ключевые слова во всех полях (по сути - поиск по всем полям)
itle - Заглавие
Personal Name - Индивидуальный автор
Name Copropate/Meeting - Коллективный автор (и временный и постоянный)
Subject - Предметные рубрики
Subject Authorized - Предметные рубрики из авторитетных файлов
Есть возможность воспользоваться функцией Search Limits, которая позволяет ограничить поиск по дате (точный год, в пределах дат), языку, типу материала, месту издания.
Электронные каталоги российских библиотек
Российские библиотеки начали предоставлять доступ в Интернет к электронным каталогам со второй половины 1990 годов. Отечественные библиотечные каталоги еще не обладают достаточной информационной прочностью, так как в большинстве случаев отражают лишь поступления последних 7-10 лет. Число каталогов нестабильно, - они могут не только появляться, но и исчезать, - а качество их работы во многих случаях еще недостаточно высоко. Расширенный и постоянно пополняемый перечень каталогов российских библиотек содержится в "Русской справочной библиотеке" (http://www.openweb.ru/stepanov/library.htm).
Каталог Российской Национальной библиотеки (http://www.nlr.ru:8101/poisk/index.html#1)
В настоящее время является наиболее информативным источником сведений о книгах России. Каталог включает несколько составных частей, наиболее ценной из которых является база данных книг на русском языке, поступивших в библиотеку в качестве обязательного экземпляра и в виде даров с 1986 года по настоящее время. Имеется три формы запроса, выделенных в зависимости от квалификации клиента: "базовая", "расширенная", "профессиональная". Оптимальным является "расширенный" интерфейс, обеспечивающий поиск по автору, заглавию и предметным рубрикам с возможностью сочетания полей и ограничения годом публикации и языком издания. Помимо параметров поиска пользователь может определять форму вывода данных и число ссылок на странице. Последняя величина имеет в данном случае важное значение, поскольку модуль выдачи результатов позволяет делать выборку релевантных записей только на одной странице. При переходе к следующей порции записей сведения о выделенных записях сбрасываются. Вместо самостоятельного ввода терминов допускается обращение к словарям, которые сформированы для всех поисковых полей.
Система обеспечивает возможность маркирования релевантных записей, просмотр полных описаний и формирование собственного списка из общего перечня. Из всех вариантов сохранения данного перечня представлена только отправка на печать.
Каталог Российской государственной библиотеки (http://eidos.rsl.ru:8080)
Включает несколько баз данных, выделенных по хронологии и видам изданий. Наибольший интерес представляют каталоги отечественных книг, поступивших в библиотеку в качестве обязательного экземпляра с 1980 по 1998 год и с мая 1998 года по настоящий период. Также выделены каталоги поступивших в библиотеку иностранных книг, авторефератов и диссертаций. Следует иметь виду, что качество записей каталога 1980-1998 годов, созданных в результате проведения ретроконверсии, зачастую оставляет желать много лучшего. Из-за несовершенства программного продукта или ошибок ввода данных, все записи каталога отечественных книг последних лет издания выводятся с ошибками: дублируются знаки косая черта (вместо "/" выводится "//"), двоеточие, точка и точка с запятой.
Используемый программный продукт (Эйдос 3.0 компании БКС) позволяет производить поиск по всем полям, включая индивидуального и коллективного автора, заглавие (в т.ч. серии), издательство, ключевые слова и индекс ББК. Допускаются усечение терминов с помощью "?" или "#", сочетание полей по условию И / ИЛИ и ограничение поиска датой издания книги. Система выдачи результатов позволяет последовательно просматривать выявленные записи, но не дает возможности делать выборку из общего перечня и сохранять нужные записи в виде библиографического списка.
Каталог ГПНТБ России (http://www.gpntb.ru/)
Является одним из первых и наиболее стабильных библиотечных каталогов России. Каталог имеет довольно сложный интерфейс, который, однако, обеспечивает приемлемые возможности для поиска. Воспользовавшись клавишей "Словарь", пользователь может просмотреть полный перечень всех авторов и ключевых слов, находящихся в каталоге. Выбранные таким образом термины могут быть автоматически помещены в поисковое предписание.
Основной интерфейс выстроен с расчетом на тематический поиск по ключевым словам, с возможностью уточнения местонахождения терминов (заглавие, наименование коллективного автора или предметные рубрики), связывающей логики (И, ИЛИ, целая фраза) и усечения окончаний. Все операции задаются через меню. Можно также осуществлять поиск по автору, ISSN/ISBN и уточнить год издания.
Результаты поиска могут выдаваться в краткой и полной формах. Первая содержит лишь сведения об авторе, заглавии и виде документа; вторая - все элементы библиографического описания, включая предметные рубрики и сиглы хранения. Искомые термины выделяются красным цветом. Естественно, данный каталог отражает литературу преимущественно технической и естественнонаучной тематики.
На сервере ГПНТБ представлен также "Сводный каталог по научно-технической литературе" (http://www.gpntb.ru/win/search/rsk.html), содержащий более 600 тысяч записей. Его интерфейс абсолютно идентичен интерфейсу электронного каталога ГПНТБ.
Библиографические базы данных
В Интернет представлено большое число библиографических баз данных, главная ценность которых заключается в том, что, в отличие от электронных каталогов библиотек, они содержат сведения, главным образом, об аналитических материалах, т.е. о статьях из журналов, сборников и, реже, газет. Создание и поддержание подобных баз в актуальном состоянии требует немалых затрат. В развитых западных странах ведение библиографических баз данных с последующей продажей информации традиционно является сферой бизнеса, которая практически полностью находится в ведении информационных компаний. В Сети представлены информационные продукты большинства известнейших производителей, среди которых такие гиганты информационной индустрии, как Dialog, LEXIS/NEXIS, Factiva, InfoTrac, H.W.Wilson. Естественно, что пользование всеми этими ресурсами осуществляется по платной подписке, причем стоимость доступа достаточно высока, особенно в сравнении с бюджетами российских библиотек.
Вместе с тем, в Интернет представлены библиографические базы данных, пользование которыми абсолютно бесплатно. Эти библиографические источники, в большинстве своем, являются своеобразными "побочными продуктами" коммерческих проектов, связанных, главным образом, с электронной доставкой документов. Получаемые бесплатно библиографические сведения в этом случае выступают своеобразной приманкой для клиента, который оплачивает доступ к исходному тексту. Разумеется, в стоимость доступа к полным текстам документов включены и расходы на поддержание в актуальном состоянии собственно библиографической части.
Еще одним вариантом существования в Интернет библиографических баз данных является их формирование и поддержка в ходе специально финансируемых научных разработок. Несколько таких баз создано в крупных западных академических институтах. Они посвящены, как правило, достаточно узкой, и в тоже время крайне актуальной тематике и представляют несомненный интерес для ученых соответствующих областей знания.
Библиографическая база данных Article Sciences (http://articlesciences.inist.fr)
База данных статей из научной периодики. Сервис предоставляется французскими партнерскими организациями Institut de l'Information Scientifique et Technique - Centre National de la Recherche Scientifique (INIST-CNRS). Стартовая страница системы дает пользователю возможность выбрать интерфейс на одном из четырех языков: французском, английском, испанском и итальянском. Поисковый механизм позволяет производить разыскания по заглавию статьи и фамилии автора с возможностью сочетания данных этих двух полей, а также ограничивать поиск конкретным годом. В настоящее время база данных содержит порядка 9,5 миллионов статей из академических журналов на различных европейских языках. Статьи сопровождаются рефератами, объем которых иногда весьма внушителен. В качестве платной услуги предлагается электронная доставка полных текстов найденных статей.
Библиографическая база данных MEDLINE (http://www.ncbi.nlm.nih.gov/entrez/query)
Самая известная и авторитетная среди отраслевых баз данных мира. Поддерживается Национальной медицинской библиотекой США (NLM). Включает описания и рефераты из 4.600 медицинских и биологических журналов, публикуемых в более чем 70 странах мира. Нижняя хронологическая граница MEDLINE - 1950 годы. Актуализация базы проводится еженедельно.
Доступ к MEDLINE позволяет сформировать запрос с использованием многочисленных фильтров: датой ввода в базу, типом и видом издания, языком текста и иными специфическими для медицины параметрами.
MEDLINE обладает близкой к образцовой подсистемой работы с результатами поиска. Пользователь имеет возможность отмечать релевантные записи и сохранять их на своем локальном диске (функция Clipboard). Каждая запись в перечне результатов поиска снабжена ссылкой Related Articles, щелчок мышью по которой приводит к появлению перечня статей, содержание которых аналогично данной. Эта функция крайне полезна при проведении эвристического поиска, учитывающего ассоциативные связи и скрытые закономерности. Фиксируется "история" разысканий с возможностью вернуться к любому их этапу.
Качество библиографических записей MEDLINE, которая среди прочих содержит большой объем сведений о статьях из российской медицинской периодики, можно считать образцовым: все описания включают многочисленные классификационные рубрики, большинство снабжено развернутыми рефератами.
Базы данных ИНИОН (http://www.inion.ru/product/db_2.htm)
Крупнейший в России комплекс библиографических баз данных по гуманитарным и социальным наукам. Каждая отраслевая база данных имеет свой вход, рядом с которым указаны объем информационного массива и дата последнего обновления. Поисковый интерфейс - "простой" или "профессиональный" отличаются незначительно. Однако наличие большого числа особенностей и условностей требует предварительного ознакомления с файлом помощи по адресу http://194.67.188.12/Help_4.htm#BLDQUE.
Для лиц, освоивших правила составления запросов, открываются большие возможности, поскольку поисковый механизм позволяет производить максимальную детализацию поискового предписания, а объемы хранимых данных гарантируют близкую к исчерпывающей полноту результатов.
Дополнительной платной услугой ИНИОН является электронная доставка полных текстов всех документов, сведения о которых отражены в базе данных.
База данных периодических изданий "Гарант-Парк" (http://is.park.ru/default.asp)
Поиск библиографических сведений - побочная бесплатная услуга, при доступе к огромной полнотекстовой базе данных статей из примерно двухсот российских центральных и региональных газет и журналов, а также сообщений множества информационных агентств. Среди изданий газеты "Аргументы и факты", "Время МН", "Известия", "Коммерсант", "Московские новости", "Независимая газета", "Новая газета", "Финансовая газета", журналы "Итоги", "Финансист", "Эксперт" и многие другие. Обновление содержания производится ежедневно.
Поиск осуществляется по полному тексту статьи, с возможностью ограничения временем выхода в свет. При вводе нескольких ключевых слов допускаются условия И / ИЛИ /ФРАЗА. Результаты поиска выдаются в виде, отличном от стандартного библиографического описания, однако достаточном для идентификации документа. В редких случаях доступны полные тексты статей - в этом случае напротив источника выставляется метка зеленого цвета. Полные тексты всех статей могут быть получены на основе платной подписки.
В Интернет представлен также ряд узкотематических англоязычных баз данных. К таковым относятся, например, библиографические базы данных по проблемам физики высоких энергий (http://www.slac.stanford.edu/spires/hep), искусственного интеллекта (http://www.ai.univie.ac.at/biblio.html) и информатики (http://liinwww.ira.uka.de/bibliography). Полный и постоянно обновляемый их перечень содержится в "Русской справочной библиотеке" (http://www.openweb.ru/stepanov/library.htm).
Особенности библиографических разысканий в интернет
Методы библиографических разысканий в Сети аналогичны общим требованиям к библиографическому поиску. Первым этапом, после уточнения запроса, является установление круга потенциальных источников, которые могут содержать требуемые данные. Это возможно сделать, лишь предварительно изучив характеристики поисковых инструментов. При определении круга каталогов и баз данных следует помнить, что оптимальное решение не всегда лежит на поверхности. Например, наиболее информативным источником для разыскания сведений о дореволюционных российских изданиях пока остаются каталоги наиболее авторитетных зарубежных библиотек. Крупнейшие зарубежные книгохранилища уже несколько лет назад провели полную ретроспективную конверсию и их электронные каталоги отражают все книги, находящиеся в фонде. Российские же библиотеки пока не имеют каталогов с глубокой ретроспекцией. Большинство библиотек приступили к созданию своих электронных каталогов в первой половине 90-х годов. Поэтому их массивы библиографических записей отражают лишь документы, поступившие в библиотеки с этого периода.
При разыскании книг на русском языке в зарубежных библиотеках необходимо умение правильно написать запрос в транслитерации. В большинстве библиотек применяются правила транслитерации, разработанные Библиотекой Конгресса США. Они интуитивно понятны, за исключением некоторых букв, вызывающих разночтение. Необходимо запомнить, в частности, правильное написание следующих букв: Ж - zh, Х - kh, Ч - ch, Ц - ts, Ы - y. Так, например, при поиске книги на русском языке, посвященной царской охоте, запрос будет иметь вид "okhota tsarskaia". В результате поиска получаем описание:
Kutepov, Nikolai Ivanovich, 1851- [from old catalog]
Velikokniazheskaia i tsarskaia okhota na Rusi s X po XVI viek; istoricheskЇii ocherk. S.-
Peterburg, EkspeditsЇiia zagotovlenЇiia gos. bumag, 1896-1902. 3 v.
В приведенной записи легко угадывается близкое к стандартному описание:
Кутепов, Николай Иванович. 1851 - [из старого каталога]
Великокняжеская и царская охота на Руси с X по XVI век: исторический очерк. С-
Петербург. Экспедиция заготовления гос. бумаг. 1896-1902 3 Т.
Разумеется, никакой гарантии наличия дореволюционных российских изданий в зарубежных библиотеках нет, однако на сегодня это единственный вариант, позволяющий получить в Интернет сведения об отечественных изданиях за старые годы.
Одной из важных особенностей поиска в Интернет документов определенного автора является требование избегать употребления полных имен и инициалов, ограничиваясь фамилиями. Такой подход обусловлен тем, что в большинстве случаев особенности ввода имен собственных в исходную базу данных заранее неизвестны, как неизвестны и особенности конкретного поискового механизма. Практика некоторых библиотек предполагает ввод полного имени - "Достоевский Федор Михайлович", в других - только инициалов - "Булгаков М.А.". Ряд поисковых систем не рассматривают запрос, включающий сочетания из одного или двух символов или букв с точками. Оптимальным в данном случае будет ввод одной фамилии, с последующим отсевом однофамильцев.
Одно из основных достоинств Интернет (точнее - Всемирной паутины) достигается за счет лежащей в основе WWW технологии гипертекста. Гипертекст, в частности, легко позволяет делать многочисленные перекрестные ссылки и отсылки, за счет чего во много раз повышается эффективность процесса поиска, особенно на стадии обработки результатов.
Наиболее результативно эта возможность реализована в высококачественных программных продуктах, применяемых в каталогах Библиотеки Конгресса, библиотеках ведущих американских университетов и некоторых западноевропейских книгохранилищах. Библиографические записи содержат перекрестные гипертекстовые ссылки, прежде всего, на те поля, по которым поддерживаются авторитетные файлы: авторы, предметные рубрики и названия серий. Наличие такой ссылки позволяет одним щелчком мыши получить все документы одного автора или все выпуски, объединенные единой серией. Но наиболее эффективно их использование при тематическом поиске, когда информационная потребность сформулирована недостаточно четко. При такого рода разысканиях достаточно найти один документ, предметная рубрика которого полностью соответствует запросу. Щелчок мышью по рубрике приводит к появлению списка всех документов, которым она присвоена.
При использовании систем с более скромными возможностями, к которым пока относятся все российские каталоги и базы данных, конкретизировать в ходе работы поисковое предписание также возможно. Однако делать это приходится вручную. Поскольку проблема индексирования документов с помощью ключевых слов и предметных рубрик в каждой библиотеке решается самостоятельно, в процессе поиска крайне важно установить каким образом данная тема трактуется в конкретной поисковой системе. Для этого имеет смысл провести первоначальный поиск по относительно широкому признаку (например, по главному ключевому слову) и в полученном списке результатов обратить внимание на предметные рубрики и ключевые слова. Их подробный анализ позволяет установить, какие предметные рубрики употребляются в конкретной библиотеке для обозначения искомой темы. Используя уточненную формулировку, можно получить гораздо более точный результат. При просмотре результатов стоит также обращать внимание на схожие формулировки темы. Например, при поиске литературы по запросу "определение жизненного уровня" в каталоге библиотеки МГУ, можно обнаружить, что предметная рубрика "Жизненный уровень" часто пересекается с рубрикой "Уровень жизни". Осуществив дополнительный поиск по второму варианту, пользователь получает не менее 100 записей дополнительно к 70, найденным по начальной формулировке.
Помимо каталогов библиотек и баз данных стоит помнить и о том, что одним из эффективных методов библиографического поиска в Интернет является обращение к персональным или корпоративным страницам специалистов или учреждений, занимающихся исследованиями в определенной отрасли знания. Иногда такой подход может значительно сэкономить время и трудозатраты на поиск сведений. Кроме того, Сеть дает возможность напрямую обратиться к экспертам с просьбой выслать интересующие ссылки (а нередко и тексты трудов) по электронной почте.
Библиографический поиск в Интернет, как, впрочем, и любые другие библиографические разыскания, - процесс творческий, требующий гибкости мышления и умения быстро адаптироваться к особенностям каждого источника. Год от года возможности библиографов в Интернет стремительно возрастают. Увеличиваются число, объем и качественные параметры электронных каталогов и баз данных. Уже сегодня Интернет превратился в незаменимый инструмент библиографической деятельности. В перспективе значение ресурсов Сети в справочно-библиографической работе будет неуклонно возрастать.
Электронные библиотеки и полнотекстовые базы данных в интернет
С точки зрения профессиональной информационной деятельности одной из главных и наиболее ценных составляющих всего совокупного потенциала Интернет являются электронные библиотеки. Электронные библиотеки можно определить как упорядоченные коллекции разнородных электронных документов, снабженные средствами навигации и поиска.
С точки зрения возможностей применения в информационной деятельности, сетевые электронные библиотеки логично разделить на две основные категории: бесплатные электронные коллекции текстов и коммерческие полнотекстовые базы данных.
Электронные коллекции текстов
Методы комплектования открытых электронных библиотек чрезвычайно просты. Тексты поступают в библиотеку одним из следующих путей:
копируются с других сайтов;
присылаются добровольными дарителями;
производится их специальное сканирование и распознавание;
тексты получаются непосредственно из издательства или от авторов.
Для электронных библиотек, формируемых энтузиастами, весьма важен вопрос согласования размещения произведений для всеобщего доступа с нормами авторского права. Проблема эта решается по-разному, в зависимости от степени строгости соблюдения соответствующих законов в конкретных странах. В России соблюдение авторского права остается одним из наиболее запутанных вопросов. Большинство электронных коллекций содержат источники, на которые распространяются права их законных владельцев, включая ныне живущих авторов. Наиболее распространенной практикой при этом является получение от владельца авторских прав разрешения на публикацию. Большинство авторов на это идут, справедливо полагая, что факт публикации в Интернет, если и не прибавляет размер авторских вознаграждений, то, безусловно, расширяет популярность. Очень часто создатели электронных библиотек размещают на сайте объявление, согласно которому документ в любой момент может быть изъят из собрания (удален с сервера) по первому требованию законного владельца прав на данный источник.
Сервисные функции электронных библиотек включают возможность поиска текста и его сохранения. Ныне в большинстве цифровых собраний реализованы иерархические меню, отдаленно напоминающие рубрики библиотечных классификаций. С их помощью осуществляется примитивная навигация в ресурсах. В большинстве случаев имеется и простейший поисковый механизм, позволяющий вести разыскание по ключевым словам в пределах всего собрания. Для этого весь массив электронной библиотеки предварительно индексируется.
В настоящее время в Сети представлено огромное количество бесплатных электронных библиотек. Среди наиболее крупных и авторитетных собраний можно отметить Библиотеку Максима Мошкова (www.lib.ru), включающую огромное число самых разнообразных произведений от серьезных романов до детективов, технической документации и работ литературных дилетантов. Широкую известность имеют электронные библиотеки, размещенные на сайтах с характерными доменными именами: Классика.ру (www.klassika.ru), Проза.ру (www.proza.ru), BestBooks.RU (www.bestbooks.ru). Особое место занимает проект Vivos Voco! - "Зову живых!" (vivovoco.rsl.ru), содержащий избранные произведения, обладающие, по мнению его создателей, значительной научной или художественной ценностью.
Среди зарубежных бесплатных электронных библиотек выделяются "Проект Гуттенберг" (http://www.gutenberg.net) и Публичная Интернет-библиотека - Internet Public Library (www.ipl.org). Если "Гуттенберг", содержащий лучшие произведения человеческого разума, формируется на добровольных началах и путем добровольных же пожертвований текстов, то IPL является проектом, который целенаправленно финансируется Мичиганским университетом. За счет этого Публичную Интернет-библиотеку отличает высокий качественный уровень. В ней отражены бесплатные англоязычные издания, расположенные на серверах по всему миру. Реализована возможность многоаспектного поиска: в иерархии отраслей знания в строгом соответствии с Десятичной Классификацией Дьюи или непосредственно по автору, заглавию или индексу DDC.
Следует иметь ввиду, что к настоящему времени традиционные библиотеки не играют доминирующей роли в формировании в Сети бесплатных цифровых собраний. Профессиональные библиотекари пока более примеряются к новым реалиям, пытаясь выстроить собственную деятельность в соответствии возможностями цифровой эпохи.
Коммерческие полнотекстовые базы данных
Виртуальная среда, обеспечивающая быстрый и надежный доступ к ресурсам из любой точки планеты, явилась катализатором развития различных форм электронного бизнеса. Одними из первых оценили преимущества Интернет компании, специализирующиеся на производстве и продаже различного рода баз данных. Созданием подобных баз с начала 80-х годов занималось множество зарубежных корпораций, главным продуктом которых была информация. Существовали фактографические базы данных, содержащие фактические сведения (прежде всего статистику), библиографическую информацию (сведения о документах) и полнотекстовые (полные тексты книг и статей из газет, журналов и сборников). С распространением Интернет информационный бизнес приобрел невиданные до того времени масштабы. К уже существовавшим гигантам информационной индустрии добавились молодые компании, среди которых наиболее заметны netLibrary и ScienceDirect. Для поставщиков информационных продуктов Сеть явилась идеальной средой ведения бизнеса: информационные корпорации обрели возможность вести круглосуточное обслуживание клиентов вне зависимости от их местонахождения. Потенциальный рынок одномоментно расширился до пределов всего земного шара. При этом появилась возможность оказывать информационные услуги клиентам напрямую, обходясь в большинстве случаев без привлечения посредников, в лице которых ранее выступали библиотеки.
Из всего перечня представленных в Сети коммерческих информационных продуктов для профессиональной информационной деятельности наибольший интерес представляют полнотекстовые базы данных. В них содержатся тексты книг, статей из журналов, газет и сборников, сообщения информационных агентств, аналитические отчеты различных учреждений и другие документы.
Как и большинство бизнес-проектов, полнотекстовые базы данных обеспечивают для клиентов высокий уровень сервиса. Поисковый механизм позволяет осуществлять многоаспектный поиск с возможностью сочетания данных из разных полей. Разыскание может осуществляться по отдельным словам, словосочетаниям и точным фразам. Результаты поиска выдаются в виде списка библиографических записей с указанием всех необходимых элементов. Существует возможность формирования из общего перечня списка релевантных документов.
Пользование коммерческими базами осуществляется по предварительной подписке, которая оформляется, как правило, на один год. Технически доступ осуществляется по предварительно выданным имени пользователя и паролю или по IP-адресу. Последний способ наиболее выгоден для организаций, в частности, библиотек, поскольку позволяет предоставлять пользование такими базами данных с любых компьютеров, расположенных в учреждении (находящихся за одним IP-адресом).
В настоящее время стоимость доступа к полнотекстовым базам данных весьма высока. Серьезные затраты на сканирование и распознавание текста, описание и индексирование документов, приобретение лицензий от владельцев авторских прав делают себестоимость конечного продукта весьма высокой. Сравнительно малое число подписчиков заставляет владельцев электронных собраний держать высокие цены, дабы окупить собственные затраты и получить прибыль. При существенном повышении числа подписчиков стоимость доступа для каждого отдельного пользователя может быть значительно снижена (прямая аналогия с сотовой телефонией). Однако уже сегодня возможность получения огромного массива данных в любой точке земного шара, где есть доступ к Интернет, привлекает все более значительное число пользователей, среди которых безусловное лидерство держат крупные корпорации, деятельность которых основывается на анализе информации. Высокая стоимость доступа для остальных категорий пользователей несколько смягчается позицией традиционных библиотек (прежде всего университетских), которые в ряде случаев предпочитают подписку на полнотекстовые базы данных непосредственному приобретению книг и журналов в собственный фонд.
В настоящее время к наиболее значимым коммерческим полнотекстовым проектам относятся следующие:
Зарубежные коммерческие полнотекстовые базы данных
Dialog (www.dialog.com)
Dialog - первая онлайновая информационно-поисковая система в мире. Открытие датируется 1972 годом, когда в составе имелось всего две базы. В настоящее время Dialog включает более 570 полнотекстовых, библиографических и фактографических баз данных, представляющих интерес, прежде всего, для бизнес-структур. Представлены источники, относящиеся к самым различным отраслям знания. В их число включены правительственные документы, архивы периодических изданий, материалы по бизнесу и финансам, энергетике, химии, фармацевтике, медицине, интеллектуальной собственности, технике, естественным и общественным наукам.
ProQuest (www.proquest.com)
Линия продуктов ProQuest включает порядка сотни основных баз данных, среди которых отраслевые и тематические полнотекстовые собрания, реферативные и библиографические базы данных, электронные архивы известнейших газет и журналов. ProQuest также целенаправленно занимается оцифровкой имеющих большую историческую ценность законченных собраний, которые включаются в линию продуктов под названием "Digital Vault" ("Цифровой свод"). Примерами могут служить полнотекстовые базы "Women's History Online", "Genealogy and Local History Online", "Early English Books Online", полные архивы газет Christen Science Monitor, New York Times и другие.
EBSCO Information Services (www-ru.ebsco.com)
Имеет в составе более 50 полнотекстовых баз данных, в числе которых материалы практически по всем отраслям знания. Полные тексты представлены в форматах HTML и PDF. В качестве отдельной услуги предлагается подписка на электронные журналы, содержащие в совокупности порядка 3.5 миллионов статей. Среди прочих ресурсов, предоставляется доступ к российской полнотекстовой базе данных "Интегрум". Каждый месяц выделяется "База данных месяца", к которой, после предварительной регистрации, предоставляется бесплатный доступ.
Российские коммерческие полнотекстовые базы данных
Научная Электронная Библиотека (elibrary.ru)
Проект Российского Фонда фундаментальных исследований, целью которого является обеспечение доступа российских научных организаций, включая научные библиотеки, к зарубежной академической периодике преимущественно естественнонаучного профиля. Включены полные тексты книг и журналов, публикуемых известнейшими зарубежными издательствами, среди которых Blackwell, Kluwer, Elsevier, Springer, Royal Society of Chemistry, ISI (Институт научной информации), а также полтора десятка российских академических журналов. В общей сложности в библиотеку включено более 3700 названий журналов, содержащих, в общей сложности, более 5 миллионов статей. Доступ ко всему массиву предоставляется бесплатно после заключения договора между Научной Электронной Библиотекой и академической организацией. Есть также частичный бесплатный тестовый доступ.
Интегрум-Техно (www.integrum.ru или www.integrum.com)
В настоящее время - крупнейшая информационная онлайновая служба России. Среди представленных баз данных архивы центральной, региональной и зарубежной прессы, сообщения агентств новостей, текстовые транскрипты передач радио и телевидения, тексты законов, данные Госкомстата России, электронные каталоги библиотек, сведения о патентах, адресные справочники, фотоархив и многие другие источники. Всего в настоящее время представлено более 4.5 тысяч баз данных, в совокупности включающих порядка 230 миллионов документов. Следует, однако, помнить, что значительный массив этих записей составляют библиографические описания книг и статей из библиотечных каталогов. Все источники интегрированы в единый информационный массив, функционирующий под управлением собственной программной разработки компании - поисковой системы "Артефакт". Для получения пробного доступа необходимо заполнить специальную регистрационную форму. На указанный электронный адрес высылается пароль, дающий возможность полного доступа ко всем ресурсам Интегрум сроком на 7 дней.
Публичная библиотека (www.public.ru)
Проект предназначен прежде всего для библиотек, которым предлагается оформить подписку на электронные версии российских центральных и региональных периодических изданий. Публичная библиотека дает возможность бесплатного библиографического поиска - "Открытый доступ" и возможность пользования полными текстами статей - "Профессиональный поиск". В настоящее время интерфейс поисковой системы и большинство модулей нуждаются в серьезной доработке. Интерес в данном проекте представляют архивы периодики за старые годы: некоторые издания представлены в виде полных текстов с 1990 года.
EastView (www.eastview.com или www.ebiblioteka.ru)
Находясь в зарубежной собственности, EastView, тем не менее, концентрирует основное внимание на российских источниках. В составе базы данных центральные и региональные российские газеты, государственные стандарты, журналы Российской Академии наук, художественно-публицистические (толстые) журналы России, карты, статистические источники, материалы агентств новостей, а также периодика Украины и некоторых стран СНГ. В отдельную базу выделены периодические издания и научные публикации Китайской Народной Республики. Всего на настоящее время в базу данных включены полные тексты более чем 500 российских газет и журналов, а также более 70 украинских периодических изданий. Система по умолчанию имеет англоязычный интерфейс, а описания источников приводятся в транслитерации. В ряде случаев можно получить вариант записей на русском языке. Для библиотекарей и лиц из числа профессорско-преподавательского состава предоставляется бесплатный пробный доступ сроком на 30-дней.
СОЗДАНИЕ, ПОДДЕРЖКА И ПРОДВИЖЕНИЕ
WEB-САЙТА БИБЛИОТЕКИ
Web-сайт (от английского - site) является основной формой предоставления информации во Всемирной Паутине. Сегодня практически все значимые общественные институты обзавелись в Сети собственными представительствами. С их помощью целые организации и отдельные граждане не только обозначают свое присутствие в Интернет, но и пытаются реализовать в виртуальной вселенной изначально присущие им функции.
Значение сайта для авторитета в Сети того или иного учреждения трудно переоценить. Фраза: "В Интернет никто не знает, насколько, на самом деле, мала ваша компания" - очень точно и емко выражает значение web-сервера для имиджа в Сети той или иной организации. В Интернет каждый значит ровно столько, сколько значит его сервер: от этого полностью зависят сетевой престиж его владельца и желание потенциальных партнеров иметь с ним дело.
Традиционная градация web-сайтов по категориям сложности включает четыре уровня: от самых примитивных до многофункциональных. Первый уровень сайта - Интернет-визитка. Это первичная заявка о себе в Интернет. Такой сайт, как правило, содержит краткие сведения о библиотеке, адрес, схему проезда, контактную информацию (телефоны). Подобная "визитка" также нередко служит для резервирования доменного имени для будущего полноценного сайта.
Сайт категории Light (легкий, облегченный) наиболее распространенная ныне форма сайта. Помимо уже перечисленного, включаются детальные сведения о фондах и структуре библиотеки, предоставляемых услугах, проводимых мероприятиях и реализуемых проектах. Для региональных универсальных научных библиотек в данном варианте характерно размещение местного Календаря знаменательных и памятных дат.
Сайт категории Standard - полнофункциональный сайт, содержащий, помимо прочего, логичную систему навигации и обеспечивающий доступ к электронному каталогу и базам данных. Характерно наличие таких элементов, как постоянно обновляемый календарь событий, справочник региональных (отраслевых) Интернет-ресурсов, перечень электронных периодических изданий, гостевая книга.
В сайте категории Corporate реализуется полное представление библиотеки в Сети. Поиск в каталогах в этом случае совмещается с возможностью электронного заказа документов. Посредством сервера обеспечивается доступ удаленных (то есть физически находящихся вне библиотеки) читателей к внешним информационным ресурсам, включая коммерческие полнотекстовые базы данных. Каждый читатель имеет возможность открыть на сайте персональное рабочее место и получать информационную поддержку в соответствии со своими индивидуальными информационными потребностями.
ТРЕБОВАНИЯ К WEB-САЙТУ БИБЛИОТЕКИ
Первым этапом создания любого сайта, в том числе и сайта библиотеки, является проведение детального анализа информационных потребностей его потенциальных посетителей. Следует сразу принять за правило, что сайт создается именно для читателей, а не для самих библиотекарей, поэтому пользовательские интересы должны быть в первую очередь учтены при выработке общей структуры и стратегии наполнения виртуального ресурса.
Многолетняя практика создания сайтов позволила сформулировать ряд общих требований, которым должны отвечать виртуальные представительства библиотек. Все они базируются на общих критериях для web-серверов. К ключевым показателям качества web-серверов в настоящее время относятся:
глубина содержания;
простота навигации;
стабильность информационных ресурсов;
оперативность обновления информации;
доступность для пользователей;
единство дизайна всех разделов.
Глубина содержания определяется объемом имеющейся информации, степенью ее детализации и, конечно же, ценностью. Естественно, все эти показатели должны стремиться к максимуму. Информативность библиотечных сайтов может быть достигнута путем размещения материалов, представляющих наибольший интерес для виртуальных посетителей, которыми потенциально становятся все пользователи Интернет. К таким источникам относятся, в первую очередь, электронный каталог и иные базы данных библиотеки, бюллетени новых поступлений, сведения о составе фондов и расписании работы отделов и филиалов, порядок записи, календарь текущих и планируемых событий (книжных выставок, массовых мероприятий, продаж списанной литературы и т.д.). При существовании доступа к электронному каталогу очень полезно привести его паспорт: с какого года отражается литература, какие виды изданий и на каких языках представлены, текущее количество записей, дата последнего обновления и т.п.
Содержание сервера можно значительно обогатить за счет размещения фонда выполненных справок, полнотекстовых сборников докладов проводимых библиотекой конференций и выпускаемых библиографических указателей, в том числе и каталогов книжных выставок. Для средних и малых библиотек на первую страницу сайта можно вывести такой элемент как "Книга недели", в котором давать анонсы наиболее примечательных изданий, поступивших в библиотеку за последнее время. Читатели должны иметь возможность высказать собственные мнения о прочитанной литературе, для чего имеет смысл организовать на сайте специальный форум.
Помимо собственно информации о библиотеке и ее ресурсах, весьма ценным является представление перечня ссылок на наиболее богатые в информационном отношении источники с других серверов. Такие перечни могут носить как универсальный, так и тематический характер и в этом случае быть неким электронным аналогом книжных выставок, приуроченных к актуальной проблематике, знаменательным датам и событиям. Наличие подобных коллекций ссылок сделает сервер притягательным для пользователей, ищущих в Сети систематизированного и авторитетного знания. Например, уже сегодня в Интернет представлено большое количество электронных аналогов известных периодических изданий. Размещение на библиотечном сервере ссылок на них более чем уместно, при этом, для удобства читателей стоит предварительно систематизировать журналы по отраслям знания в соответствии с традиционной библиотечной классификацией. Крайне полезными для читателей будут также ссылки на рассмотренные ранее справочно-библиографические ресурсы Интернет и средства поиска информации.
В случае, если на других серверах региона не освещена в достаточной степени его история и современное состояние, задача библиотеки - подготовить такой обзор на основе собственной краеведческой коллекции. В данном случае очень уместно размещение иллюстраций с видами города, исторических справок, карт местности и т.д. Весьма эффективным является создание региональных справочников ресурсов Интернет, поскольку общероссийские рубрикаторы уже сейчас не в состоянии полно отразить состав и содержание региональных сайтов. Формирование подобных справочников не только желательно, но и необходимо, а кроме того, библиотечные специалисты смогут с успехом проявить себя на новом поприще, в полной мере используя опыт в сфере выявления, систематизации и аннотирования материала в новых реалиях информационной деятельности.
Поскольку серверы открыты для посещения гостями из любой точки планеты, хорошим тоном считается наличие англоязычной версии, которая совсем не обязательно должна быть точной копией русскоязычных страниц. Англоязычный вариант может содержать общие сведения о библиотеке и, конечно же, наиболее подробные сведения об услугах, предоставляемых удаленным пользователям (МБА, электронная доставка документов). Электронный каталог в этом случае обязательно должен иметь версию интерфейса на английском языке.
Идеальной является ситуация, когда потенциальный пользователь, на основе представленных на библиотечном сервере сведений, смог бы составить исчерпывающую картину ее информационного потенциала и принять решение о необходимости ее посещения в наиболее удобное время.
Простота навигации зависит от логичности схемы построения сервера, которая обычно имеет иерархическую структуру. Важно обеспечить посетителям возможность без труда двигаться от раздела к разделу, легко возвращаться назад или получить справку. Ключевое значение при этом имеет разработка титульной страницы, которая содержит самый общий перечень разделов сервера, его своеобразный "основной ряд". В зависимости от особенностей каждой библиотеки этот перечень конечно же будет различаться, однако следующие несколько разделов можно рекомендовать как обязательные:
новости/календарь событий (анонсы предстоящих в библиотеке мероприятий и краткие отчеты об уже состоявшихся);
общие сведения о библиотеке (перечень отделов с указанием лиц для контактов, распорядок работы, правила записи, история библиотеки, банковские реквизиты);
информационно-библиографические ресурсы (перечень и подробная характеристика имеющихся каталогов, картотек, баз данных на CD-ROM);
сведения о фондах (состав книжного фонда, периодики, фонда аудиовизуальных документов и др.);
перечень предоставляемых услуг (подробное указание всех бесплатных и платных услуг с указанием отделов и текущих расценок).
Названия разделов иногда полезно снабжать краткими комментариями, дабы посетитель не гадал, за какой из ссылок помещены сведения о планируемых книжных выставках, где доступ к бюллетеню новых поступлений, а где правила заказа литературы по межбиблиотечному абонементу. Ссылки на наиболее ценные источники, например, на электронный каталог, целесообразно разместить и дополнительно выделить на титульной странице. Это же относится и к крупным массовым мероприятиям, анонс которых стоит делать все более заметным по мере их приближения.
Непосредственно к функциям, обеспечивающим навигацию по сайту, относятся "Карта сайта" и "Поиск по сайту". "Карта" представляет собой полную иерархическую схему всех разделов сервера. С ее помощью пользователь может легко определить, в каком из разделов помещается интересующая его информация. "Поиск" - более сложная функция, реализация которой требует участия технических специалистов. Это, по сути, значительно уменьшенный аналог поисковых систем Интернет, с помощью которых осуществляется разыскание документов по ключевым словам в пределах данного сервера. Использование "поиска по сайту" не только целесообразно, но и необходимо в случаях, когда объем сервера измеряется тысячами документов.
Логичность построения сайта подчеркивается правильным заполнением метки <TITLE>, внутри которой указывается название конкретной страницы сервера. Эта метка должна отражать содержание именно данной страницы, а не просто включать наименование библиотеки. Оптимальным является сочетание как названия библиотеки (в этом случае можно ограничиться и аббревиатурой - например, "Вологодская ОУНБ", "Библиотека ГУ-ВШЭ"), так и заглавия документа (например, "Структура библиотеки", "Правила записи читателей", "Календарь событий на январь 2003 г." и т.п.).
Обязательным правилом считается размещение на титульной странице ссылки на электронный почтовый адрес библиотеки для того, чтобы посетители могли без труда высказать свои пожелания или задать вопросы.
Стабильность информационного наполнения определяется постоянством представленной информации. Пользователи должны быть уверены, что найдут интересующие их сведения, при любых технических и структурных реорганизациях. Даже утратившие острую актуальность материалы, например, доклады позапрошлогодней конференции или материалы завершившейся выставки, следует не удалять, а переводить в архивную часть сайта. Это обеспечит необходимую информационную прочность сервера, которая с годами будет лишь повышаться. Полностью освобождаться имеет смысл лишь от страниц временного характера, например, посвященных завершившемуся месячнику продажи списанных изданий из фондов библиотеки.
Оперативность обновления данных обеспечивает постоянное поддержание сайта в актуальном состоянии. Известно, что в Сети требования к актуализации информации намного выше, нежели требования к обновлению печатных изданий. Большое значение имеет как регулярное пополнение электронного каталога новыми массивами библиографических записей, или публикация бюллетеней новых поступлений, так и своевременное размещение информации о грядущих и текущих событиях жизни библиотеки. Также оперативно должно проводиться обновление ссылок на внешние ресурсы, дабы не допускать устаревания информации. Регулярное обновление и пополнение сведений как ничто другое способствуют сохранению интереса к серверу у его постоянных посетителей и, соответственно, повышают его популярность. Следует постоянно помнить одно из правил, выработанное цифровым сообществом: устаревшее наполнение сайта часто производит худшее впечатление, чем даже его отсутствие.
Доступность страниц складывается из нескольких факторов, главным их которых является техническая "устойчивость" web-сервера, что составляет заботу штата системных администраторов. Однако на доступность информации может повлиять и оформление страниц. Злоупотребление иллюстративными материалами, аудио- и видеофрагментами, которые "весят" намного больше обычного текста, может ощутимо снизить скорость передачи данных и, таким образом, в значительной степени затруднит или сделает совершенно невозможным их использование. Об этом надо постоянно помнить и применять графику, а тем более звук и видео, в разумных пределах.
Внешнее оформление web-страниц не имеет кардинального значения, хотя смотреть на изысканный фон и со вкусом сделанную анимацию, конечно, приятнее, чем на тоскливо-серые страницы. Естественным требованием является единообразный стиль оформления всего сервера. В данном случае хорошей школой может стать просмотр как можно большего количества библиотечных серверов и выработка на этой основе собственных эстетических критериев. Особо понравившиеся страницы можно, на первых порах, использовать в виде шаблона, оставив неизменным оформление и заменив заголовки и текст. Современные браузеры позволяют без труда сохранять на своем компьютере любые изображения, включая анимационные картинки (для этого используется правая кнопка мыши). Существуют также специальные сервера, содержащие бесплатные средства для украшения web-страниц. Важно лишь следить, чтобы позаимствованные объекты не представляли чью-либо собственность и, соответственно, не находились под защитой авторского права.
Следует всегда помнить, что изысканный внешний вид сайта не самоцель и хорош только тот дизайн, который работает на содержание.
После создания или обновления страниц и перед загрузкой страниц непосредственно на сервер необходимо произвести проверку текста на наличие орфографических ошибок. Обновление материала на сайте происходит очень динамично и, конечно, далеко не всегда хватает времени на внимательную вычитку размещаемых материалов. Однако стоит взять за правило, что текст, не прошедший проверку на правописание с помощью специального модуля текстового редактора, не может быть отправлен на сайт. Даже после этих проверок тексты нередко содержат грамматические и синтаксические ошибки, однако их число не столь велико, как если бы материалы загружались сразу по мере их создания. Особенность электронного текста такова, что ошибки на мониторе компьютера трудно различимы, и поэтому многие из источников Интернет изобилуют многочисленными ошибками.
Создание и обновление web-сайта постепенно превращается в рутинную библиотечную работу. Как правило, первоначально она выполняется сотрудниками отдела автоматизации. Однако со временем управление содержанием сайта все более перемещается в подразделения, отвечающие за связи с общественностью и информационную деятельность библиотеки.
PAGE \* MERGEFORMAT1
Информационный поиск