Контрольная работа: Информационно-поисковые тезаурусы
Название: Информационно-поисковые тезаурусы Раздел: Рефераты по информатике, программированию Тип: контрольная работа |
ТЕМА : ИНФОРМАЦИОННО-ПОИСКОВЫЕ ТЕЗАУРУСЫ 1. Информационно-посковый тезаурус Словари типа тезаурус или идеографические впервые разработаны в лингвистике. Тезаурусы предназначены для облегчения поиска языковых средств выражающих данное понятие (идею). Классическим примером поискового тезауруса является: тезаурус английских слов и выражений первое издание которого было подготовлено Роджестоном 1852 г. подобные тезаурусы созданы и для других естественных языков. Лингвистический тезаурус разработан в связи с автоматизированной подготовкой текста. Синтагматические связи – это соотношение единицы языка в данном высказывании. В институте русского языка РАН создан тезаурус семантических (смысловых) и синтагматических связей между словами и словосочетаниями , русский язык как словарно-программное средство. Объём тезауруса 64 000 слов и словосочетаний. ИПТ предназначен: 1. обеспечивать перевод с естественного языка на дескрипторный т.е для координатного индексирования документов и запросов. 2. отражать парадигматические отношения между лексическими единицами ИПТ, которые используются при составлении стратегии поиска. Парадигматические отношения- это логические и ассоциативные отношения между ЛЕ ИПЯ. 3. служить терминологическим пособием. ИПТ – это нормативный словарь дескрипторного ИПЯ с зафиксированными в нём парадигматическими отношениями ЛЕ. Многоязычный ИПТ – это ИПТ содержащие ЛЕ взятые из нескольких естественных языков и представляющий эквивалентные по смыслу понятия на каждом из этих языков. Целью создания ИПТ является повышение показателя поиска информации в ИПТ. Макротезаурус – ИПТ включающий ЛЕ высокой общности и покрывающий широкую область знания. Микротезаурус – специализированный ИПТ небольшого объёма составленный на основе выборки из более полного ИПТ и дополнительно включающий конкретные русские понятия определённой тематики. Специализированный ИПТ или синоним монотематического ИПТ – ИПТ построенный для отражения области знания или практической деятельности. Политематический ИПТ – ИПТ построенный для широкой совокупности областей знания. Специализированный ИПТ – существует в большинстве науки и техники. Количество разработанных микротезаурусов исчисляется только в нашей стране в несколько тысяч. Макротезаурус и политематический ИПТ – предназначены для использования лексико-тематической основы при построении микротезауруса. Политематический ИПТ включает только основную лексику той или иной отрасли и наиболее очевидные парадигматические отношения. Микротезаурус включает специфические термины собствен. наимен. и развитую парадигмат. В состав ИПТ входит вводная часть, основная часть (лексико-семантический указатель) и дополнительные части. Вводная часть включает титульный лист и текстовые введения. Введение содержит следующие данные: 1. цель создания и область применения ИПТ; 2. ссылки на источники используемые для сбора лексики ИПТ (др. ИПТ, терминологические словари); 3. описание порядка составления ИПТ; 4. описание состава и структуры ИПТ; 5. количественные характеристики ИПТ (общее число статей, число дескрипторов и аскрипторов); 6. перечень отношений между ЛЕ и методикой основания для их установления. 7. перечень всех символов и специальных сокращений допустимых для представления ЛЕ. 8. порядок алфавитного расположения ЛЕ. 9. описание состава и формы представления дополнительных данных в словарных статьях. Лексико-семантический указатель – это основная часть ИПТ в которой в едином алфавитном ряду перечислены все дескрипторы и аскрипторы с указанием их парадигматических отношений. ЛЕ ИПТ – слово, словосочетание, или лексическое значение компонентов сложного слова естественного языка включённое в ИПТ в качестве дескриптора или аскриптора. Аскриптор (не дескриптор) – ЛЕ ИПТ которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации. В рамках дескрипторной статьи термины располагаются в следующем порядке: 1. заглавный дескриптор выделен при помощи шрифта. Например заглавными буквами; 2. дополнительные данные; 3. лексическое примечание (краткое объяснение уточнение значения дескриптора); 4. аскрипторы или дескрипторы синонимы (которые следуют за индексом «С»); 5. вышестоящие дескрипторы следующие за индексом «в»; 6. нижестоящие дескрипторы следующие за индексом «а»; 7. дескрипторы связанные другими видами отношений. Вышестоящий дескриптор, широкий дескриптор- это дескриптор обозначающий либо родовое понятие, либо целое по отношению к данному дескриптору обозначающий часть этого целого. Нижестоящий дескриптор или узкий дескриптор - дескриптор обозначающий либо видовое понятие, либо часть представляющую вышестоящий дескриптор. Ассоциативный дескриптор – дескриптор связанный с другими семантической связью характер которой не указан.Основными типами связи является: причина-следствие, процесс-объект, функциональное сходство, антонимия. Неоднозначность ЛЕ устраняется релятором или лексическим примечанием. Релятор является ЛЕ и поясняет её значение относя её к определённой понятийной категории или предметно-тематической области. Дополнительные части ИПТ: - систематический указатель; - иерархический и другие указатели и списки специальных категорий ЛЕ. Дополнительные указатели служат для раскрытия учёта и контроля парадигматических отношений между дескрипторами, что требуется при составлении поисковых предписаний. Списки указателей являются перечнем дескрипторов сгруппированных согласно принятой в ИПТ рубрикации. При построении систематического указателя используется следующая общая категория: 1. название дисциплин и отраслей деятельности; 2. предметы, материалы; 3. методы, процессы, операции, явления; 4. свойства, величины, параметры, характеристики; 5. отношения структуры, модели, законы, правила, абстрактные понятия. Каждый дескриптор относится только к одной рубрике. Внутри рубрики дескриптор располагается в алфавитном порядке. Иерархический – представляет собой перечень списков дескрипторов, причём каждый список начинается с дескриптора не имеющего вышестоящих. После каждого дескриптора приведены непосредственно нижестоящие дескрипторы с указанием иерархических , путём применения нумерации. Либо графические обозначения уровня. Основные преимущества дескрипторных ИПЯ: Меньшая по сравнению с классификационным ИПЯ трудоёмкость разработки; Возможность осуществить поиск по любому заранее заданному сочетанию характеристик входящих в ИПЯ; Возможность автоматического процесса индексирования документов. Недостатки дескрипторных ИПЯ: В основных отраслях характер дескрипторного ИПЯ затрудняет их использование для обмена информацией между системами с различными ИПЯ; Неадекватное значение термина выбран в качестве дескриптора в различных дескрипторных ИПС. 2. Анализ информационно-поискового тезауруса 2.1 Информационно-поисковый тезаурус по сохранности документов (БАН) 1. Первый отечественный двуязычный тезаурус по сохранности документов, подготовленный в Библиотеке Российской академии наук. тезаурус насчитывает 5 166 терминов. Издание представляет собой образец смешанного двуязычного (русско-английского) тезауруса. Основным языком выбран английский. Это значит, что в качестве дескрипторов выбраны английские термины, а русские термины приводятся как синонимы. Настоящий информационно-поисковый тезаурус предназначен для индексирования документов и обработки запросов по обеспечению сохранности (хранению) документов в традиционных и нетрадиционных информационных системах. Тезаурус может использоваться как специальный двуязычный словарь при выполнении переводов с русского на английский и с английского на русский язык, а также как терминологический словарь справочник. В состав тезауруса входят: - лексико-семантический указатель; - иерархический указатель; - хронологический идентификатор. 2.Дескрипторы часто определяют как классы условной эквивалентности терминов, поскольку имеется поисковая и обычная (общеязыковая) эквивалентность языковых единиц, и эти два вида лексической равнозначности терминов в дескрипторных словарях могут не полностью совпадать. Так, например, у лексических единиц, входящих в дескриптор «DERATISATION c. Дератизация, н. MICE, RATS», содержание понятий «мыши» и «крысы» относятся к семантическим категориям «живые организмы», «биологический фактор», а понятие «дератизация» – к лексической категории «операции». Но поскольку при проведении поиска информации различия в категориальном значении указанных слов являются не очень существенными и более важным является их информационно-поисковая эквивалентность, в тезаурусе по сохранности документов понятия «мыши» и «крысы» являются нижестоящими по отношению к термину «deratisation». В лексико-семантическом указателе тезауруса расположены дескрипторные и аскрипторные статьи. В рамках дескрипторной статьи термины располагаются в следующем порядке: - заглавные дескрипторы выделены заглавными буквами; - дополнительные данные; - аскрипторы или дескрипторы синонимы, которые следуют за индексом «с»; - вышестоящие дискрипторы следующие за индексом «в»; - нижестоящие дескрипторы следующие за индексом «н». Пример: ACCTSS CONTROL cVisitorscontrol Контроль и управление доступом вORGANIZATION OF SECURITY SISTEMS нACCESS CONTROL 3. В дескрипторных статьях тезауруса отсутствуют: - лексическое примечание; - дескрипторы связанные другими видами отношений. 2.2 Тезаурус терминов по морскому делу и парусному туризму. (информационно-поисковый тезаурус). Составитель В.Н. Белозеров. Москва 2001 1. Тезаурус содержит около 2200 терминов с определениями и тезаурусными связями. Настоящий словарь-справочник по морскому делу и парусному туризму является терминологическим словарем, в котором для каждого термина дано его определение, при необходимости — примечания о характере использования, а также семантические связи с другим понятиями. Наличие явного указания на семантические связи понятий в совокупности с раскрытием их содержания в определениях и комментариях позволяет использовать словарь как "программированный учебник", который ведет читателя от слова к слову, сообщая сведения о понятиях всей сферы интереса. В состав словаря входит вся специальная терминология, необходимая для изложения материала по организации и проведению туристских плаваний на транспортабельных разборных судах по внутренним водоемам и прибрежным районам морей. Терминология этого вида деятельности дополнена лексикой классического парусного дела, парусного спорта, навигации, гидрографии, организации морских перевозок, что позволяет использовать словарь как справочник по морскому делу в целом. Словарь состоит из настоящего введения и алфавитного лексико-семантического указателя терминологии. Элементом алфавитного указателя является словарная статья, состоящая из заглавной лексической единицы, определения, примечания и ссылок. Тематику словаря можно отнести к следующим рубрикам Государственного рубрикатора научно-технической информации: · 71.37.01 Общие вопросы туристско-экскурсионного обслуживания · 73.34.01 Общие вопросы водного транспорта · 77.01.33 Терминология. Справочники, словари, учебная литература по физической культуре и спорту · 77.29.32 Парусный спорт. Виндсерфинг · 77.29.33 Спортивный туризм 2. Заглавная лексическая единица возглавляет словарную статью и в дескрипторных статьях выделена заглавными (прописными) буквами. В некоторых случаях в состав заглавной лексической единицы включены факультативные пояснительные слова в круглых скобках. Например: "УЗЕЛ (скорость)" в отличие от "УЗЕЛ (на тросе)". Определение следует непосредственно после заглавной лексической единицы, отделено от нее тире и набрано шрифтом с уменьшенной высотой букв (в настоящем варианте петит не реализован). В некоторых случаях, когда определение термина очевидно из его внутренней формы, оно не приводится. В тех же случаях, когда термин можно определить с разных сторон и лишь в совокупности соответствующие определения описывают понятие, приводятся два или даже три определения, разделенные точкой с запятой. Например: обычное определение: КЛИВЕР — треугольный косой парус, передняя шкаторина которого крепится к кливер-лееру, соединяющему стеньгу с ноком бушприта или утлегарем. определение опущено: ДАЛЬНОСТЬ ВИДИМОСТИ — два определения (со стороны значения и со стороны формы): АЗ — флаг ВМСС, обозначающий русскую букву А; красный с косицами и белым квадратом у древка. Важной частью статьи являются ссылки на другие термины или другие формы того же термина. Они позволяют знакомиться с содержанием тезауруса методом "навигации" по ссылкам и уточняют значение терминов, дополнительно раскрывая его через связи термина (набранного обычным светлым шрифтом). Если в статье приводится два или более ссылочных термина, имеющих одинаковый характер связи с заглавной лексической единицей, обозначение ссылки приводится только один раз в первой из строк. Все термины, указанные в ссылках, являются заглавными лексическими единицами соответствующих статей, в которых можно получить дополнительную информацию о данном термине. Исключение составляют ссылки на обозначения и аббревиатуры. В настоящем тезаурусе используются следующие виды ссылок, которые располагаются в указанном ниже порядке: с — в дескрипторной статье указывает на синонимичный аскриптор; см — в аскрипторной статье указывает на синонимичный дескриптор; исп — в аскрипторной статье указывает на несколько дескрипторов, среди которых нужно выбрать один, наиболее точно выражающий интересующее читателя понятие; об — условное обозначение данного понятия; вр — вышестоящее родовое понятие; вц — вышестоящий термин, обозначающий объект, включающий в себя данное понятие в качестве своей составной части; вм — множество, один из элементов которого обозначается заглавной лексической единицей; нв — нижестоящее видовое понятие; нч — нижестоящий термин, обозначающий часть объекта, выраженного заглавной лексической единицей; нэ — нижестоящий термин, обозначающий один из элементов множества, выраженного заглавной лексической единицей; асх — ассоциация по сходству объектов или понятий; асм — ассоциация по смежности объектов, процессов или явлений; ант — антоним, т.е. "противоположное" понятие; ср — ссылка на аскриптор, предлагающий данную заглавную лексическую единицу в качестве одной из альтернатив для выбора точного термина. Пример: АЗИМУТ - направление в пространстве, выраженное относительно стран света вр: направление нв: азимут светила; истинный азимут; компасный азимут; магнитный азимут; асх: пеленг; румб асм: круговая система азимутов; румбовая система азимутов; четвертная система азимутов 3. Настоящий словарь, рассматриваемый как тезаурус, подготовлен в соответствии с ГОСТ 7.25 — 80. СПИСОК ЛИТЕРАТУРЫ 1. ГОСТ 7.24-90. Тезаурус информационно-поисковый многоязычный. 2. ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. 3. ГОСТ 7.74-96. Информационно-поисковые языки. Термины и определения. |