Обзор исследований в области баз данных и информационных ресурсов

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

Современная лингвистика характеризуется направленностью многих исследований на решение прикладных задач. Подобное положение дел связано с необходимостью ответа на вызовы внешней среды: информационные з

апросы общества, решение проблем коммуникативного взаимодействия, разработку информационных и телекоммуникационных новых технологий.

В настоящее время изменяются представления о роли информации в жизни как отдельного человека, так и общества в целом. Информация приобретает статус ресурса на первых этапах развития информационного общества, и эта ситуация неизбежно влечет за собой необходимость хранения больших объемов информации, что, в свою очередь, приводит к возникновению новой проблемы, связанной с ее организацией и систематизацией.

В науке, и в частности в лингвистике, потребность в создании информационных систем связана с тем, что широкий доступ к необходимой исследователю информации позволяет осуществлять более результативные действия, дает возможность эффективно управлять информационными потоками. Именно поэтому актуальной задачей становится разработка междисциплинарных методик, позволяющих осуществлять аналитическую обработку информации, и поиск способов ее структурирования для эффективного хранения и обработки.

Оптимальными в этой связи представляются технологии баз данных -

(БД), позволяющие создавать структурированные массивы данных, хранимые и управляемые с применением компьютерных технологий, используемые для создания и функционирования эффективных информационных систем.

Цель настоящей работы –провести обзор исследований в области баз данных и информационных ресурсов рассмотреть возможности их использования.

Задачи:

  • Рассмотреть лингвистику как объект информационного отражения, определив те ее черты, которые обуславливают особенности и состав информационных ресурсов в этой области.
  • Изучить историю развития БД выделить и охарактеризовать основные возможности, функции и преимущества.

Объект - информационные ресурсы в области лингвистики и базы данных.

Предмет - закономерности формирования, особенности и пути развития информационных ресурсов в области лингвистики и баз данных.

Глава 1. БАЗЫ ДАННЫХ

1.1 История развития базы данных

Базы данных использовались в вычислительной технике с незапамятных времен. В первых компьютерах использовались два вида внешних устройств –магнитные ленты и магнитные барабаны. Емкость магнитных лент была достаточно велика. Устройства для чтения-записи магнитных лент обеспечивали последовательный доступ к данным. Для чтения информации, которая находилась в середине или конце магнитной ленты, необходимо было сначала прочитать весь предыдущий участок. Следствием этого являлось чрезвычайно низкая производительность операций ввода-вывода данных во внешнюю память. Магнитные барабаны давали возможность произвольного доступа, но имели ограниченный объем хранимой информации.

Разумеется, говорить о какой-либо системе управления данными во внешней памяти, в тот момент не приходилось. Каждая прикладная программа, которой требовалось хранить данные во внешней памяти, сама определяла расположение каждого блока на магнитной ленте. Прикладная программа также брала на себя функции информационного обмена между оперативной памятью и устройствами внешней памяти с помощью программно-аппаратных средств низкого уровня. Такой режим работы не позволяет или очень затрудняет поддержку на одном носителе нескольких архивов долговременно хранимой информации. Кроме того, каждой прикладной программе приходилось решать проблемы именования частей данных и структуризации во внешней памяти.

История БД фактически началась с появлением магнитных дисков. Такие устройства внешней памяти обладали существенно большей емкостью, чем магнитная лента и барабаны, а также обеспечивали во много раз большую скорость доступа в режиме произвольной выборки. В отличие от современных систем управления, которые могут применяться для самых различных баз данных, подавляющее большинство ранее разработанных СУБД были тесно связаны с пользовательской базой для того, чтобы увеличить скорость работы, хоть и в ущерб гибкости.

Первоначально СУБД применялись только в крупных организациях с мощной аппаратной поддержкой, необходимой для работы с большими объемами данных.

Современные авторы часто употребляют термины "банк данных" и "база данных" как синонимы, однако в общеотраслевых руководящих материалах по созданию банков данных Государственного комитета по науке и технике (ГКНТ), изданных в 1982 г., эти понятия различаются.

Там приводятся следующие определения банка данных, базы данных и СУБД:

Банк данных (БнД) - это система специальным образом организованных данных - баз данных, программных, технических, языковых, организационно-методических средств, предназначенных для обеспечения централизованного накопления и коллективного многоцелевого использования данных.

База данных (БД) - именованная совокупность данных, отражающая состояние объектов и их отношений в рассматриваемой предметной области.

Система управления базами данных (СУБД) - совокупность языковых и программных средств, предназначенных для создания, ведения и совместного использования БД многими пользователями.

1.2 Основные понятия

В современных базах данных хранятся не только данные, но и информация.

База данных (БД)–организованная структура, предназначенная для хранения информации. Современные БД позволяют размещать в своих структурах не только данные, но и методы (т.е. программный код), с помощью которых происходит взаимодействие с потребителем или другими программно-аппаратными комплексами.

Системы управления базами данных (СУБД) –комплекс программных средств, предназначенных для создания структуры новой базы, наполнения ее содержанием, редактирования содержимого и визуализации информации. Под визуализацией информации базы понимается отбор отображаемых данных в соответствии с заданным критерием, их упорядочение, оформление и последующая выдача на устройство вывода или передача по каналам связи.

Существует много систем управления базами данных. Они могут по-разному работать с разными объектами и предоставляют пользователю разные функции и средства. Большинство СУБД опираются на единый устоявшийся комплекс основных понятий.

1.3 Структура простейших баз данных

Если в БД нет никаких данных (пустая база), то это все равно полноценная БД, так как она содержит информацию о структуре базы.

Структура базы определяет методы занесения данных и хранения их в базе. БД могут содержать различные объекты. Основными объектами БД являются таблицы. Простейшая база данных имеет хотя бы одну таблицу. Структура простейшей базы данных тождественно равна структуре ее таблицы.

Структуру двумерной таблицы образуют столбцы и строки. Их аналогами в структуре простейшей базы данных являются поля и записи.

Если записей в таблице нет, то ее структура образована набором полей. Изменив состав полей базовой таблицы (или их свойства), тем самым изменяем структуру данных, и, соответственно, получаем новую базу данных.

Поля БД определяют групповые свойства данных, записываемых в ячейки, принадлежащие каждому из полей. Например, свойства полей могут быть такими: имя поля, тип поля, размер поля, формат поля, маска ввода, подпись, значение по умолчанию, условие на значение, обязательное поле, индексированное поде, пустые строки, и т.д. Типы данных: текстовый, числовой, денежный, дата/время, счетчик, поле мемо (большой объем текста), логический, поле объекта OLE (для мультимедийных объектов), гиперссылка, место подстановок.

1.4 Режимы работы с базами данных

Обычно с БД работают две категории исполнителей:

•Проектировщики –разрабатывают структуру таблиц базы и согласовывают ее с заказчиком; разрабатывают объекты, предназначенные для автоматизации работы и ограничения функциональных возможностей работы с базой (из соображений безопасности);

•Пользователи –работают с базами данных, наполняют ее и обслуживают.

СУБД имеет два режима: проектировочный и пользовательский.

В проектировочном режиме создаются и изменяются структура базы и ее объекты. В пользовательском используются ранее подготовленные объекты для наполнения БД или получения данных из нее.

1.5 Объекты базы данных

БД может содержать разные типы объектов. Каждая СУБД может реализовывать свои типы объектов.

Таблицы –основные объекты любой БД, в которых хранятся все данные, имеющиеся в базе, и хранится сама структура базы (поля, их типы и свойства).

Отчеты –предназначены для вывода данных, причем для вывода не на экран, а на печатающее устройство (принтер). В них приняты специальные меры для группирования выводимых данных и для вывода специальных элементов оформления, характерных для печатных документов (верхний и нижний колонтитулы, номера страниц, время создания отчета и другое).

Страницы или страницы доступа к данным –специальные объекты БД, выполненные в коде HTML , размещаемые на web -странице и передаваемые клиенту вместе с ней. Сам по себе объект не является БД, посетитель может с ее помощью просматривать записи базы в полях страницы доступа. Т.о., страницы –интерфейс между клиентом, сервером и базой данных, размещенным на сервере.

Макросы и модули –предназначены для автоматизации повторяющихся операций при работе с системой управления БД, так и для создания новых функций путем программирования. Макросы состоят из последовательности внутренних команд СУБД и являются одним из средств автоматизации работы с базой. Модули создаются средствами внешнего языка программирования. Это одно из средств, с помощью которых разработчик БД может заложить в нее нестандартные функциональные возможности, удовлетворить специфические требования заказчика, повысить быстродействие системы управления, уровень ее защищенности.

1.6 Запросы и формы

Запросы –служат для извлечения данных из таблиц и предоставления их пользователю в удобном виде. С их помощью выполняют отбор данных, их сортировку и фильтрацию. Можно выполнить преобразование данных по заданному алгоритму, создавать новые таблицы, выполнять автоматическое заполнение таблиц данными, импортированными из других источников, выполнять простейшие вычисления в таблицах и многое другое.

Особенность запросов состоит в том, что они черпают данные из базовых таблиц и создают на их основе временную результирующую таблицу ( моментальный снимок )–образ отобранных из базовых таблиц полей и записей. Работа с образом происходит быстрее и эффективнее, нежели с таблицами, хранящимися на жестком диске.

Обновление БД тоже можно осуществить посредством запроса. В базовые таблицы все данные вносятся в порядке поступления, т.е. они не упорядочены. Но по соответствующему запросу можно получить отсортированные и отфильтрованные нужным образом данные.

Формы –средства для ввода данных, предоставляющие пользователю необходимые для заполнения поля. В них можно разместить специальные элементы управления (счетчики, раскрывающиеся списки, переключатели, флажки и прочее) для автоматизации ввода. Пример, заполнение определенных полей бланка. При выводе данных с помощью форм можно применять специальные средства их оформления [Гендина: 1992, 38].

Глава 2. СИСТЕМА УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ

2.1 История развития СУБД

Рост производительности персональных вычислительных машин спровоцировал развитие СУБД, как отдельного класса. К середине 60-х годов прошлого века уже существовало большое количество коммерческих СУБД. Интерес к базам данных увеличивался все больше, так что данная сфера нуждалась в стандартизации. Автор комплексной базы данных Integrated Data Store Чарльз Бахман (Charles Bachman) организовал целевую группу DTG (Data Base Task Group) для утверждения особенностей и организации стандартов БД в рамках CODASYL - группы, которая отвечала за стандартизацию языка программирования COBOL. Уже в 1971 году был представлен свод утверждений и замечаний, который был назван Подход CODASYL, и спустя некоторое время появились первые успешные коммерческие продукты, изготовленные с учетом замечаний вышеупомянутой рабочей группы. В 1968 году отметилась и компания IBM, которая представила собственную СУБД под названием IMS. Фактически данный продукт представлял собой компиляцию утилит, которые использовались с системами System/360 на шаттлах Аполлон. Решение было разработано согласно коцпетам CODASYL, но при этом была применена строгая иерархия для структуризации данных. В свою очередь в варианте CODASYL за базис была взята сетевая СУБД. Оба варианта, меж тем, были приняты сообществом позднее как классические варианты организации работы СУБД, а сам Чарльз Бахман в 1973 году получил премию Тьюринга за работу Программист как навигатор. В 1970 году сотрудник компании IBM Эдгар Кодд, работавший в одном из отделений Сан Хосе (США), в котором занимались разработкой систем хранения, написал ряд статей, касающихся навигационных моделей СУБД. Заинтересовавшись вопросом он разработал и изложил несколько инновационных подходов касательно оптимальной организаци систем управления БД. Работа Кодда внесла значительный вклад в развитие СУБД и является действительным основоположником теории реляционных баз данных. Уже 1981 году Э.Ф.Кодд создал реляционную модель данных и применил к ней операции реляционной алгебры.

2.2 Классификация

В зависимости от архитектуры построения системы управления базами СУБД могут подразделяться на следующие типы:

1.Иерархические

2.Многомерные

3.Реляционные

4.Сетевые

5.Объектно-ориентированные

6.Объектно-реляционные

2.3 Файловые системы

Представим себе, что имеется некоторый носитель информации определенной емкости, устройство для чтения-записи на этот носитель в режиме произвольного доступа и прикладные программы, которые используют конкретный носитель для ввода-вывода информации во внешнюю память. В этом случае, каждая прикладная программа должна знать где и в каком месте хранятся необходимые данные. Так как прикладных программ больше, чем носителей информации, то несколько прикладных программ могут использовать один накопитель. Что произойдет, если одной из прикладных программ потребуется дозаписать свои данные на диск? Может произойти наложение: ситуация в которой данные одной программы будут перезаписаны другой программой. Важным шагом в развитии информационных систем явился переход к использованию централизованных систем управления файлами. С точки зрения прикладной программы, файл –именованная область внешней памяти, в которую можно записывать данные, и из которой можно их считывать. Для того чтобы была возможность считать информацию из какой либо области внешней памяти необходимо знать имя этого сектора(имя файла), размер самой области и его физическое расположение. Сама система управления файлами выполняет следующие функции:

- распределение внешней памяти;

- отображение имеет файлов в соответствующие адреса во внешней памяти;

- обеспечение доступа к данным.

Рассмотрение особенностей реализации отдельных систем управления файлами выходит за рамки данной темы. На данном этапе достаточно знать, что прикладные программы видят файл как линейную последовательность записей и могут выполнить над ним ряд операций. Основные операции сфайлами в СУФ:

- создать файл (определенного типа и размера)

- открыть ранее созданный файл

- прочитать из файла определенную запись

- изменить запись

- добавить запись в конец файла.

2.4 СУБД крупных ЭВМ

Данный этап развития связан с организацией баз данных на больших машинах типа IBM 360/370, ЕС-ЭВМ и различных моделях фирмы Hewlett Packard. В таком случае информация хранилась во внешней памяти центральной ЭВМ. Пользователями баз данных были фактически задачи, запускаемые в основном в пакетном режиме. Интерактивный режим доступа обеспечивался с помощью консольных терминалов, которые не обладали собственными вычислительными ресурсами (процессором, оперативной памятью, внешней памятью) и служили только устройствами ввода-вывода для центральной ЭВМ. Программы доступа к БД писались на различных языках программирования и запускались как обычные числовые программы. Особенности данного этапа:

Все СУБД базируются на мощных мультипрограммных ОС (Unix и др.).

  • Поддерживается работа с централизованной БД в режиме распределенного доступа. Функции управления распределением ресурсов выполняются операционной системой.
  • Поддерживаются языки низкого манипулирования данными, ориентированные на навигационные методы доступа к данным. Значительная роль отводится администрированию данных.
  • Проводятся серьезные работы по обоснованию и формализации реляционной модели данных. Была создана первая система (System R), реализующая идеологию реляционной модели данных.
  • Проводятся теоретические работы по оптимизации запросов и управлению распределенным доступом к централизованной БД, было введено понятие транзакции.
  • Большой поток публикаций по всем вопросам теории БД. Результаты научных исследований активно внедряются в коммерческие СУБД.

Появляются первые языки высокого уровня для работы с реляционной моделью данных (SQL), однако отсутствуют стандарты для этих языков.

2.5 Настольные СУБД

Компьютеры стали ближе и доступнее каждому пользователю. Исчез благоговейный страх рядовых пользователей перед непонятными и сложными языками программирования. Появилось множество программ, предназначенных для работы неподготовленных пользователей. Простыми и понятными стали операции копирования файлов и переноса информации с одного компьютера на другой, распечатка текстов, таблиц и других документов. Системные программисты были отодвинуты на второй план. Каждый пользователь мог себя почувствовать полным хозяином этого мощного и удобного устройства, позволяющего автоматизировать многие аспекты собственной деятельности. И, конечно, это сказалось и на работе с базами данных. Новоявленные СУБД позволяли хранить значительные объемы информации, они имели удобный интерфейс для заполнения, встроенные средства для генерации различных отчетов. Эти программы позволяли автоматизировать многие учетные функции, которые раньше велись вручную. Постоянное снижение цен на персональные компьютеры сделало такое ПО доступным не только для организаций и фирм, но и для отдельных пользователей. Компьютеры стали инструментом для ведения документации и собственных учетных функций. Это все сыграло как положительную, так и отрицательную роль в области развития баз данных. Кажущаяся простота и доступность персональных компьютеров и их программного обеспечения породила множество дилетантов. Много было создано систем-однодневок, которые не отвечали законам развития и взаимосвязи реальных объектов. Однако доступность персональных компьютеров заставила пользователей из многих областей знаний, которые ранее не применяли вычислительную технику в своей деятельности, обратиться к ним. И спрос на развитые удобные программы обработки данных заставлял поставщиков программного обеспечения поставлять все новые системы, которые принято называть настольными СУБД. Значительная конкуренция среди поставщиков заставляла совершенствовать эти конфигурации, предлагая новые возможности, улучшая интерфейс и быстродействие систем, снижая их стоимость. Наличие на рынке большого числа СУБД, выполняющих сходные функции, потребовало разработки методов экспорта-импорта данных для этих систем и открытия форматов хранения данных. Но и в этот период появлялись любители, которые вопреки здравому смыслу разрабатывали собственные СУБД, используя стандартные языки программирования. Это был тупиковый вариант, потому что дальнейшее развитие показало, что перенести данные из нестандартных форматов в новые СУБД было гораздо труднее, а в некоторых случаях требовало таких трудозатрат, что легче было бы все разработать заново, но данные все равно надо было переносить на новую более перспективную СУБД. И это тоже было результатом недооценки тех функции, которые должна была выполнять СУБД. Особенности этого этапа следующие:

Стандартизация высокоуровневых языков манипулирования данными (разработка и внедрение стандарта SQL92 во все СУБД).

Все СУБД были рассчитаны на создание БД в основном с монопольным доступом. И это понятно. Компьютер персональный, он не был подсоединен к сети, и база данных на нем создавалась для работы одного пользователя. В редких случаях предполагалась последовательная работа нескольких пользователей, например, сначала оператор, который вводил бухгалтерские документы, а потом главбух, который определял проводки, соответствующие первичным документам.

Большинство СУБД имели развитый и удобный пользовательский интерфейс. В большинстве существовал интерактивный режим работы с БД как в рамках описания БД, так и в рамках проектирования запросов. Кроме того, большинство СУБД предлагали развитый и удобный инструментарий для разработки готовых приложений без программирования.

Во всех настольных СУБД поддерживался только внешний уровень представления реляционной модели, то есть только внешний табличный вид структур данных.

При наличии высокоуровневых языков манипулирования данными типа реляционной алгебры и SQL в настольных СУБД поддерживались низкоуровневые языки на уровне отдельных строк таблиц.

В настольных СУБД отсутствовали средства поддержки ссылочной и структурной целостности базы данных. Эти функции должны были выполнять приложения, однако скудость средств разработки приложений иногда не позволяла это сделать, и в этом случае эти функции должны были выполняться пользователем, требуя от него дополнительного контроля при вводе и изменении информации, хранящейся в БД.

Наличие монопольного режима работы фактически привело к вырождению функций администрирования БД.

Сравнительно скромные требования к аппаратному обеспечению со стороны настольных СУБД. Вполне работоспособные приложения, разработанные, например, на Clipper, работали на PC 286. В принципе, их даже трудно назвать полноценными СУБД. Яркие представители этого семейства —очень широко использовавшиеся до недавнего времени СУБД Dbase (DbaseIII+, DbaseIV), FoxPro, Clipper, Paradox [Мамудян: 1985, 55].

Глава 3. ЛИНГВИСТИЧЕСКИЕ ИНФОРМАЦИОННЫЕ РЕСУРСЫ

3.1 Лингвистика как объект информационного отражения

Лингвистика - одна из самых динамично развивающихся наук XX века, от достижений которой во многом зависят развитие и совершенствование информационных технологий. Активное использование результатов лингвистических исследований в обществе непосредственно связано с рационально организованными информационными ресурсами в этой области (ИР Л).

Библиотеки и другие информационные службы призваны обеспечивать функционирование ИРЛ. Однако до сих пор в отечественных библиотечно-библиографических теории и практике эта проблема почти не рассматривалась.

Сложилась парадоксальная ситуация: библиотекари, библиографы, работники информационных центров не имеют четкого представления о составе, содержании и особенностях ИРЛ, основная часть которых создается в недрах науки о языке.

Достаточно отметить, что в программах библиотечно-информационных факультетов специальное изучение ИРЛ не предусматривается, и этим во многом объясняется отсутствие необходимой информации. Очевидно, что попытка комплексного изучения ИРЛ представляется необходимой и своевременной.

Изучение структуры и особенностей ИРЛ становится все более необходимым в связи с глобализацией мирового сообщества и активной интеграцией России в мировое информационное и культурное пространство.

Термин «информационные ресурсы» ( ИР ) вводится в употребление в специальной литературе с 70 - х годов XX века, но широкое распространение получает после выхода в свет монографии Г.Ф. Громова «Национальные ИР», в которой автор пишет: «ИР - продукт интеллектуальной деятельности наиболее квалифицированной части трудоспособного населения страны» Ранее в библиотечной отрасли активно употреблялся термин « библиотечно - библиографические ресурсы».

Лингвистические информационные ресурсы –одна из составляющих информационных ресурсов. Под информационным ресурсом понимают некоторый интеллектуальный ресурс, результат коллективного творчества К пассивным формам информационных ресурсов относят книги, журналы, газеты, словари, энциклопедии, патенты, базы и банки данных и т.п. Активные формы включают алгоритмы, модели, программы, базы знаний Лингвистические информационные ресурсы —это множество определенным образом организованных речевых и языковых данных, находящихся на машинных носителях информации и используемых в различных сферах практической деятельности (образовании, промышленности, экономике, культуре, искусстве, издательстве. В самом общем виде ЛИР –это своеобразная лингвистические БД, которые можно обновлять и в которых можно искать ту или иную информацию. Лингвистические ресурсы необходимы как пользователям ПК, так и различным компьютерным системам, связанным с обработкой текста речи: реферирования, аннотирования и перевода текстов, автоматического анализа текста, синтеза речи и текста[ Мельников:1989, 30].

3.2 Пассивные лингвистические информационные ресурсы

Пассивные ЛИР включают:

1)   Письменный лексикон представлен одноязычными и многоязычными лексиконами. В общем смысле словарь —это справочная книга, которая содержит слова (морфемы, словосочетания, идиомы и т.п.), расположенные в определенном порядке (различном в разных типах словарей). В нем может содержаться толкование значения описываемых единиц, а также различная информацию о них. Любой словарь может быть представлен в виде реляционной БД

а)  частотно-алфавитный словарь словоформ какого-либо текста –простейшая лингвистическая БД;

б)   словоуказатель –более сложная БД. В ней, кроме абсолютной частоты употребления словоформы в тексте, указываются номера страниц и строк на странице, где встретилась данная словоформа.

в)  конкордансы –ещё более сложный тип БД. В них каждая словоформа текста характеризуется не только численными показателями (частотой, номером страницы, номером строки и т.д.), но и некоторым контекстом, в котором она употреблена. Как правило, этот контекст состоит из 3-х предложений: предложения, в котором встретилась словоформа, предложения, стоящего перед основным предложением, и предложения, стоящего после него

г) энциклопедии –словари, содержащие характеристики не слова как такового, а обозначенного им предмета, факта или явления. Существует достаточно большое число различных энциклопедий на машинных носителях информации. Наиболее известна среди них энциклопедия «Britannica». Она включает 82000 статей и 700 дополнительных материалов, опубликованных с 1768 года. Не менее известны французские энциклопедии «Tons les savoire du Monde», «Le monde sur CD-ROM», «Versailles» и др. На русском языке издана «Большая Энциклопедия Кирилла и Мефодия»

д) тезаурус —принципиально иной тип словарей. В нем в явном виде указаны семантические связи между определенной частью его лексических единиц. Как правило, такие словари строятся для текстов достаточно узкой проблемной области: вычислительной техники, музыки, кораблестроения, сельского хозяйства и т.д.

е) терминологическим словарь (ТС) –словарь, основной единицей которого является термин. Термин —это слово или подчинительное словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое процессе познания и освоения научных и профессионально-технических объектов и отношений между ними.

2)  Письменный текстовый массив (корпус текстов, т.е. совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке, диалекте или ином другом подмножестве языка). а) быть использованы:

- В лексикографии и лексикологии (для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте, выделения терминов и терминологических словосочетаний и т.п.).

-  В грамматике (для определения частоты употребления грамматических морфем в текстах различного типа, выявления наиболее употребляемых типов словосочетаний и предложений, определения значений синонимичных морфологических единиц, частоты употребления классов слов и т.д.).

- В лингвистике текста (для дифференциации типов текста, создания конкордансов, выявления связи между предложениями в абзацах и между абзацами «т.д.).

- При автоматическом переводе текстов (для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов терминологических и фразеологических словосочетаний в параллельных текстах и т.д.).

-  В учебных целях (для выбора цитат, отдельных фрагментов произведений, примеров, используемых в процессе создания учебников и учебных пособий. б) таггированные корпусы текстов (от англ, tag —‘индекс, помета’). Все слова такого корпуса получают некоторые буквенные или цифровые индексы, которые обозначают их грамматические, лексические, семантические или структурные признаки. Таких индексов может быть несколько.

3)  Фонетические лингвистические ресурсы

В настоящее время общепринято, что для создания машиночитаемых фонетических корпусов используется транскрипция на основе орфографического представления звуков речи с дополнительными знаками, передающими (при необходимости) просодические, паралингвистические и другие особенности произношения. а) Фонетические корпусы текстов широко используются для решения следующих задач:

-  сопоставительного изучения устной и письменной форм языка;

- изучения грамматических и лексических особенностей устной речи;

- исследования фонетических особенностей диалектов;

-  построения частотных списков фонем и их сочетаний;

- изучения акустических свойств речевых единиц и их использования в психолингвистических и лингвистических экспериментах;

- создания компьютерных систем, распознавания и синтеза устной речи.[ Михайлов: 1976,7]

ЗАКЛЮЧЕНИЕ

База данных не является понятием собственно лингвистики. Это понятие общее для всех информационных технологий. База данных –это структурированная совокупность взаимосвязанных данных в рамках некоторой предметной области, предназначенная для длительного хранения во внешней (не оперативной) памяти компьютера и постоянного применения. Тем не менее создание базы данных –ключевая технология компьютерной лексикографии. Современные словари создаются на основе хранимых в памяти компьютера контекстов, для их создания используют программы, позволяющие формальным образом представить морфологические, словообразовательные, синтаксические и даже семантические характеристики слова.

Знания, которые необходимо усвоить в филологических вузах, в большом количестве содержаться на магнитных носителях и в сети интернет.

Преимущества использования БД :

Рассмотрим, какие преимущества получает пользователь при использовании БД как безбумажной технологии: 

· Компактность (Информация хранится в БД, нет необходимости хранить многотомные бумажные картотеки)

·Скорость (Скорость обработки информации (поиск, внесение изменений) компьютером намного выше ручной обработки)

· Низкие трудозатраты (Нет необходимости в утомительной ручной работе над данными)

·  применимость (Всегда доступна свежая информация) 

Дополнительные преимущества появляются при использовании БД в многопользовательской среде, поскольку становится возможным осуществлять централизованное управление данными. Современные системы управления базами данных обеспечивают как физическую (независимость от способа хранения и метода доступа), так и логическую независимость данных (возможность изменения одного приложения без изменения остальных приложений, работающих с этими же данными). Современные СУБД дают возможность включать в них не только текстовую и графическую информацию, но и звуковые фрагменты и даже видеоклипы.
Простота использования СУБД позволяет создавать новые базы данных, не прибегая к программированию, а пользуясь только встроенными функциями. СУБД обеспечивают правильность, полноту и непротиворечивость данных, а также удобный доступ к ним.

Популярные СУБД - FoxPro, Access for Windows, Paradox. Для менее сложных применений вместо СУБД используются информационно-поисковые системы (ИПС), которые выполняют следующие функции:

·  хранение большого объема информации;

·   быстрый поиск требуемой информации;

·  добавление, удаление и изменение хранимой информации;

·  вывод ее в удобном для человека виде.

В работе показано соотношение между общепринятыми понятиями «база данных», «система управления базами данных» и современными «лингвистическими информационными ресурсами». Достаточно подробно представлены пути поиска и извлечения таких знаний.

Выполнены все поставленные задачи, такие как:

  • Рассмотреть лингвистику как объект информационного отражения, определив те ее черты, которые обуславливают особенности и состав информационных ресурсов в этой области.
  • Изучить историю развития БД выделить и охарактеризовать основные возможности, функции и преимущества.

СПИСОК ЛИТЕРАТУРЫ

  • Гендина Н.И. Лингвистические средства автоматизации документального потока. СПб.: изд. отд. б - ки РАН, 1992. - 188с.
  • Диахроническая лингвистика и история лингвистических учений. М.: изд-воМГУ, 1988. -235 с.
  • Кондрашов H.A. История лингвистических учений: Учеб. М.: Просвещение, 1979. - 224 с.
  • Лингвистические исследования 1995г. Лексикология, лексикография, грамматика.: Сб. научн. тр./ Отв. ред. А.П. Сытов. СПб.: ИЛИРАН, 1996. - 156с
  • Мамудян М. Лингвистика. М. : Прогресс, 1985. - 200с.
  • Марчук Ю.Н., Убин И.И. Действующие системы машинного перевода и автоматические словари// Обзор, информ. Сер.2. ( Машин, перевод и автоматизация информ. процессов). - 1979. - Вып. 3. - 70с.
  • Мдивани P.P., Глинский В.А. Лингвистическое обеспечение автоматизированной системы по общественным наукам: состав и структура// Вопр. информ. теории и практики. 1985. - №52. - С. 37 -55.
  • Мелихова Л. Английский on line / / Мир Internet. - 1997. - № 11. - С. 16- 19.
  • Мельников Г.П., Преображенсикй С.Ю. Методология лингвистики. : Учеб. пособие. М. : изд - во Ун - та дружбы народов, 1989. - 88с.
  • Мелюхин И.С. Об управлении информационными ресурсами//НТИ. -Сер. 1.-1992.-N10-11. С.56 -59.
  • Методические вопросы анализа потоков информации на исследовательском этапе подготовки прогнозов// Науковедение и информатика: Межд.сб. науч.тр. Киев: Наук, думка, 1988. - Вып.32. -С.ЗЗ - 38.
  • Методические рекомендации по анализу отраслевых потоков информации/НИИ информ. по машиностроению. М.,1978. - 72с.
  • Михайлов А.И. О будущем научной информации//НТИ. Сер.1. -1985. -N1. -С.1 -3.
  • Михайлов А.И. Проблемы лингвистического обеспечения АСНТИ// Вопр. информ. теории и практики. 1984. - №51. - С. 5 -11.
  • Михайлов А.И., Черный А.И. Научная коммуникация и информатика. -М.: Наука,- 1976.-98с.


Обзор исследований в области баз данных и информационных ресурсов