<< Пред.           стр. 2 (из 8)           След. >>

Список литературы по разделу

 Сообщение может быть выражено на естественном языке, однако часто применяют форматированные сообщения, когда выделяются опорные свойства (параметры) происходящего события и в сообщении приводятся названия свойств и их значения.
 
 Пример сообщения.
 
 10.12.01 в 8:00 состоялось занятие по ТЭИС в группе 1425.
 Форматированный вариант этого сообщения
 Название параметра Значение параметра
 Дата 10.12.01
 Время 8:00
 Группа 1425
 Предмет ТЭИС
 
 Подобных сообщений поступает много, они совпадают по названиям параметров и различаются по значениям параметров. В таком случае информацию удобно представлять в виде таблиц.
 
 
 Дата Время Группа Предмет
 10.12.01 8:00 1425 ТЭИС
 10.12.01 9:30 1425 Эконометрика
 10.12.01 8:00 1435 Теория систем и системный анализ
 10.12.01 9:30 1445 Интеллектуальные информацион-ные системы
 
 Многие сообщения легко разделяются на компоненты и представляются в форматированном виде. Вместе с тем существует экономическая информация, которую трудно представить в форматированном виде, например, приказы по предприятию. Большинство форматированной информации можно представить в виде базы данных.
 База данных (БД) - это набор форматированных сообщений, которые
 являются истинными для соответствующей материальной системы;
 непротиворечивы по отношению к друг другу и к концептуальной схеме.
 Понятие базы данных можно применить к любой связанной между собой по определенному признаку информации, хранимой и организованной особым образом – как правило в виде таблиц. При этом возникает необходимость в выполнении рядя операций, в первую очередь это:
 - добавление новой информации в существующие файлы;
 - добавление новых пустых файлов;
 - модификация информации;
 - поиск информации;
 - удаление информации;
 - удаление файлов.
 Сообщения в БД обычно являются форматированными и хранятся в виде единиц информации.
 Единицей информации называется набор символов, которому придается определенный смысл. Это понятие относится в основном к базе данных, хранящей форматированные сообщения.
 Минимально необходимо две единицы информации - атрибут и составная единица информации (СЕИ).
 Атрибутом называется информационное отображение отдельного свойства некоторого объекта, процесса или явления.
 Любое сообщение записывается в форматированном виде как указание свойств (параметров) предметов, о которых мы говорим. Поэтому информационное отображение любого явления представляет собой набор соответствующим образом подобранных атрибутов.
 Составная единица информации представляет собой набор из атрибутов и, возможно, других СЕИ.
 Простейшими СЕИ являются таблицы, подобные приведенной выше. СЕИ позволяет создавать произвольные комбинации из атрибутов.
 База данных ЭИС хранится в запоминающих устройствах вычислительной системы (ЭВМ). Хранимые представления данных очень часто не соответствуют первоначальному множеству форматированных сообщений. Однако сейчас при рассмотрении БД будем считать, что сообщения хранятся в виде таблиц.
 Концептуальная схема (от слова concept - понятие) представляет собой описание структуры всех единиц информации, хранящихся в БД. Под структурой понимается вхождение одних единиц информации в состав других единиц информации.
 В рамках нашего примера можно говорить о двух единицах информации - параметре (атрибуте) и таблице (СЕИ).
 Предположим, что таблица Т соответствует всей базе данных. В концептуальной схеме должно быть указано, что БД состоит из Т, а Т содержит параметры Получатель, Отправитель, Изделие. Дата, Цена, Количество. Более содержательное представление о концептуальной схеме рассмотрим ниже.
 Информационный процессор - это механизм, который в ответ на получение команды выполняет операции с БД и концептуальной схемой. Информационный процессор состоит из вычислительной системы и системы управления базой данных СУБД.
 Под вычислительной системой будем понимать серийно выпускаемую электронно-вычислительную машину (ЭВМ) либо несколько ЭВМ, соединенных каналами связи в вычислительную сеть.
 База данных предполагает централизованное управление данными, что обеспечивает ряд преимуществ:
 • сокращение избыточности хранимых данных благодаря однократному хранению каждого сообщения в базе данных,
 • совместное использование хранимых данных всеми пользователями ЭИС,
 • стандартизацию представления данных, упрощающую проблемы эксплуатации БД и обмена данными между ЭИС,
 • обеспечение процедур проверки достоверности информации и процедур ограничения доступа к данным,
 • совмещение требований к использованию БД со стороны различных пользователей ЭИС.
 Системой управления базой данных называется комплекс программ, обеспечивающий централизованное хранение, накопление, модификацию и выдачу данных, входящих в БД.
 Предполагается, что в управлении базой данных принимает участие специальное должностное лицо - администратор базы данных.
 
 Компоненты экономической информационной системы можно представить в виде схемы (Рис.4).
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Рис. 4. Компоненты экономической информационной системы
 
 Взаимосвязанные ресурсы и процессы экономической системы можно описать в терминах предметной области.
 Предметной областью называются элементы материальной системы, информация о которых хранится и обрабатывается в ЭИС.
 В качестве предметной области можно изучать не только материальные системы, но и саму ЭИС. Выделяемые в ЭИС объекты, свойства и взаимодействия служат понятийной основой для моделей создания и функционирования ИС. Такие компоненты ИС, как база данных и программное обеспечение, не являются физическими объектами, поэтому информационное отображение ИС осуществляется в метаинформацию. Метаинформацию следует представлять как информацию об информации.
 Пользователей экономической информационной системы можно подразделить на пять типов:
 • случайные пользователи, взаимодействие которых с ЭИС не обусловлено их служебными обязанностями,
 • параметрические пользователи, которые работают с ЭИС повседневно, в соответствии с четко определенной областью деятельности, по регламентированным процедурам,
 • аналитики и исследователи, информационные потребности которых непредсказуемы (в отличие от параметрических пользователей),
 • прикладные программисты, которые разрабатывают программы для реализации запросов к базе данных. Эти программы используются в основном параметрическими пользователями,
 • системные программисты, которые разрабатывают служебные программы, расширяющие возможности операционной системы ЭВМ и СУБД, например программы разграничения доступа к данным, проверки достоверности данных, восстановления базы данных после сбоя в работе ЭВМ, программы печати документов и т.п.
 Описание хранимой и обрабатываемой информации в ЭИС делается с разной степенью детализации. Используются три уровня представления :
 1. Внешний уровень - описание информационных потребностей конечного пользователя.
 Концептуальный уровень - описание информационных потребностей на уровне понятий ЭИС.
 Внутренний уровень - описание способа хранения информации в памяти ЭВМ и методов доступа к ней.
 Внутренний уровень наиболее близок к физической памяти ЭВМ, внешний уровень наиболее близок к пользователям, а концептуальный уровень занимает промежуточное положение.
 Информационные потребности отдельного пользователя относятся лишь к небольшой части базы данных, и описание этих потребностей может не совпадать с хранимыми в ЭИС представлениями данных.
 Внешнее представление может пользоваться любым аппаратом понятий. Единственное требование состоит в возможности преобразования его в концептуальное представление. Цель концептуального уровня - создать такое формальное представление о базе данных, чтобы любое внешнее представление являлось его подмножеством. В процессе интеграции внешних представлений устраняются двусмысленности и противоречия в информационных потребностях различных пользователей. Допускается много внешних описаний, каждое из которых отображается частью базы данных, и единственное концептуальное описание, представляющее всю БД.
 Как известно, в естественном языке различаются правила написания текстов (синтаксис языка) и сами тексты (книги, статьи и т.д.). В обработке данных правила описания данных содержатся в моделях данных, а описание информации для конкретной ЭИС называется представлением, схемой или структурой.
 Принципиальными различиями обладают три модели данных - реляционная, сетевая и иерархическая, у которых разные множества допустимых информационных конструкций.
 Существующие СУБД обеспечивают реализацию возможностей этих моделей данных с теми или иными ограничениями и уточнениями, что дает повод говорить о наличии самостоятельной модели данных у каждой СУБД. Однако при создании СУБД происходит модификация модели данных исходя из удобства программной реализации системы.
 Организация данных в ЭИС рассматривается с позиций той или иной модели данных, и обычно за пределами рассмотрения остаются методы представления звуковых сигналов, изображений и т. п.
 Внутреннее описание данных определяет организацию данных в памяти ЭВМ и методы доступа к данным. Это наиболее детальное описание процессов обработки данных в ЭИС. Если ЭИС разработана с применением СУБД, то требуемые параметры внутреннего описания довольно немногочисленны. В ряде случаев применение СУБД не позволяет реализовать все требования к ЭИС (например, высокое быстродействие программ). Тогда для поддержки внутреннего уровня описания системы требуется разработка уникальных программ доступа к ним.
 
 
 § 1.3. Операции над единицами информации.
 Экономические показатели
 
 Нами уже определены такие единицы информации как атрибут и СЕИ. Атрибут имеет имя и значение. Все допустимые значения атрибута образуют множество, называемое доменом. СЕИ характеризуется именем, структурой и значением. Имя СЕИ – это ее условное обозначение в процессах обработки информации. Структурой СЕИ называется вхождение одних единиц информации в состав других единиц информации.
 Аппарат СЕИ рассчитан на описание структуры экономических документов. Документом называют материальный носитель информации, содержащий оформленные в установленном порядке сообщения и имеющий юридическую силу. Для описания структуры СЕИ указывают после имени СЕИ список имен входящих в СЕИ атрибутов и других СЕИ и их размерность. Например, на рис.5 представлен документ со следующей схемой:
 А1(2).(В, С, А2(3).(М, Н, Р))
 Существует ряд операций, которые можно выполнить с СЕИ.
 Выборка – операция выделения подмножества значений СЕИ, которые удовлетворяют заранее поставленным условиям выборки.
 Корректировка означает выполнение одной из операций:
 добавление нового значения СЕИ;
 исключение существующего значения СЕИ;
 замена некоторого значения СЕИ на новое значение.
 Декомпозиция – операция преобразования исходной СЕИ в несколько СЕИ с различными структурами. Документ А1 можно представить в виде двух документов А2(В, С) и А3(М, Н, Р).
 Композиция - операция преобразования нескольких СЕИ с различными структурами в одну СЕИ. Декомпозиция и композиция являются взаимообратными операциями.
 Нормализация - это операция перехода от СЕИ с произвольной структурой к СЕИ с двухуровневой структурой.
 
 
 
 
  А1 В С
  01.03.02 1457
 
  М Н Р
  3412 2367 537
  1324 5642 753
  4587 4583 674
 
 
 
  А1 В С
  02.03.02 1458
 
  М Н Р
  1243 4356 245
 
 
 Рис. 5. Бланк документа
 
 Свертка – операция преобразования СЕИ с двухуровневой структурой в СЕИ с произвольной многоуровневой структурой . Свертка нормализованной структуры может привести к исходной структуре или к другим ненормализованным документам, имеющим экономический смысл.
 
 Экономические показатели
 
 При анализе экономических документов необходимо разделять документ на элементарные осмысленные фрагменты, называемые показателями. Это позволяет установить смысловые взаимосвязи между различными документами, обеспечить одинаковое понимание всеми пользователями применяемых единиц информации и их единое обозначение, использовать полученные результаты для определения структуры базы данных.
 Так как показатель описывает качественные и количественные характеристики, то в его состав будут входить атрибуты двух видов: атрибуты основания и атрибуты признаки. Атрибут-основание отражает количественную характеристику показателя, и в показателе он должен быть один. Атрибут-признак представляет собой качественную характеристику показателя, и их в атрибуте может быть несколько.
 Вместе с тем существуют документы, не содержащие атрибутов-оснований, например, анкеты кадрового учета, сведения о структуре подразделений предприятия и т.д.
 Как единица информации показатель является разновидностью СЕИ. Схематично структура показателя П представляется выражением
 
 П(Р1,Р2,...,Рk, Q),
 
 где Р1,Р2,...,Рk - атрибуты-признаки, Q - атрибут-основание.
 Таким образом, в показателях отображаются количественные свойства объектов и процессов. Вместе с тем существуют документы, не содержащие атрибутов-оснований, например, анкеты кадрового учета, сведения о структуре подразделений предприятия и т. д. Следовательно, не вся экономическая информация может быть представлена в форме показателей.
 Минимальный набор атрибутов должен содержать:
 атрибуты, отображающие идентификаторы объектов;
 атрибуты, отображающие признак времени;
 атрибуты, отображающие некоторое количественное свойство объекта или взаимодействия.
 Для определения атрибутов-признаков и атрибутов-оснований в конкретных документах используются следующие закономерности:
 1. Если значение атрибута является исходным данным или результатом арифметической операций - это основание.
 2. Если значение текстовое - это признак.
 3. Если атрибут обозначает предмет - это признак.
 4. Если атрибут в некотором показателе является признаком (основанием), - он будет играть эту роль и в других показателях.
 5. Если показатели описывают сходные процессы - их призначные части совпадают.
 6. Если основание показателя вычисляется по значениям других оснований, то набор признаков такого показателя есть объединение признаков, связанных с этими основаниями.
 Например, документ содержит следующие атрибуты:
 
 Дата Цена
 Поставщик Количество по документу
 Магазин Количество принято
 Товар Сумма
 
 Атрибутами-основаниями являются: Цена, Количество, Сумма, так как они описывают количественные характеристики документа. Таким образом, и показателей в документе будет четыре, по числу атрибутов-оснований. Теперь необходимо выяснить какие атрибуты-признаки соответствуют каждому атрибуту-основанию. Для атрибута Количество по документу необходимыми признаками будут: Дата, Поставщик, Магазин, Товар. Для атрибута Количество принято , исходя из закономерности №5, атрибуты- признаки будут такие же, как и для атрибута Количество по документу. Если цены постоянные и не зависят ни от поставщика, ни от даты поступления, то атрибут Цена будет зависеть только от атрибута Товар. Так как Сумма является показателем, вычисляемым по формуле, то его призначная часть определяется на основании закономерности №6. Показатели будут представлены следующими схемами:
 
 П1(Дата, Поставщик, Магазин, Товар, Количество по документу),
 П2(Дата, Поставщик, Магазин, Товар, Количество принято),
 П3(Товар, Цена),
 П4(Дата, Поставщик, Магазин, Товар, Сумма).
 
 Из четырех показателей три имеют одинаковую призначную часть, следовательно, их можно объединить в один файл. В результате получим в базе данных два файла: первый файл – атрибуты Товар, Цена. Второй файл – атрибуты Дата, Поставщик, Магазин, Товар, Количество по документу, Количество принято, Сумма.
 Существует аналогия между экономическими показателями и переменными с индексами, которые рассматриваются, например, в линейной алгебре. Так, показатель П3(Товар, Цена) соответствует величине Сi, где С – цена i-того товара.
 Остальным показателям соответствуют такие переменные с индексами, как
 для П1 G(i, j, m, n)
 для П2 H(i, j, m, n)
 для П4 S(i, j, m, n),
 где:
 j – магазин,
 m – поставщик
 n - дата
 
 Критерием качества создания базы данных может служить минимальная избыточность хранимой информации. Обычно минимальная избыточность выражается принципом: каждое сообщение хранится в БД один раз. Использование аппарата экономических показателей позволяет создать структуру БД с минимальной избыточностью, если сначала представить все сведения, циркулирующие в ЭИС, в виде показателей, а потом объединить атрибуты родственных показателей по принципу: в один файл включается группа экономических показателей с одинаковым составом атрибутов-признаков.
 
 Вопросы и задания
 
 1. Приведите классификацию ЭИС и их отличительные черты.
 2. Перечислите компоненты экономических информационных систем.
 3. Назовите операции, выполняемые над СЕИ.
 4. Каково назначение экономических показателей?
 5. Представьте результат нормализации СЕИ со следующей структурой:
 
 Н(2).(М(3).(м1, м2, м3, м4), Л(4).(л1, л2))
 
 6. Определите экономические показатели, атрибутный состав и количество файлов для следующего списка атрибутов:
 а)
 Цех Год План выпуска на месяц
 Участок Код детали План выпуска на квартал
 Месяц Расценка
 
 б)
 Дата Код детали Расценка
 Участок Разряд Сумма
 Таб № рабочего Принято деталей
 
 в)
 Кинотеатр Фильм Режиссер
 Число мест Дата Число проданных мест
 Выручка от фильма
 
 7. Приведите примеры экономических информационных систем, классифицируемых по функциональным признакам.
 8. Что такое предметная область?
 9. Каков минимальный набор атрибутов показателя?
 10. Назовите критерий качества создания базы данных?
 ГЛАВА 2. МОДЕЛИ ДАННЫХ
 
 § 2.1. Реляционная модель данных
 
 § 2.1.1. Основные понятия реляционной модели данных
 
 Каждой модели данных соответствует указание множества допустимых информационных конструкций, множества допустимых операций над данными и множества ограничений для хранимых значений данных.
 Классификация информационных конструкций тесно связана с областью их использования в ЭИС:
 Объекты для технологии баз данных – отношения, веерные отношения, иерархическая БД;
 Объекты для технологии искусственного интеллекта – предикаты, фреймы и семантические сети;
 Объекты для технологии мультимедиа – тексты, графические изображения, видеофрагменты.
 Принципиальными различиями обладают следующие модели данных:
 реляционная;
 сетевая;
 иерархическая.
 
 Реляционные модели данных приобрели наибольшую популярность и практически все современные СУБД ориентированы именно на такое представление данных.
 Реляционная модель характеризуется следующими компонентами:
 Информационная конструкция – отношение с двухуровневой структурой.
 Допустимые операции – проекция, выборка, соединение, объединение, пересечение, вычитание, деление.
 Ограничения – функциональные зависимости между атрибутами отношения.
 Традиционно в реляционных системах таблицу называют отношением, строку таблицы называют кортежем. Количество кортежей в таблице называется кардинальным числом, а количество атрибутов степенью.
 Для отношения предусматривается уникальный идентификатор, то есть один или несколько атрибутов, значения которых в одно и то же время не бывают одинаковыми – идентификатор называется первичным ключом.
 Домен – это множество допустимых однородных значений для того или иного атрибута. Таким образом, домен можно рассматривать как именованное множество данных, причем составные части этого множества являются логически неделимыми единицами (в качестве домена могут, например, выступать фамилии сотрудников учреждения, однако не все фамилии могут присутствовать в таблице).
 Отношение содержит две части – заголовок и, собственно, содержательную часть. Заголовок содержит конечное множество атрибутов, а содержательная часть (тело отношения) – множество пар имени атрибута и его значения.
 Отношения имеют ряд основных свойств, а именно:
 в самом общем случае в отношении не бывает двух одинаковых кортежей. Это следует из самого определения отношения, действительно, поскольку в отношении имеет место первичный ключ, то одинаковые кортежи исключены.
 в отношении без потери информации можно с успехом расположить кортежи в любом порядке.
 атрибуты не упорядочены слева направо и их можно располагать в любом порядке, при этом целостность (единство) данных не нарушится.
 значения атрибутов состоят из логически неделимых единиц - это свойство есть следствие того, что значения берутся из доменов. Иначе, можно сказать, что отношения не содержат групп повторения, то есть являются нормализованными (об этом еще будем говорить).
 Предположим, что некоторому классу объектов материального мира Р ставится в соответствие множество атрибутов А1, А2,…, Аn. Отдельный объект класса Р описывается строкой величин (а1, а2,…, аn), где аi – значение атрибута Аi. Строка (а1, а2, …,аn) будет являться кортежем.
 Выражение (а1,а2, …, аn) называется схемой отношения Р. Каждое отношение представляет собой состояние класса объектов в некоторый момент времени. Следовательно, одной схеме отношения в разные моменты времени могут соответствовать разные отношения.
 Схема реляционной базы данных содержит следующие компоненты
 
 S(rel) = < A, R, Dom, Rel, V(s)>,
 
 где A – множество имен атрибутов,
 R – множество имен отношений,
 Dom – вхождение атрибутов в домены,
 Rel – вхождения атрибутов в отношения,
 V(s) – множество ограничений (в том числе функциональных зависимостей).
 Описание процессов обработки отношений может быть выполнено двумя способами:
 указанием перечня операций, выполнение которых приводит к требуемому результату (процедурный подход),
 описанием свойств, которым должно удовлетворять результирующее отношение (декларативный подход).
 Проводимые далее операции над отношениями ориентированы на процедурное описание процессов обработки данных.
 
 
 
 § 2.1.2.Реляционная алгебра
 
 Формальной основой реляционной модели является реляционная алгебра, рассматривающая специальные операторы над отношениями на основе теории множеств и реляционное исчисление, базирующееся на математической логике.
 Основных операторов в реляционной алгебре восемь и схематически их можно представить так, как это показано на рис. 6
 
  Выборка Проекция Объединение
 
 
 
 
 
 
 
 
 Пересечение Вычитание Произведение
 
 
 
 
 
 
 
 
 
 
  Соединение Деление
 
 
 
 
 
 
 
 

<< Пред.           стр. 2 (из 8)           След. >>

Список литературы по разделу