Реферат: Побудова украиномовнои онтологии засобами СУБД
Название: Побудова украиномовнои онтологии засобами СУБД Раздел: Рефераты по информатике Тип: реферат |
Глибовець М. М., Марченко О. О., Никоненко А. О. ПОБУДОВА УКРАЇНОМОВНОЇ ОНТОЛОГІЇ ЗАСОБАМИ СУБД 2. Формати онтологій Для спрощення роботи з онтологіями ство¬ рено ряд мов опису онтологій. Метою таких мов є надання можливості задавати додаткову машинно-інтерпретовану семантику ресурсам, зробити машинне представлення даних більш наближеним до реального світу, підвищити мож¬ ливості концептуального моделювання слабко структурованих Web-даних. Такий підхід поши¬ рився й на різноманітні мови опису онтології та на інструментальні засоби, призначені для робо¬ ти з ними. Сьогодні виділяють три основні класи мов опису онтологій: - традиційні мови специфікації онтологій: Ontolingua, CycL та мови, засновані на дескриптивних логіках (такі як LOOM), також мови, засновані на фреймах (OKBC, OCML, Flogic); - більш пізні мови, засновані на Web-стандартах (XOL, SHOE, UPML); - спеціальні мови для обміну онтологіями че¬ рез Web: RDF(S), DAML, OIL, OWL [2]. Коротко охарактеризуємо найбільш пошире¬ ні та часто вживані мови опису онтологій. Мова RDF. У рамках проекту семантичної інтерпретації інформаційних ресурсів Інтернету (Semantic Web) був запропонований стандарт опису метаданих документа Resource Description Framework, що використовує Xml-синтаксис. RDF використовує базову модель даних ≪об'єкт - атрибут - значення≫ іздатний відігра¬ ти роль універсальної мови опису семантики ре¬ сурсів та взаємозв'язків між ними. Ресурси опи¬ суються у вигляді орієнтованого розміченого графа. Кожен ресурс може мати властивості, які у свою чергу також можуть бути ресурсами або їхніми колекціями. Усі словники RDF викорис¬ товують базову структуру, яка описує класи ре¬ сурсів і типи зв'язків між ними. Це дозволяє ви¬ користовувати різнорідні децентралізовані слов¬ ники, створені для машинної обробки за різними принципами й методами. Важливою особливіс¬ тю стандарту є розширюваність: можна задати структуру опису джерела, використовуючи й розширюючи такі вбудовані поняття RDF-схем, як класи, властивості, типи, колекції. Модель схеми RDF включає наслідування класів і влас¬ тивостей [3]. DAML+OIL - семантична мова розмітки Web-ресурсів, що розширює стандарти RDF і RDF Schema за рахунок більш повних примітивів моделювання. Остання версія DAML+OIL забез¬ печує багатий набір конструкцій для створення онтології й розмітки інформації таким чином, щоб їх могла читати й розуміти машина [4]. OWL (Web Ontology Language) - мова подан¬ ня онтологій, що розширює можливості XML, RDF, RDF Schema і DAML+OIL. Цей проект пе¬ редбачає створення потужного механізму семан¬ тичного аналізу. Планується, що в ньому буде усунено обмеження конструкцій DAML+OIL. Онтології OWL - це послідовності аксіом і фактів, а також посилань на інші онтології. Вони містять компонент для запису авторства та іншої докладної інформації, є документами Web, на них можна посилатися через URI [5]. KIF (Knowledge Interchange Format, або формат обміну знаннями) - заснований на S-виразах синтаксис для логіки. KIF - це спеціальна мова, призначена для використання при обміні зна¬ ннями між різними комп'ютерними системами. Мова не призначена для внутрішнього представ¬ лення знань усередині комп'ютерних систем або всередині тісно зв'язаних наборів комп'ютерних систем (хоча може бути використана й для цієї мети). Мова була розроблена для опису загаль¬ ного формату представлення знань, незалежного від конкретних систем [6]. CycL (мова опису онтології Cyc) - це гібрид¬ на мова, що поєднує в собі властивості фреймів і логіку предикатів. CycL розрізняє такі сутності, як екземпляри, класи, предикати й функції. Син¬ таксис мови CycL схожий на синтаксис мови Lisp. Словник CycL складається з термів. Мно¬ жину термів можна розділити на константи, тер¬ ми (що не є атомами) і змінні. Крім цього, зустрі¬ чаються деякі інші типи об'єктів. Терми вико¬ ристовуються для складання значущих виразів CycL, які використовуються для формування су¬ джень, з яких складається база знань [7]. Зважаючи на сказане вище, зрозуміло, що сьогодні не існує ні єдиної, формалізованої та стандартизованої мови для опису онтологій, ні єдиного загальновживаного формату збережен¬ ня даних в онтологіях. Тому кожен розробник системи для обробки природномовних текстів вимушений розробляти свою онтологію з ≪нуля ≫, починаючи з формату збереження даних і закінчуючи самим наповненням бази. З'явилися навіть спеціалізовані онтології, які дістали назву ≪організаційні≫. Звичайно, така ситуація не є прийнятною й дуже ускладнює, сповільнює та робить більш дорогою розробку нових лінгвіс¬ тичних систем [8]. Наша розробка - перший крок у напрямі усу¬ нення ситуацій, коли для кожного проекту по¬ трібно розробляти нову онтологію. Найближчим часом ми плануємо закінчити проект щодо ство¬ рення єдиної онтологічної бази для програмних систем, що працюють з українською мовою, а в перспективі - і для російської, англійської та де¬ яких інших європейських мов. Принципи орга¬ нізації онтологічної бази української мови та її структура й будуть описані далі у статті. Частина бази даних, що відповідає за _роботу з онтологією: Рис. 2. Діаграма класів для даних про семантику http://www.library.ukma.kiev.ua/e-lib/NZ/NZV86_2008_computer/08_glybovets_mm.PDF |