Разработка программных средств конвертирования HTML-текстов в семантические сети
Московский
Государственный
Университет
Путей сообщения
(МИИТ)
Кафедра
АСУ
Курсовой
проект
«Разработка
программных
средств конвертирования
HTML
текстов в
семантическую
сеть»
Выполнила:
Студентка
5-го курса группы
УИС-511 Болотова
Е.А.
Проверил:
Саркисян
Р.Е.
Москва
2001
Содержание:
Что такое
семантическая
сеть …………………………..3
Основные
сведения о
языке HTML
…………………….3
1.Введение
………………………………………….3
2.Сруктура
HTML-документа
……………………..4
Что такое
фреймы ……………………………………….7
Возможности
представления
знаний на базе
языка
HTML
……………………………………………...8
TextAnalyst
2.0 – персональная
система
автоматического
анализа текста
………………………..14
Принцип
работы HTML-конвертора
…………………...17
Список
использованных
источников
…………………..21
Что такое
семантическая
сеть
Семантическая
сеть – структура
для представления
знаний в виде
ориентированного
графа, в котором
вершины – это
понятия, а дуги
- отношения.
Термин семантическая
означает "смысловая",
а сама семантика
– это наука,
устанавливающая
отношения между
символами и
объектами,
которые они
обозначают,
что есть наука,
определяющая
смысл знаков.
Самые первые
семантические
сети были разработаны
в качестве
языка-посредника
для систем
машинного
перевода. Однако
последние
версии семантических
сетей стали
более мощными
и гибкими и
составляют
конкуренцию
логическому
программированию,
фреймовым
системам и
другим языкам
представления.
На сегодняшний
день существует
множество
вариантов
семантических
сетей. Их терминология
и структура
различаются,
но существуют
сходства, присущие
всем семантическим
сетям:
Узлы семантических
сетей представляют
собой концепты
предметов,
событий, состояний
различные
узлы одного
концепта относятся
к различным
значениям,
если они не
помечены как
относящиеся
к одному концепту
дуги семантических
сетей создают
отношения
между узлами-концептами
(пометки над
дугами указывают
на тип отношения)
некоторые
отношения
между концептами
представляют
собой лингвистические
падежи, такие
как агент, объект,
реципиент и
инструмент
(другие означают
временные,
пространственные,
логические
отношения и
отношения
между отдельными
предложениями
концепты
организованы
по уровням в
соответствии
со степенью
обобщенности
так, как, например,
сущность, живое
существо, животное,
плотоядное.
Несмотря
на некоторые
различия, сети
удобны для
чтения и обработки
компьютером,
а также достаточно
мощны, чтобы
представить
семантику
естественного
языка.
Наиболее
часто в семантических
сетях используются
следующие
отношения:
связь типа
"часть-целое"
("класс-подкласс",
"множество-подмножество"
и т.п.)
функциональные
связи, определяемые
обычно глаголами
"производит",
"принадлежит"
и т.п.)
количественные
("больше", "меньше",
"равно" и т.п.)
пространственные
("близко от",
"далеко от"
и т.п.)
временные
("раньше", "позже"
и т.п.)
логические
связи ("и", "или"
и т.п.)
лингвистические
связи и т.д.
Основные
сведения о
языке HTML
Введение
Все стандартные
броузеры для
сети Интернет
используют
способы представления
текстов, основанные
на языке HTML.
HTML
(Hyper
Text
Markup
Language)
– это язык разметки
гипертекста.
Этот язык «понимают»
все компьютеры,
он довольно
прост, но при
этом имеет
достаточные
выразительные
средства для
удобного описания
разных типов
документов.
Язык позволяет
хранить текст
в «чистом» виде
(не кодируя
его), что делает
возможным
просмотр HTML
скриптов с
помощью обычных
текстовых
редакторов.
Этот язык
предоставляет
авторам Интернет
- публикаций
средства:
представления
документов,
включающих
заголовки,
тексты, таблицы,
списки, «картинки»
и т.п. элементы;
осуществления
навигации по
отдельным
документам
и множеству
документов
путем использования
гиперссылок;
конструирования
диалоговых
форм для взаимодействия
с удаленными
сервисами,
доступными
в сети;
включения
в документы
вычисляемых
форм (spread-sheets),
видео и звука,
равно как и
разнообразных
приложений.
Первая
версия языка
HTML
была разработана
Т. Бернерс-Ли
из Европейского
Центра ядерных
исследований
(CERN).
В дальнейшем
язык претерпел
существенные
изменения. К
середине 90-х
годов произошла
стандартизация
его версий,
которая стала
курироваться
международными
организациями.
В настоящее
время наиболее
развитой является
версия языка
HTML
4.0, в которой
представлены
новые возможности
аппаратуры
и требования
производителей
программного
обеспечения
броузеров, а
также пожелания
Интернет –
авторов.
2. Структура
HTML-документа
В HTML
– файле находится
символьная
информация.
Часть ее – это
данные, составляющие
содержимое
документа, а
другая часть
– HTML
– теги, языковые
конструкции,
используемые
для разметки
документа и
управляющие
его отображением.
Для выделения
тегов в тексте
HTML
– документа
эти конструкции
берутся в угловые
скобки. Обычно
теги используются
парами: открывающий
и закрывающий
тег.
Типичный
HTML
– документ
имеет следующую
структуру:
< ! DOCTYPE HTML
PUBLIC “-//W3C//DTD
HTML 4.0//EN”
“w3/TR/REC-html40/strict.dtd”>
Наименование
документа
name=keywords
content=”Ключевые
слова”>
Тело документа
В приведенном
фрагменте
комментарий
и
и содержит
служебную
информацию.
В представленном
выше фрагменте
HTML
– документа
показаны два
компонента
заголовка:
Заглавие
- строка символов,
которая отображается
в заголовке
окна броузера.
- дополнительная
информация
об HTML
– документе
(в нашем примере
этот тег с помощью
параметров
name
и content
фиксирует
значение первого
атрибута как
keywords,
а второго –
как ключевые
слова «Представление
знаний» и
«Мультиагентные
системы»). Этот
тег ориентирован
на аннотирование
Интернет –
документов
и значительно
облегчает
задачу индексирования
их, например,
с помощью сетевых
роботов.
Кроме этих
компонентов
заголовок может
содержать еще
и другие теги:
- базовый адрес,
используемый
при обработке
относительных
URL,
- используется
для связи
HTML-документа
с другими
источниками
данных.
Собственно
содержание
документа
находится в
теле между
тегами