Анализ медико-биологических данных с помощью Microsoft Excel и СПП STADIA 6.2
Страница 2
Построение биометрии идет по четырем основным разделам:
1. Отбор из громадного арсенала математических методов таких, который могут помочь биологам в их текущей работе по наблюдению, преобразованию живой природы;
2. Модификация отобранных математических методов в соответствии со специфическими особенностями биологических объектов и процессов
3. Разработка новых биометрических методов, требуемых современным развитием биологии, но еще не имеющихся в арсенале общей математики. Например, расчет показателей наследуемости и повторяемости;
4. Унификация терминологии и символики. В общей математике нет единой системы терминов и символики, имеется большое разнообразие в названиях и обозначениях по каждому показателю. При создании биометрической терминологии большинство терминов заимствуется. Но не всегда математические термины пригодны в биологии. Например, такое биологическое явление, как неодинаковость объектов в группе, неизбежное их различие в математике обозначается многими терминами, совершенно не соответствующими сущности этого явления: «изменчивость», «рассеяние», «колеблемость», «разброс». Поэтому в биометрии все они заменены одним общим термином «разнообразие».
Опираясь на такие особенности ЭВМ, как быстродействие, способность хранить большие объемы информации, предоставление по использованию прикладных программ, существование разнообразных форм выдачи результатов вычислений, расширились возможности биометрии, она стала более доступной. Биометрия основывается теперь не только на таких математических дисциплинах, как теория вероятностей и математическая статистика, но на информатике и программировании на ЭВМ. Это позволяет говорить о современной биометрии как о компьютерной.
Стандартные статистические методы включены в состав популярных электронных таблиц, таких как Excel, Lotus 1-2-3, Quattro Pro, а также в математические пакеты общего назначения, например Mathcad, Maple и др. Однако гораздо большими возможностями обладает специализированное программное обеспечение – статистические программные продукты (СПП).
Международный рынок насчитывает более 1000 пакетов, решающих задачи статистического анализа данных в среде операционных систем Windows, DOS, OS/2.
СПП можно разделить на:
1. Универсальные пакеты – предлагают широкий диапазон статистических методов. В них отсутствует ориентация на конкретную предметную область. Из зарубежных универсальных пакетов наиболее распространены BAS, SPSS, Systat, Minilab, Statgraphics, STATISTICA.
2. Специализированные пакеты, как правило, реализуют несколько статистических методов или методы, применяемые в конкретной предметной области. Чаще всего это системы, ориентированные на анализ временных рядов, корреляционно-регресионный, факторный или кластерный анализ. Из российских пакетов известны STADIA, Олимп, Класс-Мастер, КВАЗАР, Статистик-Консультант; американские пакеты – ODA, WinSTAT, Statit и т.д.
Современные СПП реализуют ряд системных функций: ассистирование пользователю при выборе способа обработки, автоматическую организацию процесса обработки данных, обеспечение диалогового режима работы пользователя с пакетом, ведение пользовательских баз данных, автоматическое составление отчета о проделанной пользователем работе, совместимость с другими программами и некоторые другие.
Методориентированные СПП, как правило, имеют следующую структуру:
1. Блок описательной статистики и разведочного анализа исходных данных: анализ резко выделяющихся значение исследуемого признака, восстановление пропущенных значений, частотная обработка исходных данных (построение гистограмм, полигонов частот, вычисление выборочных средних дисперсий и т.д.), проверка статистических гипотез об однородности исследуемых совокупностей, оценка критериев согласия, визуализация распределения статистических данных и др.;
2. Блок статистического исследования динамики и зависимостей: дисперсионный и ковариационный анализ, корреляционно-регрессионый анализ, анализ временных рядов и др.;
3. Блок классификации и снижения размерности: дискриминантный анализ, статистических анализ смесей распределений, кластерный анализ и др.;
4. Блок методов статистического анализа нечисловых данных и экспертых оценок: анализ таблиц сопряженности, логлинейные модели, ранговые методы и др.;
5. Блок планирования эксперимента и выборочных исследований;
6. Блок вспомогательных программ.
Следует отметить, что продвижение западных продуктов в российской аудитории наталкивается на ряд ограничений в связи с неадекватностью культурно-исторической ситуации. Эти пакеты предполагают наличие широкого первоначального статистического образования, доступной литературы и консультационных служб. Поэтому они содержат мало экранных подсказок и требуют внимательного изучения документации на английском языке.
Указанных недостатков в значительной степени лишены известные отечественные статистические пакеты: Эвриста, Статистик-Консультант, STADIA, которые устойчиво представлены на рынке в течение последних лет.
Используемая в данной работе СПП STADIA является универсальной системой, покрывающей в той или иной степени большинство основных разделов прикладной статистики, деловой и научной графики, и по своим интегральным возможностям сравнима с популярными зарубежными пакетами. Набор методов математической статистики, представленный в пакете STADIA составлен исходя из следующих соображений:
· в пакет входят все наиболее часто применяемые в России и за рубежом статистические методы;
· значительная часть их изучается в вузовских курсах и описана в стандартных учебниках;
· пакет не перегружен очень новыми и/или сложными узкоспециализированными методами.
В состав Microsoft Excel входит набор средств анализа данных (называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Microsoft Excel относится к весьма популярным и распространенным электронным таблицам, работающий в среде Windows.
В процессе анализа данных, как правило, присутствуют следующие основные этапы:
1. Ввод данных
Введенные данные обычно отражаются в форме электронной таблицы или матрицы данных, где столбцы представляют различные переменные (например, рост, вес), а строки – измерение значений этих переменных, произведенные в различных условиях, в различное время, у различных объектов и т.п.
2. Преобразование данных
Данные в электронной таблице можно просмотреть и скорректировать методами ручного редактирования или же полуавтоматического преобразования к виду, адекватному выбранному методу анализа. Здесь может быть использован широкий набор алгебраических, матричных, структурных преобразований, а также комбинирование этих операций в требуемой последовательности. Нередко также требуются удаление из введенных данных высокоамплитудных выбросов (которые могут быть результатом некорректных измерений) и замена или удаление пропущенных (неизмеренных) значений.
3. Визуализация данных
На данные обязательно следует просто посмотреть, чтобы составить общее (в том числе и интуитивное) представление о характере их изменения, специфических особенностях и закономерностях, что очень важно при выборе стратегии и тактики дальнейшего анализа. Для этого можно использовать как исходное числовое представление, так и различные формы графического изображения.
4. Статистический анализ
Собственно выбор метода, анализ данных и интерпретация результатов.
5. Представление результатов
Для наглядности производимых выводов полученные результаты желательно представлять в виде адекватных, убедительных и эффектных графиков.