Планирование эксперимента для применения дисперсионного анализа

Планирование эксперимента для применения дисперсионного анализа

1. Некоторые общие положения дисперсионного анализа

Дисперсионный анализ - это метод математической статистики, который широко применяется в различных отраслях науки как самостоятельно, так и в сочетании с другими методами.

Суть дисперсионного анализа заключается в сравнении между собой двух или более дисперсий и доказательстве нуль-гипотезы разности этих дисперсий (-= 0 и т.п.).

При установлении зависимости дисперсионным анализом исходят из следующих соображений.

В эксперименте изменения средних арифметических значений свойства объекта (yv ) зависят не только от изменяемых факторов xj (с известными уровнями) , но и от случайных факторов. Поэтому рассеивание (разброс)yv относительно общего среднего арифметического значения (рис. 5), характеризуемое общей дисперсией (), разделяется на составляющие: рассеивание, обусловленное случайными факторами (), и рассеивание, обусловленное известными факторами за счет изменения их значений, т.е. перехода с одного уровня на другие (). Попарное сравнение факторной дисперсии () с дисперсией, характеризующей действие случайных факторов, т.е. воспроизводимость эксперимента (), позволяет на основании закона распределения Фишера сделать следующие выводы дисперсионного анализа:

Установить или опровергнуть влияние x на y с заданной вероятностью ("влияет", "не влияет" и др.).

Определить вероятность влияния x на y.

Рис.. Поле корреляции величин y и x:

n1 = n2 = ... = nv = ... = nm = 2

Если при проведении однофакторного эксперимента при n1 = n2 = ... =
nv = ... = nm = n (табл.), то можно рассчитать по следующим формулам:

Таблица

Исходные данные для однофакторного дисперсионного анализа

с равным числом повторения опытов

Номер повторного опыта

Значения свойства объекта y при уровнях фактора х

1

...

v

m

1

y1,1

...

yv,1

ym,1

2

y1,2

...

yv,2

ym,2

....

...

...

...

...

i

y1,i

...

yv,i

ym,i

n

y1,n

...

yv,n

ym,n

yv

y1

...

yv

ym

Затем вычислют F-отношение (Fх) по следующим формулам:

Задав вероятность (Р) и вычислив по известным формулам числа степеней свободы для факторной дисперсии fх (f1 = m-1) и дисперсии воспроизводимости fвоспр. (f2 = N-m), из справочных данных выбирают табличное значение квантиля распределения Фишера (Fт). При выполнении неравенства Fх > Fт можно делать вывод, что данный фактор х с вероятностью Р влияет на свойство y, т.е. "значима" разность между влиянием на свойство y известного фактора х и случайных факторов. При невыполнении этого неравенства делается вывод об отсутствии влияния фактора х на свойство y, т.е. это влияние соизмеримо со случайными ошибками эксперимента ( - = 0 и следовательно = , то есть влияние фактора х на свойство y соизмеримо с влиянием случайных факторов).

Исходя из распределения Фишера и найденного значения Fх можно рассчитать доверительную вероятность Р, при которой данный фактор х влияет на свойство y (то есть выполняется условие - > 0). Значение доверительной вероятности может задаваться заказчиком НИР или устанавливаться самим исследователем.

Дисперсионный анализ по сравнению с корреляционным анализом имеет следующие преимущества:

1. Позволяет делать однозначные и более точные выводы о влиянии фактора xj на свойство y для любых типов зависимостей y от х.

2. Позволяет определить влияние на свойство y не только количественных, но и качественных факторов (например, типа растворителя, времени года и др.).

3. Позволяет определить значение (уровень) фактора х (xv), при котором фактор начинает влиять с заданной вероятностью Р на свойство y.

Планирование эксперимента для проведения дисперсионного анализа зависит от числа факторов, которые исследователь решил одновременно изменять в эксперименте. На точность выводов и их ассортимент влияет наличие повторных опытов в эксперименте.

Планы экспериментов для дисперсионного анализа можно разделить на следующие типы (аналогично выделяют и методы дисперсионного анализа):

1. План (метод) однофакторного дисперсионного анализа

2. План (метод) двухфакторного дисперсионного анализа без повторений опытов

3. План (метод) двухфакторного дисперсионного анализа с повторениями опытов

4. План (метод) многофакторного дисперсионного анализа без повторений опытов

5. План (метод) многофакторного дисперсионного анализа с повторениями опытов

2. Составление планов эксперимента для проведения дисперсионного анализа

Общим требованием к планированию любого эксперимента для проведения дисперсионного анализа является выполнение условия mj 2. Желательно, чтобы план эксперимента для проведения дисперсионного анализа предусматривал:

1) широкую область изменения значений факторов xj,

2) большое число mj значений (уровней) факторов xj, при этом разница между уровнями должна быть больше абсолютной погрешности их измерения.

2.1. Составление планов экспериментов для проведения однофакторного дисперсионного анализа

Введем следующие обозначения:

А

- исследуемый фактор;

m

- число разных уровней фактора А;

v

- номер уровня фактора А;

аv

- отдельное значение (качественное или количественное) уровня фактора А (v = 1…m);

nv

- число повторений опыта для уровня v;

i

- номер повторного опыта для уровня фактора А;

N

- общее число опытов в эксперименте.

Условные обозначения уровней фактора av часто называют "кодированными" значениями фактора, а реальные значения (качественные или количественные) - натуральными значениями.

Общее число опытов в эксперименте рассчитывается по формуле:

При одинаковом числе повторений опытов для каждого уровня фактора А (n1 = n2 = ... = nv = ... = nm = n) общее число опытов равно:

N = mn.

Классическая форма плана с одинаковым числом повторений опытов для проведения однофакторного дисперсионного анализа приведена в табл. 8.

Таблица 8

План эксперимента для проведения однофакторного дисперсионного анализа с кодированными значениями уровней фактора А

Номер

Значения y при уровне фактора А

повторного опыта

a1

a2

...

av

...

am-1

am

1

y11

2

y22

...

i

yi(mn-1)

...

n-1

y(n-1)1

n

yn2

Очевидно, что число пустых ячеек в табл. 8 соответствует общему числу опытов в эксперименте (N). В эти ячейки после проведения соответствующего опыта заносят измеренное значение свойства объекта yiv.

Последовательность выполнения опытов в эксперименте необходимо выбирать случайным образом (рандомизировать), чтобы уменьшить влияние фактора времени () на искомую зависимость.

2.2. Составление планов экспериментов для проведения двухфакторного дисперсионного анализа

Если обозначить первый фактор А, а второй фактор В, с числом его уровней w и номером уровня q, то общее число опытов в плане эксперимента без повторения опытов будет равно:

N = mw.

Классический план такого эксперимента (табл. 9) является планом полного факторного эксперимента (ПФЭ), так как в нем предусмотрены опыты со всеми возможными сочетаниями различных уровней всех факторов.

Более понятным для выполнения является развернутый план эксперимента. Развернутый план получают из классического плана, присвоив в случайном порядке (принцип рандомизации) номера опытов каждой пустой ячейке табл. 9. Условия проведения каждого опыта (табл. 10) определяются исходя из того, какие столбец и строка (уровни фактора А и В) совмещаются в ячейке с данным номером опыта.

Таблица 9
План эксперимента для проведения двухфакторного дисперсионного

анализа без повторения опытов

Уровень

Значения y при уровне фактора А

фактора В

a1

a2

...

av

...

am-1

am

b1

№ 8

№ 3

...

№1

...

...

...

b2

...

№5

...

...

...

...

№ 7

...

...

...

...

...

...

...

...

bq

№ 4

...

...

...

...

...

...

...

...

...

...

...

...

...

...

bw-1

№ 2

№ mw

...

...

...

...

...

bw

...

№ 6

...

...

...

...

...

После проведения эксперимента и математической обработки результатов измерений можно вычислить F-отношения (Fxj):

; .

Задав вероятность (Р) и вычислив по известным формулам числа степеней свободы для факторных дисперсий f1 (fA = m-1, а fB = w-1) и дисперсии воспроизводимости f2 = (m-1)(w-1), из справочных данных выбирают табличное значение квантиля распределения Фишера (Fт). При выполнении неравенства Fхj > Fт можно делать вывод, что данный фактор хj с вероятностью Р влияет на свойство y.

Таблица 10

Развернутый план эксперимента для проведения двухфакторного

дисперсионного анализа без повторения опытов

Номер опыта

Кодированные значения уровня фактора

Значение y

А

В

1

av

b1

2

a1

bw-1

3

a2

b1

4

a1

bq

5

a2

b2

6

a2

bw

7

am

b2

8

a1

b1

...

...

...

mw

a2

bw-1

Если в плане эксперимента предусмотреть повторение каждого опыта, то тогда при проведении дисперсионного анализа результатов измерений y можно оценить влияние на данное свойство объекта эффекта одновременного изменения двух факторов (эффектов "взаимодействия" факторов). Для этого рассчитывают и анализируют значение FAB.

Эффекты взаимодействия могут иметь синергетический (взаимоусиливающий) или антагонистический (взаимоослабляющий) характер влияния одновременного изменения факторов xj на свойство y.

7.4.2.2.3. Составление планов экспериментов для проведения
многофакторного дисперсионного анализа

При многофакторном эксперименте одновременно изменяются три и более факторов. Общее число опытов (без их повторений) для ПФЭ с k изменяемыми факторами (если каждый из них имеет одно и то же число уровней m) будет равно:

NПФЭ = mk.

Очевидно, что с увеличением числа исследуемых факторов (k) общее число опытов в эксперименте будет резко возрастать. Поэтому при многофакторных экспериментах часто применяют планы дробных факторных экспериментов (ДФЭ), которые предусматривают выполнение опытов только с частью всех возможных сочетаний различных уровней всех факторов. Поэтому число опытов ДФЭ (NДФЭ) сотавляет конкретную долю общего числа опытов от NПФЭ, которую называют степенью дробности ДФЭ.

Желание исследователя сократить число опытов вполне естественно, однако необходимо помнить, что сокращение числа опытов в эксперименте, т.е. переход от ПФЭ к ДФЭ, всегда приводит к снижению точности дисперсионного анализа результатов эксперимента.

Существуют различные принципы составления и типы планов ДФЭ: составление планов по принципу дробных реплик, латинских квадратов и кубов, планы ПлакеттаБермана и др. Эти планы относятся к планам математического планирования эксперимента, так как при их построении сочетание уровней факторов в опытах (выбор части опытов из планов ПФЭ) происходит не произвольно, а по определенным принципам математической комбинаторики.

Планы ДФЭ широко применяются при отсеивающих экспериментах, то есть таких экспериментах, когда необходимо изучить достаточно большое число факторов при небольшом числе опытов и определить те факторы, которые оказывают наиболее сильное влияние на свойство y.

Одними из самых экономичных по числу опытов и эффективных для дисперсионного анализа из известных планов ДФЭ являются двухуровневые (mj = m = 2) планы ПлакеттаБермана.

В качестве примера выбора плана ДФЭ приведем порядок действий и составления плана 10-факторного эксперимента (k =10). С целью экономии числа опытов в эксперименте возьмем наименьшее и одинаковое число уровней для всех факторов (mj = m = 2) и откажемся от проведения повторных опытов.

Для этих условий при проведении ПФЭ необходимо было бы реализовать следующее число опытов:

NПФЭ = mk = 210 = 1024.

Из известных 2-уровневых планов ДФЭ оценим число опытов для планов по принципу дробных реплик ПФЭ (ДР) и планов Плакетта - Бермана (ПБ). Необходимое число опытов для этих планов рассчитывается по следующим формулам:

NДР = 2k-a = 210-a ,

где а равно 1, 2, 3, ...,10 и соответственно NДР равно 512, 256, 128, 64, 32, 16, 8, 4, 2, 1;

NПБ = 4b,

где b равно 1, 2, 3, ..., и соответственно NПБ равно 4, 8, 12, ... .

Из таких 2-уровневых планов можно выбирать только те, для которых выполняется соотношение:

N k+1 10+1 11.

Требованиям этого соотношения и минимального числа опытов лучше всех удовлетворяет план ПлакеттаБермана с NПБ = 12.

Построим такой план с кодированными факторами, обозначая знаками "+" и "-"одно из двух натуральных значений каждого из факторов. Тогда план ПлакеттаБермана типа NПБ = 12 будет следующим (табл. 12).

При построении данного плана в ячейки последнего опыта (№ 12) с
N = k+1 заносится кодированное значение (-) для всех факторов. Затем во втором столбце плана (для х1) по рекомендациям литературы [8,9] или по случайному принципу в ячейках располагается 6 (k/2) знаков "+" и 5 (k/2-1) знаков "-". Ячейки последующего столбца получаются из предыдущего. Первая ячейка последующего столбца является предпоследней ячейкой предыдущего столбца, а остальные первые k-2 ячейки предыдущего столбца переносятся под первую ячейку последующего столбца (со сдвигом по диагонали плана слева-направо-вниз).

Таблица 12

План эксперимента типа NПБ = 12

Но-

Кодированные значения факторов

y

мер

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

x11

x12

опы-

(*)

(*)

та n

1

+

-

+

-

-

-

+

+

+

-

+

+

2

+

+

-

+

-

-

-

+

+

+

-

+

3

-

+

+

-

+

-

-

-

+

+

+

-

4

+

-

+

+

-

+

-

-

-

+

+

+

5

+

+

-

+

+

-

+

-

-

-

+

+

6

+

+

+

-

+

+

-

+

-

-

-

+

7

-

+

+

+

-

+

+

-

+

-

-

-

8

-

-

+

+

+

-

+

+

-

+

-

-

9

-

-

-

+

+

+

-

+

+

-

+

-

10

+

-

-

-

+

+

+

-

+

+

-

+

11

-

+

-

-

-

+

+

+

-

+

+

-

12

-

-

-

-

-

-

-

-

-

-

-

-

* Фиктивные факторы, используемые для расчета случайных ошибок эксперимента.

Правильность построения плана ПлакеттаБермана определяется двумя признаками:

1. Диагональным расположением одинаковых знаков в ячейках плана.

2. Равенством количества знаков (+) и (-) в каждом столбце плана.

План с натуральными значениями факторов получается из плана с кодированными значениями путем замены знаков (+) и (-) на соответствующие им натуральные значения для каждого фактора.

С примерами составления других планов ДФЭ для проведения дисперсионного анализа и алгоритмами математической обработки результатов эксперимента можно ознакомиться в литературе [8].

Проведение дисперсионного анализа можно легко осуществить с помощью ПЭВМ с использованием различных общепризнанных статистических программных продуктов: STATGRAPHICS, STADIA, STATISTICA и др.

2.3. Пример составления плана эксперимента и проведения однофакторного дисперсионного анализа

С целью определения влияния типа катализатора (х) на выход пентозанов (y) при гидролизе березовых опилок был спланирован и проведен однофакторный (k = 1) четырехуровневый (m = 4) эксперимент с двукратным повторением каждого опыта (n = 2) и получены следующие единичные результаты измерений (табл. 13).

Таблица 13

План и результаты однофакторного эксперимента

Номер

повторного

Выход пентозанов (y), отн.%, при использовании

катализатора (х)

опыта, i

х0 (без катализатора)

х1 (катализатор № 1)

х2 (катализатор № 2)

х3 (катализатор № 3)

1

25

52

40

61

2

15

48

40

59

Расчеты однофакторного дисперсионного анализа полученных результатов эксперимента были выполнены на ПЭВМ с помощью пакета прикладных программ "STATISTICA" и их итоги представлены в табл. 14.

Таблица 14

Итоги расчетов однофакторного дисперсионного анализа

Источник дисперсии

Сумма квадратов

Число степеней свободы

Средний квадрат

Fp

Уровень значимости,

Фактор х

1750,000

3

583,3333

38,88889

0,002037

Случайные факторы

60,000

4

15,0000

-

-

Данные табл. 14 показывают, что тип катализатора влияет на выход пентозанов с вероятностью Р более 0,997 (Р = 1- = 0,099763).

Применим метод попарного сравнения средних арифметических результатов измерений для определения уровня фактора х, при котором влияние на свойство y превышает ошибки эксперимента.

Алгоритм расчетов зависит от соблюдения равенства выборочных дисперсий единичных значений ( и ).

Первоначально сравним выход пентозанов при реакции без катализатора (v =0) и с катализатором № 2 (v = 2). Выполним расчеты соответствующих параметров:

отн. %; отн. %;

(отн. %)2;

(отн. %)2.

Проверим равенство (однородность) выборочных дисперсий единичных значений:

;

Fт (Р = 0,95; f1 = f2 = n-1 = 2-1 =1) = 164,4;

Fp > Fт ( > 164,4).

Таким образом, с вероятностью 0,95 сравниваемые дисперсии и неоднородны, т.е. не равны друг другу (различия между ними "значимы"). Поскольку дисперсии неоднородны, то для сравнения средних арифметических значенийy0 иy2 воспользуемся T-критерием [8]:

; ; ;

(отн. %)2 ; (отн. %)2 ;

tт (Р = 0,95; f = n-1 = 2-1 =1) = 12,71;

отн. %;

< T.

Таким образом, исходя из полученного неравенства с вероятностью 0,95 следует считать, что катализатор № 2 (х2) не влияет на выход пентозанов при гидролизе березовых опилок.

Сравнение других пар средних арифметических значений yv показало, что с вероятностью 0,95 можно утверждать об увеличении выхода пентозанов при введении в реакцию гидролиза катализатора № 1 (х1) и катализатора № 3 (х3). По величине Fp следует, что катализатор № 3 имеет более высокую эффективность действия в исследованной реакции по сравнению с катализатором № 1.

Следует иметь в виду, что применение дисперсионного анализа дает более точные выводы, если величины y и xj имеют нормальное распределение. В противном случае для качественной оценки зависимости лучше использовать непараметрические методы факторного анализа.


EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

EMBED Equation.3

Планирование эксперимента для применения дисперсионного анализа