<< Пред.           стр. 4 (из 10)           След. >>

Список литературы по разделу

 f$=-0,15*3* 1/-0,09 = -0,45 / -0,09=5
 Теперь следует покупать 1 акцию на каждые 5 долларов баланса счета.
  Отметьте, что оптимальное f не изменяется с текущей ценой акции. Оно остается на уровне 0,09. Однако f$ меняется постоянно, так как меняется цена акции. Это не означает, что вы должны обязательно изменить позицию, которую уже открыли в этот день, но если бы вы так поступили, то это пошло бы на пользу торговле. Например, если вы открываете длинную позицию по какой-либо акции и ее цена падает, количество денег, которое вам следует разместить под 1 единицу (100 акций в этом случае), также уменьшится (если оптимальное f получено из приведенньк данных). Если ваше оптимальное f получено из необработанных данных, то количество денег, необходимое для 1 единицы, не уменьшится. В обоих случаях ваш дневной баланс понижается. Использование приведенного оптимального f делает более вероятным, что ежедневное изменение размера позиции пойдет вам на пользу Использование приведенных данных для оптимального f неизбежно влечет за собой изменение побочных продуктов1. Мы знаем, что и оптимальное f, и среднее геометрическое (и отсюда TWR) изменятся. Средняя арифметическая сделка также изменится, потому что все сделки в прошлом должны быть пересчитаны, как если бы они происходили при текущей цене. Таким образом, в нашем предполагаемом потоке результатов по 1 акции (+2,-3,+10и-5) мы получим среднюю сделку, равную 1 доллару. Когда мы используем процентные выигрыши и проигрыши (+0,1; -0,15; +0,2 и -0,1), то получаем среднюю сделку (в процентах) +0,5. При цене 100 долларов за акцию мы получим среднюю сделку 100 * 0,05, или 5 долларов за сделку. При цене 3 доллара за акцию средняя сделка становится равной 0,15 доллара (3 * 0,05).
 Средняя геометрическая сделка также изменится. Вспомните уравнение (1.14) для средней геометрической сделки:
 (1.14) GAT = G * (Наибольший проигрыш /-f),
 где G = (среднее геометрическое) -1;
  f=оптимальная фиксированная доля. (Разумеется, наш наибольший проигрыш всегда является отрицательным числом.)
 Это уравнение эквивалентно следующему:
 GAT = (среднее геометрическое - 1) * f$
 Мы получили новое среднее геометрическое на основе приведенных данных. Переменная f$, которая была постоянной, когда прошлые данные не приводились, теперь изменится, так как она является функцией текущей цены. Таким образом, наша средняя геометрическая сделка меняется, когда меняется цена базового инструмента.
  Порог геометрической торговли также должен измениться. Вспомните уравнение (2.02) для порога геометрической торговли:
 
  где Т = порог геометрической торговли;
  ААТ = средняя арифметическая сделка;
  GAT =средняя геометрическая сделка;
  f= оптимальное f (от 0 до 1). Это уравнение также можно переписать следующим образом:
  Т = ААТ/GAT* f$
 Наконец, при сведении в единый портфель нескольких рыночных систем мы должны рассчитать ежедневные HPR. Это также функция f$:
 (2.12) Дневное HPR = D$ / f$ + 1,
  где D$ = долларовое изменение цены 1 единицы по сравнению с прошлым днем, т. е. (закрытие сегодня - закрытие вчера) * (доллары за пункт);
  f$= текущее оптимальное f в долларах, рассчитанное из уравнения (2.11). Здесь текущей ценой является закрытие последнего дня.
 Предположим, некая акция сегодня вечером закрылась на уровне 99 долларов. На прошлой сессии ее цена была 102 доллара. Наибольший процентный проигрыш равен -15. Если f= 0,09, тогда f$ равно:
 f$ =-0,15*102*1/-0,09 =-15,3/-0,09 = 170
 Так как мы имеем дело только с одной акцией, цена одного пункта составляет 1 доллар. Мы можем теперь определить сегодняшнее дневное HPR из уравнения (2.12):
 (2.12) Дневное HPR = (99 -102) * 1 / 170 + 1 =-3/170+1
 = -0,01764705882 + 1 = 0,9823529412
  Теперь вернемся к началу нашей дискуссии. При потоке торговых P&L оптимальное f позволит получить наибольший геометрический рост (при условии, что арифметическое математическое ожидание положительное)'. Мы используем поток торговых P&L в качестве образца распределения возможных результатов в следующей сделке. Если привести к текущей цене поток прошлых прибылей и убытков, то мы сможем получить более правдоподобное распределение потенциальных прибылей и убытков для следующей сделки. Таким образом, нам следует рассчитывать оптимальное f из этого измененного распределения прибылей и убытков. Это не означает, что, используя оптимальное f, рассчитанное на основе приведенных данных, мы выиграем больше. Как видно из следующего примера, все выглядит несколько иначе:
 P&L Процент Цена f$ базового инструмента Количество акций Полный капитал При f= 0,09 (торговля приведенным методом): $10000 +2 0,1 20 $33,33 300 $10600 -3 -0,15 20 $33,33 318 $9646 +10 0,2 50 $83,33 115,752 $10803,52 -5 -0,1 50 $83,33 129,642 $10155,31
 P&L Процент Цена f$ базового инструмента Количество акций Полный капитал При f= 0,17 (торговля неприведенным методом): $10000 +2 0,1 20 $29,41 340,02 $10680,04 -3 -0,15 20 $29,41 363,14 $9 590,61 +10 0,2 50 $29,41 326,1 $12851,61 -5 -0,1 50 $29,41 436,98 $10666,71
 Однако если бы все сделки были рассчитаны на основе текущей цены (скажем, 100 долларов за акцию), приведенное оптимальное f позволило бы выиграть больше, чем необработанное оптимальное f.
  Что лучше использовать? Следует ли нам определять оптимальное f (и его побочные продукты) на основе приведенных данных или лучше действовать обычным способом? Это больше вопрос ваших предпочтений. Все зависит от того, что более важно в инструменте, которым вы торгуете: процентные изменения или абсолютные изменения. Будет ли движение в 2 доллара по акции в 20 долларов то же, что и движение в 10 долларов по акции в 100 долларов? Посмотрим, например, на торги по доллару и немецкой марке. Будет ли движение в 0,30 пункта при 0,4500 то же, что и движение в 0,40 пункта при 0,6000? На мой взгляд, лучше использовать приведенные данные. С этим, однако, можно поспорить. Например, если акция с 20 долларов выросла до 100 долларов, и мы хотим определить оптимальное f, нам, возможно, потребуется использовать только текущие данные. Сделки, которые происходили при цене в 20 долларов за акцию, относятся к рынку, значительно отличающемуся от существующего в настоящий момент.
  Лучше не использовать данные, когда базовый инструмент был на совершенно другом ценовом уровне, так как состояние рынка могло существенно измениться В этом смысле оптимальное f на основе необработанных данных и оптимальное f, получаемое из приведенных данных, будут почти идентичны, когда все сделки происходят при ценах, близких к текущей цене базового инструмента.
  Если действительно большое значение имеет то обстоятельство, приводите вы данные или нет, значит вы используете слишком много исторических данных. На самом деле, нет большой разницы, используете ли вы приведенные или необработанные данные, если нет вышеописанной проблемы, поэтому следует пользоваться приведенными данными. Это не означает, что оптимальное f, рассчитанное из приведенных данных, было оптимальным в прошлом. Оно могло таковым и не быть. Оптимальное f, рассчитанное из необработанных данных, могло быть оптимальным в прошлом. Однако оптимальное f, рассчитанное из приведенных данных, имеет больше смысла, так как приведенные данные являются более справедливым представлением распределения возможных результатов по следующей сделке.
  Уравнения с (2. 10а) по (2. 10в) дают разные ответы в зависимости от того, какая была открыта позиция: длинная или короткая. Например, если акция куплена за 80, а продана за 100, выигрыш составит 25%. Однако если акция продана по 100, а закрыта по 80, то выигрыш составит только 20%. В обоих случаях позицию открыли по 80 и закрыли по 100. Таким образом, последовательность - хронология трансакций - должна приниматься во внимание. Так как хронология трансакций затрагивает распределение процентных выигрышей и проигрышей, мы допускаем, что будущая хронология скорее всего будет подобна прошлой. Конечно, мы можем игнорировать хронологию сделок (используя 2.10в для длинных позиций и цену выхода в знаменателе 2.10в для коротких позиций), но это означало бы уменьшение информации в исторических данных. Более того,
 риск торговли является функцией хронологии торговли, и этот факт мы были бы вынуждены игнорировать.
 
 
 Усреднение цены при покупке и продажа акций
 Это старая, мало используемая техника управления деньгами, которая является идеальным инструментом для работы в ситуациях, когда у вас мало информации. Рассмотрим пример: Джо Пуцивакян каждую неделю заливает в свою машину бензина на 20 долларов, независимо от цены бензина в эту неделю. Он всегда заправляется на 20 долларов и каждую неделю использует только 20 долларов. Когда цена бензина выше, это вынуждает его быть более экономным при вождении.
  Джо Пуцивакян покупает больше бензина, когда он дешевле, и меньше, когда он дороже. Поэтому всю свою жизнь он платит за галлон бензина цену ниже средней. Другими словами, если вы усредните стоимость галлона бензина за все недели, когда Джо водил автомобиль, среднее значение будет выше, чем платил Джо.
  У Джо есть двоюродный брат, Сесил Пуцивакян. Когда ему нужен бензин, он просто наполняет бак и сетует на высокую цену. В результате, Сесил использует постоянное количество топлива каждую неделю и поэтому платит среднюю цену всю свою автомобильную жизнь.
  Предположим, вы ищите долгосрочную инвестиционную программу. В итоге вы решаете вложить деньги во взаимный фонд, чтобы обеспечить себе достойную старость. Вы полагаете, что, когда уйдете на пенсию, акции взаимного фонда будут стоить намного дороже, чем сегодня, то есть, в асимптотическом смысле, инвестиции во взаимный фонд принесут деньги (с другой стороны, в асимптотическом смысле, и молния дважды ударит в одно и то же место). Однако вы не знаете, какова будет стоимость этих вложений в следующем месяце или в следующем году. У вас нет информации о краткосрочной тенденции цен акций взаимного фонда.
  Чтобы решить эту проблему, вы можете усреднить цену покупки акций взаимного фонда. Скажем, вы хотите купить акции взаимного фонда на определенную сумму в течение двух лет. Для инвестирования у вас есть 36 000 долларов. Поэтому каждый месяц в течение следующих 24 месяцев из этих 36 000 долларов вы будете инвестировать в фонд по 1500 долларов. Таким образом, вы вложите деньги в фонд ниже средней цены. Под "средней" имеется в виду средняя цена за 24 месяца, в течение которых вы инвестируете. Это не обязательно означает, что вы получите цену, которая меньше, чем в случае разовой инвестиции 36 000 долларов, и не гарантирует, что в конце этих 24 месяцев вы получите прибыль на вложенные 36 000 долларов. Сумма, которую вы инвестировали в акции фонда, к этому времени может быть меньше 36 000 долларов. Все вышесказанное означает только то, что если вы войдете в какой-то произвольной точке в течение 24 месяцев с 36 000 долларов, то сможете купить меньше акций фонда и, следовательно, заплатите более высокую цену, чем при усреднении.
 Похожим образом следует поступать, когда вы собираетесь выйти из взаимного фонда, только теперь это относится к усреднению цены продаж акций, а не к усреднению цены покупки. Скажем, вы уходите на пенсию с 1000 акций этого взаимного фонда. Вы не знаете, пришло время выходить из фонда или нет, поэтому решаете продавать акции в течение 2 лет (24 месяца), чтобы усреднить цену выхода. Вот как следует действовать. Возьмите общее количество акций (1000) и разделите их на количество периодов, за которое хотите выйти (24 месяца). Так как 1000 / 24 = 41,67, то последующие 24 месяца вы будете продавать 41,67 акций каждый месяц. Таким образом, вы продадите свои акции по более высокой цене, чем средняя цена за эти 24 месяца. Конечно, нет гарантии, что вы продадите их по более высокой цене, чем сегодняшняя, и совсем необязательно, что вы продадите акции по более высокой цене, чем через 24 месяца. Вы получите более высокую цену, чем средняя цена за период времени, когда вы усредняетесь. Это вам гарантировано. Те же принципы можно применять к торговому счету. В противоположность "одному решительному шагу" в какой-то точке в течение выбранного отрезка времени входите на рынок по лучшей "средней цене". При отсутствии информации о том, каким будет краткосрочное изменение баланса на счете, вам лучше усредняться. Не полагайтесь только на свою выдержку и интуицию, используйте методы измерения зависимости ежемесячных изменений баланса торговой программы (см. главу 1). Попытайтесь понять, есть ли зависимость в ежемесячных изменениях баланса. Если зависимость существует при достаточно высоком доверительном уровне, чтобы вы могли полностью войти в благоприятной точке, тогда так и делайте. Однако если нет достаточно высокой уверенности относительно зависимости в ежемесячных изменениях баланса, тогда усредняйтесь. Таким образом, у вас будет преимущество в асимптотическом смысле. То же верно в случае снятия денег со счета. Аналогично усреднению при покупке (неважно, торгуете вы акциями или товарами) следует принять решение о дате начала усреднения, а также о том, насколько долгий период времени необходим для усреднения. В тот день, когда вы собираетесь начать усреднение, разделите баланс счета на 100. Это даст вам стоимость "I акции". Теперь разделите 100 на количество периодов, по прошествии которых вы закончите усреднение. Скажем, вы хотите снять все деньги со счета в течение следующих 20 недель. Разделив 100 на 20, вы получите 5. Поэтому вы будете снимать со своего счета 5 "акций" в неделю. Умножьте величину, которую вы вычислили как 1 "акцию", на 5, чтобы знать, сколько денег снять с торгового счета в эту неделю. Теперь вы должны отслеживать, сколько "акций" у вас осталось. Так как вы взяли 5 долей на прошлой неделе, у вас осталось 95. Когда подойдет время для второго снятия, разделите баланс на вашем счете на 95 и умножьте на 5. Это даст вам стоимость 5 "акций", которые вы "переведете в наличные" на этой неделе. Следуйте этой стратегии, пока у вас не закончатся "акции". Таким образом, средняя цена продажи будет лучше, чем цена в произвольной точке в течение этих 20 недель.
 Этот принцип усреднения настолько прост, что остается только поражаться, почему мало кто ему следует. Я всегда использую этот принцип в торговле, однако не встречал никого, кто следовал бы моему примеру. Причина проста. Эта достаточно эффективная концепция требует дисциплины и времени для проработки, и при этом точно те же составляющие необходимы для использования концепции оптимального f. Посоветуйтесь с Джо Пуцивакяном. Понять концепции и поверить в них - только полдела. Самое важное - следовать им.
 Законы арксинуса и случайное блуждание
 Давайте поговорим о проигрышах, но сначала скажем несколько слов о первом и втором законах арксинуса. Эти принципы относятся к случайному блужданию. Поток торговых P&L в некоторых случаях может быть неслучайным, хотя обычно большинство потоков торговых прибылей и убытков почти случайны, что можно подтвердить серийным тестом и коэффициентом линейной корреляции. Законы арксинуса предполагают, что вы заранее знаете сумму, которую можно выиграть или проиграть, и допускают, что сумма, которую можно выиграть, равна сумме, которую можно проиграть, и эта сумма постоянна. В нашей дискуссии мы допустим, что сумма, которую вы можете выиграть или проиграть, - это 1 доллар за каждую игру. Законы арксинуса также допускают, что у вас есть 50% шанс выигрыша и 50% шанс проигрыша. Таким образом, законы арксинуса предполагают игру, где математическое ожидание составляет 0. Эти предположения относятся к играм, которые значительно проще, чем торговля. Однако первый и второй законы арксинуса в точности относятся к только что описанной игре. Конечно, напрямую они не применимы к реальной торговле, но для наглядности мы не будем различать игру и торговлю. Представим себе действительно случайную последовательность, такую, как бросок монеты1, где мы получаем 1 единицу, когда выигрываем, и теряем 1 единицу, когда проигрываем. Если бы мы строили кривую баланса за Х число бросков, то наносили бы точки с координатами (X, Y), где Х представляет собой номер броска, а Y - наш общий выигрыш или проигрыш после этого броска.
 Введем понятие положительной области, когда кривая баланса находится выше оси Х или на оси X, если предыдущая точка была выше X. Таким же образом мы определим отрицательную область, когда кривая баланса находится ниже оси Х или на оси X, если предыдущая точка была ниже X. Логично предположить, что общее количество точек в положительной области будет примерно равно общему количеству точек в отрицательной области. На самом деле это не так. Если бросить монету N раз, то вероятность (Prob) осуществления К событий в положительной области составит:
 
 Символ ~ означает, что обе части стремятся к равенству в пределе. В этом случае, так как или К, или (N - К) стремятся к бесконечности, обе части уравнения будут стремиться к равенству.
 Таким образом, если бросить монету 10 раз (N = 10), мы получим следующие вероятности нахождения в положительной области:
 К Вероятность2 о 0,14795 1 0,1061 2 0,0796 3 0,0695 4 0,065 5 0,0637 6 0,065 7 0,0695 8 0,0796 9 0,1061 10 0,14795
 Можно ожидать попадания в положительную область 5-ти из 10-ти бросков, но это наименее вероятный результат!
  Наиболее вероятным результатом будет нахождение в положительной области при всех бросках или ни при одном!
  Этот принцип формально описывается в первом законе арксинуса, который гласит:
  Для фиксированного А (0 < А < 1), когда N стремится к бесконечности, время, проведенное в положительной области (т.е., когда К / N < А), будет определяться следующим образом:
 
 N = количество бросков;
 К = количество бросков в положительной области.
  Даже при N = 20 вы получите очень хорошее приближение для вероятности.
  Уравнение (2.14), то есть первый закон арксинуса, говорит нам, что с вероятностью 0,1 кривая баланса счета проведет 99,4% времени в одной области (положительной или отрицательной). С вероятностью 0,2 кривая баланса будет находиться в той же области 97,6% времени. С вероятностью 0,5 кривая баланса счета проведет в одной области более 85,35% времени. Настолько упряма кривая баланса простой монетки!
  Существует также второй закон арксинуса, который основан на уравнении (2.14) и дает те же вероятности, что и первый закон арксинуса, но применяется к другому случаю, максимуму или минимуму кривой баланса. Второй закон арксинуса гласит, что максимальная (или минимальная) точка кривой баланса вероятнее всего будет при начальном или конечном бросках, чем в середине игры. Распределение будет таким же, как и в случае со временем, проведенным в одной области!
  Если вы бросаете монету N раз, вероятность достижения максимума (или минимума) в точке К на кривой баланса также описывается уравнением (2.13):
 
 Таким образом, если бросить монету 10 раз (N = 10), мы получим следующие вероятности максимума (или минимума) при К бросках:
 к Вероятность о 0,14795 1 0,1061 2 0,0796 3 0,0695 4 0,065 5 0,0637 6 0,065 7 0,0695 8 0,0796 9 0,1061 10 0,14795
 Второй закон арксинуса говорит о том, что максимум (или минимум) вероятнее всего будет рядом с крайними точками кривой баланса.
 Время, проведенное в проигрыше
 Вспомните первоначальные предположения в законах арксинуса. Законы арксинуса допускают 50% шанс выигрыша и 50% шанс проигрыша. Более того, они допускают, что вы выигрываете или проигрываете одинаковые суммы, а поток сделок случаен. Торговля является значительно более сложной игрой. Таким образом, в чистом виде законы арксинуса не применимы к торговле. Законы арксинуса верны при нулевом арифметическом математическом ожидании. Таким образом, согласно первому закону, мы можем интерпретировать процент времени, проведенного с любой стороны нулевой линии, как процент времени с любой стороны арифметического математического ожидания. Так же обстоит дело и со вторым законом, где вместо того, чтобы искать абсолютный максимум и минимум, мы поищем максимум выше математического ожидания и минимум ниже его. Минимум ниже математического ожидания может быть больше, чем максимум выше него, если минимум был позднее, и арифметическое математическое ожидание было повышающейся линией (как в торговле), а не горизонтальной линией на нулевом уровне. Таким образом, мы можем считать, что общая идея законов арксинуса применима к торговле. Однако вместо горизонтальной линии на нулевом уровне следует начертить линию, направленную вверх со скоростью арифметической средней торговли (если торговля ведется постоянным количеством контрактов). Если мы
 используем торговлю фиксированной долей, то линия будет направлена вверх, становясь более крутой со скоростью среднего геометрического. Мы можем интерпретировать первый закон арксинуса следующим образом: наша система будет находиться с одной стороны линии математического ожидания большее число сделок, чем с другой стороны этой линии. В отношении второго закона арксинуса можно сказать, что максимальные отклонения от линии математического ожидания (выше или ниже ее) будут чаще встречаться рядом с начальной или конечной точкой кривой баланса и реже в середине. Отметим еще одну характеристику, которая очень важна при торговле с оптимальным f. Эта характеристика касается времени, которое вы проводите между двумя пиками баланса. Если вы торгуете на уровне оптимального f (в одной рыночной системе или портфелем рыночных систем), период самого длительного проигрыша1 (не обязательно наибольшего) может составить от 35 до 55% времени, на протяжении которого ведется торговля. Это справедливо независимо от того, какой временной период вы рассматриваете! (Время здесь измеряется в сделках).
  Это правило не жесткое. Скорее, это возможное проявление сути законов арксинуса в реальной жизни.
 Данный принцип справедлив независимо от того, насколько длинный или короткий период времени вы рассматриваете. Мы можем находиться в проигрыше приблизительно от 35 до 55% времени за весь период работы торговой программы! Это верно независимо от того, используем мы одну рыночную систему или портфель. Поэтому надо быть готовыми к периодам проигрыша 35-55% времени торговой программы, тогда мы сможем психологически подготовиться к торговле в эти периоды.
 Собираетесь ли вы управлять чьим-то счетом, отдать деньги в управление или торговать со своего собственного счета, вы должны помнить о законах арксинуса и знать, что может произойти с кривой баланса, а также помнить правило 35-55%. Таким образом, вы будете готовы к тому, что может произойти в будущем. Мы достаточно подробно изучили эмпирические подходы. Кроме того, мы обсудили многие характеристики торговли фиксированной долей и узнали некоторые полезные методы, которые будут использоваться в дальнейшем. Мы увидели, что при торговле на оптимальных уровнях следует ожидать не только значительных падений баланса счета, но и длительного периода времени, необходимого для того, чтобы снова заработать проигранные деньги. В следующей главе мы поговорим о параметрических подходах.
 
 
 Глава 3
 Параметрическое оптимальное f при нормальном распределении
 
 Теперь, когда мы закончили рассмотрение эмпирических методов, а также характеристик торговли фиксированной долей, мы изучим параметрические методы. Эти методы отличаются от эмпирических тем, что в них не используется прошлая история в качестве данных, с которыми придется работать. Мы просто наблюдаем за прошлой историей для создания математического описания распределения исторических данных. Это математическое описание основывается на том, что произошло в прошлом, а также на том, что, как мы ожидаем, произойдет в будущем. В параметрических методах мы имеем дело с этими математическими описаниями, а не с самой прошлой историей. Математические описания, используемые в параметрических методах, называются распределениями вероятности. Чтобы использовать параметрические методы, мы должны сначала изучить распределения вероятности. Затем мы перейдем к изучению очень важного типа распределения, нормального распределения. Мы узнаем, как найти оптимальное/и его побочные продукты при нормальном распределении.
 
 Основы распределений вероятности
 Представьте себе, что вы находитесь на ипподроме и ведете запись мест, на которых лошади финишируют в забегах. Вы записываете, какая лошадь пришла первой, какая второй и так далее для каждого забега. Учитываются только первые десять мест. Если лошадь пришла после десятой, то вы запишете ее на десятое место. Через несколько дней вы соберете достаточное количество информации и увидите распределение финишных мест для каждой лошади. Теперь вы можете взять полученные данные и нанести на график. По горизонтальной оси будут отмечаться места, на которых лошадь финишировала, слева на оси будет наихудшее место (десятое), а справа наилучшее (первое). На вертикальной оси мы будем отмечать, сколько раз беговая лошадь финишировала в позиции, отмеченной на горизонтальной оси. Вы увидите, что построенная кривая будет иметь колоколообразную форму.
  При таком сценарии есть десять возможных финишных мест для каждого забега. Мы будем говорить, что в этом распределении - десять ячеек (bins). Посмотрим, что произойдет, если вместо десяти мы будем использовать пять ячеек. Первая ячейка будет для первого и второго места, вторая ячейка для третьего и четвертого места и так далее. Как это отразится на результатах?
  Использование меньшего количества ячеек при том же наборе данных в результате дало бы распределение вероятности с тем же профилем, что и при большом количестве ячеек. То есть графически они бы выглядели примерно одинаково. Однако использование меньшего количества ячеек уменьшает информационное содержание распределения, и наоборот, использование большего количества ячеек повышает информационное содержание распределения. Если вместо финишных позиций лошадей в каждом забеге мы будем записывать время, за которое пробежала лошадь, округленное до ближайшей секунды, то получим не десять ячеек, а больше, и, таким образом, информационное содержание распределения увеличится.
  Если бы мы записали точное время финиша, а не округленное до секунд, то могли бы построить непрерывное распределение. При непрерывном распределении нет ячеек. Представьте непрерывное распределение как серию бесконечно малых ячеек (см. рисунок 3-1). Непрерывное распределение отличается от дискретного, которое является ячеистым распределением. Хотя создание ячеек уменьшает информационное содержание распределения, в реальной жизни это единственно возможный подход для обработки ячеистых данных, поэтому на практике приходится жертвовать частью информации, сохраняя при этом профиль распределения. И наконец, вы должны понимать, что можно взять непрерывное распределение и сделать его дискретным путем создания ячеек, но невозможно дискретное распределение переделать в непрерывное.
  Когда мы имеем дело с торговыми прибылями и убытками, то чаще всего рассматриваем непрерывное распределение. Сделка может иметь множество исходов (хотя мы можем округлить цены до ближайшего цента). Для того чтобы работать с
 таким распределением, потребуется разбить данные на ячейки, например шириной 100 долларов. Такое распределение имело бы отдельную ячейку для сделок, прибыли которых оказались ниже 99,99 доллара, другую ячейку для сделок от 100 до 199,99 доллара и так далее. При таком подходе будет определенная потеря информации, но профиль распределения торговых прибылей и убытков не изменится.
 
 Рисунок 3-1 Непрерывное распределение является серией бесконечно малых ячеек.
 Величины, описывающие распределения
 Многие из вас наверняка знакомы со средним, или, если говорить точнее, средним арифметическим (arithmetic mean). Это просто сумма значений, соответствующих точкам распределения, деленная на количество точек данных:
 
  где А = среднее арифметическое;
  X. = значение, соответствующее точке i;
  N = общее число точек данных в распределении.
 Среднее арифметическое является самым распространенным из набора величин, оценивающих расположение (location) или центральную тенденцию (central tendency) тела данных распределения. Однако вы должны знать, что среднее арифметическое является не единственным доступным измерением центральной тенденции, и зачастую не самым лучшим. Среднее арифметическое обычно оказывается плохим выбором, когда распределение имеет широкие хвосты (tails1 ). Если при исследовании распределения с очень широкими хвостами вы случайным образом будете выбирать точки данных для расчета среднего, то, проделав это несколько раз подряд, увидите, что средние арифметические, полученные таким способом, заметно отличаются друг от друга. Еще одной важной величиной, определяющей расположение распределения, является медиана (median). Медиана описывает среднее значение, когда данные расположены по порядку в соответствии с их величиной. Медиана делит распределение вероятности на две половины таким образом, что площадь под кривой одной половины равна площади под кривой другой половины. В некоторых случаях медиана лучше задает центральную тенденцию, чем среднее арифметическое. В отличие от среднего арифметического медиана не искажается крайними случайными значениями. Более того, медиану можно рассчитать даже для распределения, в котором все значения выше заданной ячейки попадают в определенную ячейку. Примером такого распределения является рассмотренный выше забег лошадей. Любое финишное место после десятого записывается в десятое место. Медиана широко используется в Бюро Переписи США. Третьей величиной, определяющей центральную тенденцию, является мода (mode) - наиболее часто повторяющееся событие (или значение данных). Мода - это пик кривой распределения. В некоторых распределениях нет моды, а иногда есть более чем одна мода. Как и медиана, мода в некоторых случаях может лучше всего описывать центральную тенденцию. Мода никак не зависит от крайних случайных значений, и ее можно рассчитать быстрее, чем среднее арифметическое или медиану. Мы увидели, что медиана делит распределение на две равные части. Таким же образом распределение можно разделить тремя квартилями (quartiles), чтобы получить четыре области равного размера или вероятности, или девятью децилями (deciles), чтобы получить десять областей равного размера или вероятности, или 99 перцентилями (percentiles) (чтобы получить 100 областей равного размера или вероятности), 50-й перцентиль является медианой и вместе с 25-м и 75-м перцентилями дает нам квартили. И наконец, еще один термин, с которым вы должны познакомиться, - это квантиль (quantile). Квантиль - это некоторое число N-1, которое делит общее поле данных на N равных частей. Теперь вернемся к среднему. Мы обсудили среднее арифметическое, которое измеряет центральную тенденцию распределения. Есть и другие виды средних, они реже встречаются, но в определенных случаях также могут оказаться предпочтительнее. Одно из них - это среднее геометрическое (geometric mean), расчет которого дан в первой главе. Среднее геометрическое является корнем степени N из произведения значений, соответствующих точкам распределения.
 
  где G = среднее геометрическое;
  Х = значение, соответствующее точке i;
  N = общее число точек данных в распределении.
 Среднее геометрическое не может быть рассчитано, если хотя бы одна из переменных меньше или равна нулю.
  Мы знаем, что арифметическое математическое ожидание является средним арифметическим результатом каждой игры (на основе 1 единицы) минус размер ставки. Таким же образом можно сказать, что геометрическое математическое ожидание является средним геометрическим результатом каждой игры (на основе 1 единицы) минус размер ставки.
  Еще одним видом среднего является среднее гармоническое (harmonic mean). Это обратное значение от среднего обратных значений точек данных.
 
  где Н = среднее гармоническое;
  Х = значение, соответствующее точке i;
  N = общее число точек данных в распределении.
 Последней величиной, определяющей центральную тенденцию, является среднее квадратическое (quadratic mean), или среднеквадратический корень (root mean square).
 
  где R = среднеквадратический корень;
  Х = значение, соответствующее точке i;
  N = общее число точек данных в распределении.
 Вы должны знать, что среднее арифметическое (А) всегда больше или равно среднему геометрическому (G), а среднее геометрическое всегда больше или равно среднему гармоническому (Н):
 
  G = среднее геометрическое;
  А = среднее арифметическое.
 Моменты распределения
 Центральное значение, или расположение распределения, - первое, что надо знать о группе данных. Следующая величина, которая представляет интерес, - это изменчивость данных, или "ширина" относительно центрального значения. Мы назовем значение центральной тенденции первым моментом распределения. Изменчивость точек данных относительно центральной тенденции называется вторым моментом распределения. Следовательно, второй момент измеряет разброс распределения относительно первого момента.
  Как и в случае с центральной тенденцией, существует много способов измерения разброса. Далее мы рассмотрим семь из них, начиная с наименее распространенных вариантов и заканчивая самыми распространенными.
  Широта (range) распределения - это просто разность между самым высоким и самым низким значением распределения. Таким же образом широта перцентиля 10-90 является разностью между 90-й и 10-й точками. Эти первые две величины измеряют разброс по крайним точкам. Остальные пять измеряют отклонение от центральной тенденции (т.е. измеряют половину разброса).
  Семи-интерквартильная широта (sem-interquartile range), или квартальное отклонение (quartile deviation), равна половине расстояния между первым и третьим квартилями (25-й и 75-й перцентили). В отличие от широты перцентиля 10-90, здесь широта делится на два.
  Полуширина (half-width) является наиболее распространенным способом измерения разброса. Сначала надо найти высоту распределения в его пике (моде), затем найти точку в середине высоты и провести через нее горизонтальную линию перпендикулярно вертикальной линии. Горизонтальная линия пересечет кривую распределения в одной точке слева и в одной точке справа. Расстояние между этими двумя точками называется полушириной.
  Среднее абсолютное отклонение (mean absolute deviation), или просто среднее отклонение, является средним арифметическим абсолютных значений разности значения каждой точки и среднего арифметического значений всех точек. Другими словами (что и следует из названия), это среднее расстояние, на которое значение точки данных удалено от среднего. В математических терминах:
 
 где М = среднее абсолютное отклонение;
 N = общее число точек данных;
 X. = значение, соответствующее точке i;
 А = среднее арифметическое значений точек данных;
 ABS() = функция абсолютного значения.
 Уравнение (3.06) дает нам совокупное среднее абсолютное отклонение. Вам следует знать, что можно рассчитать среднее абсолютное отклонение по выборке. Для расчета среднего абсолютного отклонения выборки замените 1 / N в уравнении (3.06) на 1 / (N - 1). Используйте эту версию, когда расчеты ведутся не по всей совокупности данных, а по некоторой выборке.
 Самыми распространенными величинами для измерения разброса являются дисперсия и стандартное отклонение. Как и в случае со средним абсолютным отклонением, их можно рассчитать для всей совокупности и для выборки. Далее показана версия для всей совокупности данных, которую можно легко переделать в выборочную версию, заменив l/NHal/(N-l). Дисперсия (variance) чем-то напоминает среднее абсолютное отклонение, но при расчете дисперсии каждая разность значения точки данных и среднего значения возводится в квадрат. В результате, нам не надо брать абсолютное значение каждой разности, так как мы автоматически получаем положительный результат, независимо от того, была эта разность отрицательной или положительной. Кроме того, так как в квадрат возводится каждая из этих величин, крайние выпадающие значения оказывают большее влияние на дисперсию, а не на среднее абсолютное отклонение. В математических терминах:
 
  где V = дисперсия;
  N = общее число точек данных;
  X. = значение, соответствующее точке i;
  А = среднее арифметическое значений точек данных.
 Стандартное отклонение (standard deviation) тесно связано с дисперсией (и, следовательно, со средним абсолютным отклонением). Стандартное отклонение является квадратным корнем дисперсии.
 Третий момент распределения называется асимметрией (skewness), и он описывает асимметричность распределения относительно среднего значения (рисунок 3-2). В то время как первые два момента распределения имеют размерные величины (то есть те же единицы измерения, что и измеряемые параметры), асимметрия определяется таким способом, что получается безразмерной. Это просто число, которое описывает форму распределения.
 Положительное значение асимметрии означает, что хвосты больше с положительной стороны распределения, и наоборот. Совершенно симметричное распределение имеет нулевую асимметрию.
 
 Рисунок 3-2 Асимметрия
 
 Рисунок 3-3 Асимметричное распределение
 В симметричном распределении среднее, медиана и мода имеют одинаковое значение. Однако когда распределение имеет ненулевое значение асимметрии, оно может принять вид, показанный на рисунке 3-3. Для асимметричного распределения (любого распределения с ненулевой асимметрией) верно равенство:
 (3.08) Среднее - Мода = 3 * (Среднее - Медиана)
 Есть много способов для расчета асимметрии, и они часто дают различные ответы. Ниже мы рассмотрим несколько вариантов:
 (3.09) S == (Среднее - Мода) / Стандартное отклонение
 (3.10) S = (3 * (Среднее - Медиана)) / Стандартное отклонение
 Уравнения (3.09) и (3.10) дают нам первый и второй коэффициенты асимметрии Пирсона. Асимметрия также часто определяется следующим образом:
 
 где S = асимметрия;
 N = общее число точек данных;
 Х = значение, соответствующее точке i;
 А = среднее арифметическое значений точек данных;
 D = стандартное отклонение значений точек данных.
 И наконец, четвертый момент распределения, эксцесс (kurtosis) (см. рисунок 3-4), измеряет, насколько у распределения плоская или острая форма (по сравнению с нормальным распределением). Как и асимметрия, это безразмерная величина. Кривая, менее остроконечная, чем нормальная, имеет эксцесс отрицательный, а кривая, более остроконечная, чем нормальная, имеет эксцесс положительный. Когда пик кривой такой же, как и у кривой нормального распределения, эксцесс равен нулю, и мы будем говорить, что это распределение с нормальным эксцессом.
 Как и предыдущие моменты, эксцесс имеет несколько способов расчета. Наиболее распространенными являются:
 
 где К = эксцесс;
 Q == семи-интерквартильная широта;
 Р = широта перцентиля 10-90.
 
 (3.13) К = (1 / N (? (((X - Аi) / D)^ 4))) - 3,
 где К = эксцесс;
 N = общее число точек данных;
 Х = значение, соответствующее точке i;
 А = среднее арифметическое значений точек данных;
 D = стандартное отклонение значений точек данных.
 
 Рисунок 3-4 Эксцесс
 Наконец, необходимо отметить, что "теория", связанная с моментами распределения, намного серьезнее, чем то, что представлено здесь. Для более глубокого понимания вам следует просмотреть книги по статистике, упомянутые в списке рекомендованной литературы. Для наших задач изложенного выше вполне достаточно.
 До настоящего момента рассматривалось распределение данных в общем виде. Теперь мы изучим нормальное распределение.
 Нормальное распределение
 Часто нормальное распределение называют распределением Гаусса, или Муавра, в честь тех, кто, как считается, открыл его - Карл Фридрих Гаусс (1777-1855) и, веком ранее, что не так достоверно, Авраам де Муавр (1667-1754). Нормальное распределение считается наиболее ценным распределением, благодаря тому, что точно моделирует многие явления. Давайте рассмотрим приспособление, более известное как доска Галтона (рисунок 3-5). Это вертикально установленная доска в форме равнобедренного треугольника. В доске расположены колышки, один в верхнем ряду, два во втором, и так далее. Каждый последующий ряд имеет на один колышек больше. Колышки в сечении треугольные, так что, когда падает шарик, у него есть вероятность 50/50 пойти вправо или влево. В основании доски находится серия желобов для подсчета попаданий каждого броска.
 
 Рисунок 3-5 Доска Галтона
 Шарики, падающие через доску Галтона и достигающие желобов, начинают формировать нормальное распределение. Чем "глубже" доска (то есть чем больше рядов она имеет) и чем больше шариков бросается, тем ближе конечный результат будет напоминать нормальное распределение.
  Нормальное распределение интересно еще и потому, что оно является предельной формой многих других типов распределений. Например, если Х распределено биномиально, а N стремится к бесконечности, то Х стремится к нормальному распределению. Более того, нормальное распределение также является предельной формой многих других ценных распределений вероятности, таких как Пуассона, Стьюдента (или t-распределения). Другими словами, когда количество данных (N), используемое в этих распределениях, увеличивается, они все более напоминают нормальное распределение.
 
 Центральная предельная теорема
 Одно из наиболее важных применений нормального распределения относится к распределению средних значений. Средние значения выборок заданного размера, взятые таким образом, что каждый элемент выборки отобран независимо от других, дадут распределение, которое близко к нормальному Это чрезвычайно важный факт, так как он означает, что вы можете получить параметры действительно случайного процесса из средних значений, рассчитанных на основе выборочных данных.
 
 Рисунок 3-6 Экспоненциальное распределение и нормальное распределение
 Таким образом, мы можем сформулировать, что если N случайных выборок извлекаются из совокупности всех данных, тогда суммы (или средние значения) выборок будут приблизительно нормально распределяться независимо от распределения совокупности, из которой взяты эти выборки. Близость к нормальному распределению увеличивается, когда N (число выборок) возрастает. В качестве примера рассмотрим распределение чисел от 1 до 100. Это равномерное распределение, где все элементы (в данном случае числа) встречаются только раз. Например, число 82 встречается один раз, так же как и 19, и так далее. Возьмем выборку из пяти элементов и среднее значение этих пяти элементов (мы можем также взять их сумму). Теперь поместим полученные пять элементов обратно, возьмем другую выборку и рассчитаем среднее. Если мы будем продолжать этот процесс дальше, то увидим, что полученные средние нормально распределяются, даже если совокупность, из которой они взяты, распределена равномерно.
 Все вышесказанное верно независимо от того, как распределена совокупность данных! Центральная предельная теорема позволяет нам обращаться с распределением средних значений выборок, как с нормальным, без необходимости знать распределение совокупности. Это чрезвычайно удобный факт для многих областей исследований. Если совокупность нормально распределена, то распределение средних значений выборок будет точно (а не приблизительно) нормальным. Кроме того, скорость, с которой распределение средних значений выборок приближается к нормальному при повышении N, зависит от того, насколько близко совокупность находится к нормальному распределению. Общее практическое правило следующее: если совокупность имеет унимодальное (одновершинное) распределение (любой тип распределения, где есть концентрация частоты вокруг одной моды и уменьшение частот с любой стороны моды, например, выпуклость) или равномерно распределяется, то можно использовать N = 20 (это считается достаточным) и N = 10 (это считается достаточным с большой вероятностью). Однако если совокупность распределена экспоненциально (рисунок 3-6), тогда может потребоваться и N = 100.
 Центральная предельная теорема, этот поразительно простой и красивый факт, подтверждает важность нормального распределения.
 Работа с нормальным распределением
 При использовании нормального распределения часто требуется найти долю площади под кривой распределения в данной точке на кривой. На математическом языке это называется интегралом функции, задающей кривую. Таким же образом функция, которая задает кривую, является производной площади под кривой. Если у нас есть функция N(X), которая представляет процент площади под кривой в точке X, мы можем говорить, что производная этой функции N'(X) является функцией самой кривой в точке X.
  Мы начнем с формулы самой кривой N' (X). Данная функция выглядит следующим образом:
 
 где U = среднее значение данных;
 S =стандартное отклонение данных;
 Х = наблюдаемая точка данных;
 ЕХР () = экспоненциальная функция.
 Эта формула даст нам значение для оси Y, или высоту кривой, при любом данном значении X.
  Часто мы будем говорить о точке на кривой, ссылаясь на ее координату X, и будем смотреть, на сколько стандартных отклонений она удалена от среднего. Таким образом, точка данных, которая удалена на одно стандартное отклонение от среднего, считается смещенной на одну стандартную единицу (standard units) от среднего.
 
 Рисунок 3- 7 Функция плотности нормального распределения вероятности
 Более того, часто имеет смысл из всех точек данных вычесть среднее. При этом центр распределения сместится в начало координат. В этом случае точка данных, которая смещена на одно стандартное отклонение вправо от среднего, имеет значение 1 на оси X.
  Если мы вычтем среднее из точек данных, а затем разделим полученные значения на стандартное отклонение точек данных, то преобразуем распределение в нормированное нормальное (standardized normal). Это нормальное распределение со средним, равным 0, и дисперсией, равной 1. Теперь N'(Z) даст нам значение на оси Y (высота кривой) для любого значения Z:
 
  U = среднее значение данных;
  S = стандартное отклонение данных;
  Х = наблюдаемая точка данных;
 ЕХР() = экспоненциальная функция.
 Уравнение (3.16) дает нам число стандартных единиц, которым соответствует точка данных; другими словами, число стандартных отклонений, на которое точка данных смещена от среднего. Когда уравнение (3.16) равно 1, оно называется стандартным нормальным отклонением (standard normal deviate) от среднего значения. Стандартное отклонение, или стандартная единица, иногда называется сигмой (sigma). Таким образом, когда говорят о событии, которое было "событием пяти сигма", то речь идет о событии, вероятность которого находится за пределами пяти стандартных отклонений.
  Рисунок 3-7 показывает нормальную кривую, заданную предедущим уравнением. Отметьте, что высота стандартной нормальной кривой составляет 0,39894, поскольку из уравнения (3.15а) мы получаем:
 
 Отметьте, что кривая непрерывна (в ней нет "разрывов"), когда она переходит из отрицательной области слева в положительную область справа. Отметьте также, что кривая симметрична: сторона справа от пика является зеркальным отражением стороны слева. Предположим, у нас есть группа данных, где среднее равно 11, а стандартное отклонение равно 20. Чтобы увидеть, где точка данных будет отображена на кривой, рассчитаем ее в стандартных единицах. Предположим, что рассматриваемая точка данных имеет значение -9. Чтобы рассчитать число стандартных единиц, мы сначала должны вычесть среднее из этой точки данных: -9- 11 =-20
 Затем надо разделить полученный результат на стандартное отклонение:
 -20/20=-1
 Теперь мы можем сказать, что, когда точка данных равна -9, среднее равно 11, а стандартное отклонение составляет 20, число стандартных единиц равно -1. Другими словами, мы находимся на одно стандартное отклонение от пика кривой, и, так как это значение отрицательно, оно находится слева от пика. Чтобы увидеть, где это будет на самой кривой (то есть насколько высока кривая при одном стандартном отклонении слева от центра, или чему равно значение кривой на оси Y для значения -1 на оси X), надо подставить полученное значение в уравнение (3.15а):
 
 Таким образом, высота кривой при Х=-1 составляет 0,2419705705. Функция N'(Z) также часто выражается как:
 
 и ATN() = функция арктангенса;
 U = среднее значение данных;
 S = стандартное отклонение данных;
 Х = наблюдаемая точка данных;
 ЕХР() = экспоненциальная функция.
 Не искушенные в статистике люди часто находят концепцию стандартного отклонения (или квадрата ее величины, дисперсии) трудной для представления. Среднее абсолютное отклонение (mean absolute deviation), которое можно преобразовать в стандартное отклонение, гораздо проще для понимания. Среднее абсолютное отклонение полностью отвечает своему названию: среднее данных вычитается из каждой точки данных, затем абсолютные значения каждой из этих разностей суммируются, и данная сумма делится на число точек данных. В результате у вас получается среднее расстояние каждой точки данных до среднего значения. Преобразование среднего абсолютного отклонения в стандартное отклонение, и наоборот, представлены далее:
 
 где М = среднее абсолютное отклонение;
 S = стандартное отклонение.
 Можно сказать, что при нормальном распределении среднее абсолютное отклонение равно стандартному отклонению, умноженному на 0,7979.
 (3.18) S = М * 1 / 0,7978845609
 =М* 1,253314137, где S = стандартное отклонение;
 М = среднее абсолютное отклонение.
 Мы можем также сказать, что при нормальном распределении стандартное отклонение равно среднему абсолютному отклонению, умноженному на 1,2533. Так как дисперсия всегда является стандартным отклонением в квадрате (а стандартное отклонение является квадратным корнем дисперсии), мы можем задать преобразование между дисперсией и средним абсолютным отклонением.
 (3.19) М = V ^ (1/2) * ((2 / 3,1415926536)^ (1/2))
 = V ^ (1/2)* 0,7978845609,
  где М = среднее абсолютное отклонение;
  V = дисперсия.
 (3.20) V = (М * 1,253314137)^ 2,
  где V =дисперсия;
  М = среднее абсолютное отклонение.
 Так как стандартное отклонение в стандартной нормальной кривой равно 1, мы можем сказать, что среднее абсолютное отклонение в стандартной нормальной кривой равно 0,7979. Более того, в колоколообразной кривой, подобной нормальной, семи-интер-квартильная широта равна приблизительно 2/3 стандартного отклонения, и поэтому стандартное отклонение примерно в 1,5 раза больше семи-интерквартильной широты. Это справедливо для большинства колоколообразных распределений, а не только для нормальных, как и в случае с преобразованием среднего абсолютного отклонения в стандартное отклонение.
 Нормальные вероятности
 Теперь мы знаем, как преобразовывать наши необработанные данные в стандартные единицы и как построить кривую N'(Z) (т.е. как найти высоту кривой, или координату Y, для данной стандартной единицы), а также N'(X) (из уравнения (3.14), т.е. саму кривую без первоначального преобразования в стандартные единицы). Для практического использования нормального распределения вероятности нам надо знать вероятность определенного результата. Это определяется не высотой кривой, а площадью под кривой. Эта площадь задается интегралом функции N'(Z), которую мы до настоящего момента изучали. Теперь мы займемся N(Z), интегралом N'(Z), чтобы найти площадь под кривой (т.е. вероятности)1.
 
  где Y=1/(1+2316419*ABS(Z))
  и ABSQ = функция абсолютного значения;
  ЕХР() = экспоненциальная функция.
 При расчете вероятности мы всегда будем преобразовывать данные в стандартные единицы. То есть вместо функции N(X) мы будем использовать функцию
 N(Z), где:
 (3.16) Z=(X-U)/S,
 где U = среднее значение данных;
 S = стандартное отклонение данных;
 Х = наблюдаемая точка данных.
 Теперь обратимся к уравнению (3.21). Допустим, нам надо знать, какова вероятность события, не превышающего +2 стандартных единицы (Z = +2).
 Y= 1/(1 +2316419*ABS(+2)) =1/1,4632838 =0,68339443311
 (3.15a) N'(Z) = 0,398942 * ЕХР(-(+2^2/2))
 
 = 0,398942 *ЕХР (-2)=0,398942*0,1353353=0,05399093525
 Заметьте, мы можем найти высоту кривой при +2 стандартных единицах. Подставляя полученные значения вместо Y и N'(Z) в уравнение (3.21), мы можем получить вероятность события, не превышающего +2 стандартных единицы:
 N(Z) = 1 - N'(Z) * ((1,330274429 * Y^ 5) -
  - (1,821255978 * Y^4) + (1,781477937 * Y^ 3) -
  - (0,356563782 * Y ^ 2) + (0,31938153 * Y))
 = 1-0,05399093525* ((1,330274429* 0,68339443311^5)-
  - (1,821255978 * 0,68339443311 ^ 4 + 1,781477937 * 0,68339443311^ 3) - - (0,356563782 * 0,68339443311 ^2) + 0,31938153 * 0,68339443311))
 = 1 - 0,05399093525 * (1,330274429 * 0,1490587) -
  - (1,821255978 * 0,2181151 + (1,781477937 * 0,3191643)-
 - (0,356563782 * 0,467028 + 0,31938153 - 0,68339443311))
 
 1- 0,05399093525 * (0,198288977 - 0,3972434298 + 0,5685841587 -
  -0,16652527+0,2182635596)
 = 1 - 0,05399093525 * 0,4213679955 = 1 - 0,02275005216= 0,9772499478
 Таким образом, можно ожидать, что 97,72% результатов в нормально распределенном случайном процессе не попадают за +2 стандартные единицы. Это изображено на рисунке 3-8.
  Чтобы узнать, какова вероятность события, равного или превышающего заданное число стандартных единиц (в нашем случае +2), надо просто изменить уравнение (3.21) и не использовать условие "Если Z < 0, то N(Z) = 1 - N(Z)". Поэтому вторая с конца строка в последнем расчете изменится с
 = 1 - 0,02275005216 на 0,02275005216
 Таким образом, с вероятностью 2,275% событие в нормально распределенном случайном процессе будет равно или превышать +2 стандартные единицы. Это показано на рисунке 3-9.
 
 Рисунок 3-8 Уравнение (3.21) для вероятности Z=+2
 
 Рисунок 3-9 Устранение оговорки "Если Z < 0, то N(Z) = 1 - N(Z)" в уравнении (3.21)
 До сих пор мы рассматривали площади под кривой 1-хвостых распределений вероятности. То есть до настоящего момента мы отвечали на вопрос: "Какова вероятность события, которое меньше (больше) заданного количества стандартных единиц от среднего?" Предположим, теперь нам надо ответить на такой вопрос: "Какова вероятность события, которое находится в интервале между определенным количеством стандартных единиц от среднего?" Другими словами, мы хотим знать, как подсчитать 2-хвостые вероятности. Посмотрим на рисунок 3-10. Он представляет вероятности события в интервале двух стандартных единиц от среднего. В отличие от рисунка 3-8 этот расчет вероятности не включает крайнюю область левого хвоста, область меньше -2 стандартных единиц. Для расчета вероятности нахождения в диапазоне Z стандартных единиц от среднего вы должны сначала рассчитать 1-хвостую вероятность абсолютного значения Z с помощью уравнения (3.21), а затем полученное значение подставить в уравнение (3.22), которое дает 2-хвостые вероятности (то есть вероятности нахождения в диапазоне ABS(Z) стандартных единиц от среднего):
 (3.22) 2-хвостая вероятность =1-((1- N(ABS(Z))) * 2)
 Если мы рассматриваем вероятности наступления события в диапазоне 2 стандартных отклонений (Z = 2), то из уравнения (3.21) найдем, что N(2) = 0,9772499478 и можно использовать полученное значение для уравнения (3.22):
 2-хвостая вероятность =1-((1- 0,9772499478) * 2) =1-(0,02275005216*2) = 1 - 0,04550010432 = 0,9544998957
 Таким образом, из этого уравнения следует, что при нормально распределенном случайном процессе вероятность события, попадающего в интервал 2 стандартных единиц от среднего, составляет примерно 95,45%.
 Как и в случае с уравнением (3.21), можно убрать первую единицу в уравнении (3.22), чтобы получить (1 - N(ABS(Z))) * 2, что представляет вероятности события вне ABS(Z) стандартных единиц от среднего. Это отображено на рисунке 3-11. Для нашего примера, где Z = 2, вероятность события при нормально распределенном случайном процессе вне 2 стандартных единиц составляет:
 2-хвостая вероятность (вне) = (1 - 0,9772499478) * 2 =0,02275005216*2 =0,04550010432
 Наконец, мы рассмотрим случай, когда надо найти вероятности (площадь под кривой N'(Z)) для двух различных значений Z.
 
 Рисунок 3-10 2-хвостая вероятность события между +2 и -2 сигма
 
 Рисунок 3-11 2-хвостая вероятность события, находящегося вне 2 сигма
 
 Допустим, нам надо найти площадь под кривой N'(Z) между -1 стандартной единицей и +2 стандартными единицами. Есть два способа расчета. Мы можем рассчитать вероятность, не превышающую +2 стандартные единицы, при помощи уравнения (3.21) и вычесть вероятность, не превышающую -1 стандартную единицу (см. рисунок 3-12). Это даст нам:
 0,9772499478 - 0,1586552595 = 0,8185946883
 
 Рисунок 3-12 Площадь между -1 и +2 стандартными единицами
 Другой способ: из единицы, представляющей всю площадь под кривой, надо вычесть вероятность, не превышающую -1 стандартную единицу, и вероятность, превышающую 2 стандартные единицы:
 = 1 - (0,022750052 + 0,1586552595) = 1 -0,1814053117 =0,8185946883
 С помощью рассмотренных в этой главе математических подходов вы сможете рассчитывать любые вероятности событий для случайных процессов, имеющих нормальное распределение.
 
 Последующие производные нормального распределения
 Иногда требуется знать вторую производную функции N(Z). Так как функция N(Z) дает нам значение площади под кривой при Z, а функция N'(Z) дает нам высоту самой кривой при значении Z, тогда функция N"(Z) дает нам мгновенный наклон (instantaneous slope) кривой при данном значении Z:
 
 где ЕХР() = экспоненциальная функция.

<< Пред.           стр. 4 (из 10)           След. >>

Список литературы по разделу