Классификация ошибок и неисправностей СВТ

КОНТРОЛЬ РАБОТЫ ЭВМ

Классификация ошибок и неисправностей СВТ

Все неисправности СВТ можно классифицировать по следующим признакам: характеру возникновения, времени существования, внешнему проявлению, степени влияния на работоспособность и причинам возникновения.

Ошибки возникают по разным причинам и могут носить систематический характер (отказы) или случайный (сбои).

Отказ - это событие, заключающееся в полной или частичной утрате, компьютером (системой) или периферией работоспособности. Отказ - это такое нарушение работоспособности СВТ, для восстановления которого требуются определенные действия по ремонту (замене) неисправного элемента, блока или устройства.

По характеру возникновения отказы могут быть внезапными или постепенными.

Внезапные отказы возникают в результате резкого изменения одного или нескольких основных параметров элементов СВТ, вызывая при этом нарушение логической структуры компьютера и/или периферии. К таким отказам относятся короткие замыкания, обрывы в электрических цепях, нарушение контактов, пробои диэлектриков и др. Внезапные отказы не поддаются прогнозированию и обнаруживаются лишь после появления.

Постепенные отказы возникают в результате постепенного изменения параметров элементов СВТ, например, по причине их старения. Причиной старения являются сложные механические, физико-химические процессы, происходящие в элементах (структурные изменения в полупроводниковых материалах). Поскольку эти процессы протекают постепенно, появляется возможность предсказывать их возникновение, т. е. прогнозировать их. Большинство таких отказов выявляется и устраняется при проведении профилактических работ. В зависимости от степени ухода параметра постепенные отказы могут привести к постоянным или случайным ошибкам в вычислениях.

По причинам возникновения отказы могут быть зависимыми и независимыми. В первом случае отказ возникает в результате действия другого отказа. В сложных схемах машины между элементами существуют такие взаимосвязи, которые могут существенно затруднить выявление первопричины отказа. Такие взаимосвязи характерны для цепей синхронизации, управления и др., появление ошибки в которых может нарушить работу целого комплекса устройства из состава СВТ.

Под независимым понимают отказ, возникновение которого не связано с действием другого отказа. К таким отказам относятся, например, нарушение контактов, поломка механических узлов и деталей и др. Как правило, такие отказы не вызывают больших трудностей при их локализации и устранении.

По внешнему проявлению отказы подразделяют на явные и скрытые. Явные отказы - это пропадание напряжения, поломка механических узлов, скол корпуса процессора и т. п. К скрытым отказам можно отнести нарушение контактов в разъемах, появление микротрещин в печатных платах и др.

По степени влияния на работоспособность отказы могут быть частичными и полными. Если в результате возникновения отказа ЭВМ (компьютер и периферия) может продолжать работать, пусть даже с потерей первоначальной производительности, то такой отказ считают частичным или неполным. Если же такой возможности нет, то отказ является полным.

Время существованияотказа зависит от квалификации персонала или удаленности сервисного центра, наличия средств выявления неисправности, наличия оборудования и приспособлений для ремонта и компонентов для замены неисправных.

Наряду с отказами для СВТ характерно проявление другого вида ошибки — сбоя.

Сбоем называют кратковременное нарушение нормальной работы СВТ, вследствие кратковременного воздействия на один или несколько элементов ЭВМ внешних помех или кратковременного изменения параметров элементов.

Сбой устраняется обычно путем перезагрузки системы и после сбоя ЭВМ (компьютер и периферия) работает нормально. Но сбой сопровождается искажением информации при операциях передачи, хранения или обработки, и следовательно, если не устранить последствия сбоя, то задача может оказаться неправильно решенной из-за искажений в данных, промежуточных результатах или в самой программе. Однако если при отказе для восстановления работоспособности СВТ необходимо устранить неисправность в аппаратуре, то при сбое для получения правильного решения задачи требуется восстановить лишь достоверность информации путем ее повторной передачи или повторного выполнения программы.

Таким образом, возникновение неисправностей в машине вызывается появлением случайных событий — отказов и сбоев, которые в информационном плане приводят к появлению ошибок в работе СВТ и особенно ЭВМ.

Основные задачи контроля и диагностики СВТ

Учет вероятности возникновения ошибок. При разработке системы контроля необходимо учитывать, что с точки зрения вероятности возникновения ошибок различные устройств из состава ВТ не одинаковы. В частности, наиболее слабым местом являются электромеханические устройства (устройства ввода-вывода, накопители на магнитных дисках, приводы оптических дисков, вентиляторы систем охлаждения электронных элементов, многочисленные электромеханические узлы принтеров, сканеров и другой периферии), на долю которых приходится основная часть неисправностей, возникающих в машине. Неисправности в этих устройствах обнаруживаются сравнительно легко, однако процесс их восстановления довольно трудоемок (смазка, замена износившихся деталей, регулировка люфтов и зазоров в механических узлах и т. п.). С учетом снижения цен на многие компоненты СВТ рациональнее выполнять их замену, а не ремонт. Среди электронных устройств машины наибольшее число неисправностей приходится на долю ОЗУ, которые являются наиболее критичными к изменениям питающих напряжений и к воздействию электростатических разрядов.

Задача обеспечения правильности работы СВТ. По мере расширения области применения СВТ, и в частности ЭВМ, все большее значение приобрела задача обеспечения правильности их работы. Современные ЭВМ могут используются в оперативном режиме, работая в реальном времени в качестве средств управления, сложными технологическими процессами, полетами и т. п. В любом из таких применений неправильное функционирование ЭВМ может привести к тяжелым последствиям. Поэтому эффективность контроля ЭВМ является важной характеристикой.

Для повышения надежности работы ЭВМ в применяются два принципиально различных способа борьбы с неисправностями компонентов, каждый из которых можно реализовать тем или иным путем.

1)Резервирование аппаратуры - позволяет быстро нейтрализовать возникшую неисправность.

2)Обнаружение неисправности диагностической процедурой - позволяет локализовать неисправность и своевременно устранить ее. Нейтрализация неисправностей фактически служит лишь для того, чтобы отсрочить их проявление (при постоянном резервировании элементы, блоки или узлы машины работают в параллель и выход любого из них из строя не нарушает работы системы, пока не исчерпывается весь заложенный резерв). Однако с течением времени неисправностей может накопиться столько, что они уже не смогут быть нейтрализованы и в расчетах появятся ошибки. Поэтому такой способ применяется в первую очередь в системах, где правильную работу машины необходимо гарантировать на определенный период времени, а ремонт затруднен или просто невозможен (например, управление сложным технологическим процессом).

Способ, основанный на обнаружении неисправности в сочетании с ремонтом, целесообразен тогда, когда остановки ЭВМ допустимы, а неисправности нельзя оставлять необнаруженными. Это соответствует случаю неоперативной работы машины в режиме последовательной обработки программ. Выполненные работы в этом случае после обнаружения и устранения неисправности можно выполнить повторно, хотя это и неудобно для пользователя.

В условиях управления процессами в реальном времени и для обработки информации в оперативном режиме (например, в системах с разделением времени) очень важно предотвратить полный выход системы из строя в течение весьма длительного времени. Это вызывает необходимость использования избыточности для обеспечения правильной работы системы при наличии неисправностей, а также обусловливает необходимость использования средств обнаружения и диагностики неисправности для обеспечения ее быстрого удаления во время профилактики.

В качестве вспомогательных средств для выявления неисправностей используются так называемые проверочные программы-тесты, которые указывают лишь на наличие ошибки в том или ином устройстве, нисколько не конкретизируя ее. Ремонт машины при таких условиях существенно затруднен.

Трудность поиска неисправностей в современных системах усугубляется тем, что строятся эти системы на базе интегральных схем, в которых нельзя наблюдать сигналы на внутренних точках схемы.

Следовательно, необходимы такие тест-процедуры, при использовании которых для получения сведений о наличии неисправностей и местах их нахождения требовались бы только естественные вводы и выводы схемы, содержащей десятки или даже сотни логических элементов. Необходимо также, чтобы эти процедуры были в значительной степени автоматизированными, поскольку работающая система не должна иметь заметного перерыва в работе, а это требует обнаружения неисправностей за короткие промежутки времени.

Система контроля ЭВМ и периферии представляет собой совокупность программных и аппаратурных средств, предназначенных для определения технического состояния и поддержания необходимого уровня эффективности работы СВТ.

Процессы определения технического состояния (процесс диагноза) и поддержания заданного уровня эффективности работы СВТ реализуются средствами проверок, поиска неисправности и рационального обслуживания. В процессе диагноза с помощью системы контроля оборудования решается ряд последовательно связанных задач:

  • контроля - обнаружение ошибки в работе ЭВМ;
  • классификации - определение характера ошибки (сбой или отказ);
  • диагностики - поиск места отказавшего элемента;
  • коррекции – выполнение ремонта или замены для устранение ошибки в отказавшем элементе.

Перечисленные задачи могут решаться в ЭВМ и в некоторых ВУ в различных режимах: оперативном (одновременно с решением основной задачи машиной); автоматически (путем программной коррекции ошибки) либо с привлечением обслуживающего персонала (например переход на резервное устройство) ; путем профилактических проверок.

В разных задачах контроля возможно использование различных технических средств. Ими, как уже указывалось, являются:

- программные средства, реализующиеся с помощью своих определенных форм представления;

- аппаратурные средства, основанные на использовании схемных решений с учетом общей структуры СВТ;

- комбинированные средства (комбинации программных и аппаратурных средств).

Введение этих средств в состав вычислительной машины не является необходимым при ее работе непосредственно для вычислений, поэтому они являются дополнительными, избыточными, что и вызывает затруднения при решении вопросов практической реализации различных методов контроля.

ЭВМ представляет собой сложную систему, производящую ряд специфических операций по обработке информации, которые необходимо контролировать. К ним относятся:

  • операции, связанные с вводом и выводом информации;
  • хранение информации в запоминающих устройствах и передача ее между устройствами;
  • арифметическая и логическая обработка информации;
  • выполнение управляющих операций, определяющих ход вычислительного процесса.

Но вычислительные машины — это не только оборудование, но и хорошо развитые системы программного (математического) обеспечения, которые составляют существенный процент от общей стоимости ЭВМ. Это предопределило появление новых объектов контроля — системных программ (супервизоров, диспетчеров, трансляторов и др.). Для их проверки широко используются методы, разработанные для основного оборудования СВТ.

Разнообразие функциональных устройств вычислительных машин и периферии, их сложность создали предпосылки для использования большого числа разновидностей методов контроля, как программных, так и аппаратурных.

Структура системы контроля и диагностики ЭВМ

В зависимости от метода, положенного в основу контроля СВТ, различают два основных вида контроля: программный и аппаратурный. Каждый из них может использоваться как в оперативном режиме, т. е. в процессе работы машины и периферии, так и в режиме профилактических проверок, причем контроль может быть автоматическим или с привлечением оператора.

Программный контроль СВТ основан на использовании специальных программ, контролирующих работу машины и периферии. Он подразделяется на программно-логический и тестовый.

Программно-логический контроль основан на том, что в основную рабочую программу вводятся дополнительные операции, при выполнении которых получается избыточная информация, необходимая для обнаружения и исправления ошибок. Наличие избыточности в информации позволяет например, находить те или иные контрольные соотношения, которые связывают получаемые в процессе расчета значения и которые можно проверять по программе в конце каждого этапа вычислений. Так, если вычисляются значения синусов и косинусов, то правильность их вычислений можно проверить по известному соотношению: сумма квадратов синуса и косинуса равна 1. Часто прибегают к двойному просчету, при котором избыточность информации создается путем повторения вычислений, а контрольные соотношения - это совпадение результатов первого и второго просчетов.

Программно-логический контроль не требует применения специальной аппаратуры и позволяет обнаруживать ошибки, обусловленные случайными сбоями, в процессе проведения вычислений. Однако этот вид контроля приводит к значительному увеличению времени решения задачи и/или усложнению алгоритма программ.

Тестовый контроль предназначен для проверки правильности работы ЭВМ или ее отдельных устройств с помощью специальных программ - тестов. Контроль с помощью тестов сводится к выполнению вычислительной машиной определенных действий над исходными числами и сравнению полученных результатов с известными. В случае несовпадения ответов фиксируется ошибка.

Все тесты подразделяются на наладочные, проверочные и диагностические.

Наладочные тесты служат для проверки правильности функционирования устройств и блоков во время наладки СВТ. Эти тесты предназначаются для обнаружения грубых ошибок (ошибки в монтаже, логике работы отдельных узлов и т.д.). Наладочные тесты используются для проверки центральных процессоров, устройств ввода-вывода, оперативной памяти и внешних запоминающих устройств. В некоторых случаях они являются самостоятельными программами в составе наладочных стендов и выполняются без помощи операционной системы.

Проверочные тесты предназначены для периодической проверки работоспособности машины и для обнаружения неисправностей в процессе эксплуатации. Эти тесты обеспечивают более полный контроль и создают более разнообразные режимы работы узлов машины. Однако как наладочные, так и проверочные тесты свидетельствуют лишь о факте появления ошибки в том или ином устройстве, не указывая места ее возникновения.

Диагностические тесты служат не только для обнаружения ошибки, но и для локализации места неисправности.

Проверочные и диагностические тесты работают под управлением специальной тестовой программы проверки — монитора (часть управляющей программы), которая осуществляет вызов, выполнение каждого отдельного теста и управление им. Проверка устройств может производиться как в профилактическом, так и в оперативном (мультипрограммном) режиме, т. е. наряду с выполнением других программ (последний вид проверки устройств машины называется неавтономной проверкой).

Программа проверки устройств позволяет:

  • периодически осуществлять профилактическую проверку работы устройства;
  • при появлении ошибок в работе устройства локализовать места возникновения этих ошибок;
  • убедиться в правильности работы устройства после устранения ошибки или внесения в устройство технических изменений.

Для различных типов устройств и режимов работы ЭВМ существуют свои тестовые программы.

В промышленных компьютерах построенных на современных вычислительных системах запуск тестов может производиться и автоматически по сигналу ошибки c контрольных схем машины. При этом после локализации ошибки система саморемонтируется (происходит реконфигурация системы). В менее мощных системах процесс локализации ошибки сопровождается подачей обслуживающему персоналу (оператору) соответствующего сигнала.

Аппаратурный контроль создаются введением в состав СВТ, обычно промышленных ЭВМ, специального дополнительного контрольного оборудования, работающего независимо от программы. Аппаратурный контроль обеспечивает проверку правильности функционирования машины практически без снижения ее быстродействия. Однако использование только аппаратурного контроля приводит к значительному усложнению и удорожанию набора СВТ. Кроме того, введение в состав машины большого количества избыточного сложного оборудования может привести к снижению ее общей надежности.

Поэтому в промышленных ЭВМ применяется комбинированный метод контроля, представляющий собой сочетание программных и аппаратурных средств.

С целью предупреждения существенного искажения обрабатываемой информации (т. е. до того предела, когда она не сможет быть восстановлена) обнаружение ошибок в машине должно производиться, непрерывно. Поэтому эта функция возлагается на быстродействующие аппаратурные средства контроля, которые позволяют практически полностью совместить во времени выполнение основных операций машины и необходимых контрольных операций. Локализация места возникновения неисправности и ликвидация последствий сбоев при этом возлагаются на программный контроль.

Комбинированный метод контроля позволяет при незначительном снижении эффективного быстродействия машины существенно, сократить время поиска и устранения ошибок и общий объем дополнительного оборудование ЭВМ, потребного для этих целей.

Эффективность системы контроля ЭВМ характеризуется следующими показателями:

  • отношением количества оборудования, охваченного системой контроля, к общему количеству оборудования ЭВМ;
  • вероятностью обнаружения системой контроля ошибок в работе ЭВМ;
  • степенью детализации, с которой система контроля указывает место возникновения ошибки (точность диагноза);
  • отношением количества оборудования системы контроля к общему количеству оборудования ЭВМ.

Следует отметить, что эффективные системы контроля и диагностики могут быть созданы при условии, если их разработка и проектирование машины проводятся одновременно и взаимосвязано. Только такой подход позволяет создавать наиболее рациональный контроль с минимальными затратами на его реализацию.

PAGE 3

Классификация ошибок и неисправностей СВТ