Аннотация: Рассматриваются два вида средств поддержания высокой доступности: обеспечение отказоустойчивости (нейтрализация отказов, живучесть) и обеспечение безопасного и быстрого восстановления после отказов (обслуживаемость).

Доступность

Основные понятия

Информационная система предоставляет своим пользователям определенный набор услуг (сервисов). Говорят, что обеспечен нужный уровень доступности этих сервисов, если следующие показатели находятся в заданных пределах:

Эффективность услуг . Эффективность услуги определяется в терминах максимального времени обслуживания запроса, количества поддерживаемых пользователей и т.п. Требуется, чтобы эффективность не опускалась ниже заранее установленного порога.
Время недоступности . Если эффективность информационной услуги не удовлетворяет наложенным ограничениям, услуга считается недоступной. Требуется, чтобы максимальная продолжительность периода недоступности и суммарное время недоступности за некоторый период (месяц, год) не превышали заранее заданных пределов.

В сущности, требуется, чтобы информационная система почти всегда работала с нужной эффективностью. Для некоторых критически важных систем (например, систем управления) время недоступности должно быть нулевым, без всяких "почти". В таком случае говорят о вероятности возникновения ситуации недоступности и требуют, чтобы эта вероятность не превышала заданной величины. Для решения данной задачи создавались и создаются специальные отказоустойчивые системы , стоимость которых, как правило, весьма высока.

К подавляющему большинству коммерческих систем предъявляются менее жесткие требования, однако современная деловая жизнь и здесь накладывает достаточно суровые ограничения, когда число обслуживаемых пользователей может измеряться тысячами, время ответа не должно превышать нескольких секунд, а время недоступности – нескольких часов в год.

Задачу обеспечения высокой доступности необходимо решать для современных конфигураций, построенных в технологии клиент/сервер. Это означает, что в защите нуждается вся цепочка – от пользователей (возможно, удаленных) до критически важных серверов (в том числе серверов безопасности).

Основные угрозы доступности были рассмотрены нами ранее.

В соответствии с ГОСТ 27.002, под отказом понимается событие, которое заключается в нарушении работоспособности изделия. В контексте данной работы изделие – это информационная система или ее компонент.

В простейшем случае можно считать, что отказы любого компонента составного изделия ведут к общему отказу , а распределение отказов во времени представляет собой простой пуассоновский поток событий. В таком случае вводят понятие интенсивности отказов и , которые связаны между собой соотношением

где – номер компонента,

– интенсивность отказов ,

– .

Интенсивности отказов независимых компонентов складываются:

а среднее время наработки на отказ для составного изделия задается соотношением

Уже эти простейшие выкладки показывают, что если существует компонент, интенсивность отказов которого много больше, чем у остальных, то именно он определяет среднее время наработки на отказ всей информационной системы. Это является теоретическим обоснованием принципа первоочередного укрепления самого слабого звена .

Пуассоновская модель позволяет обосновать еще одно очень важное положение, состоящее в том, что эмпирический подход к построению систем высокой доступности не может быть реализован за приемлемое время. При традиционном цикле тестирования/отладки программной системы по оптимистическим оценкам каждое исправление ошибки приводит к экспоненциальному убыванию (примерно на половину десятичного порядка) интенсивности отказов . Отсюда следует, что для того, чтобы на опыте убедиться в достижении необходимого уровня доступности, независимо от применяемой технологии тестирования и отладки, придется потратить время, практически равное среднему времени наработки на отказ . Например, для достижения среднего времени наработки на отказ 10 5 часов потребуется более 10 4,5 часов, что составляет более трех лет. Значит, нужны иные методы построения систем высокой доступности , методы, эффективность которых доказана аналитически или практически за более чем пятьдесят лет развития вычислительной техники и программирования.

Пуассоновская модель применима в тех случаях, когда информационная система содержит одиночные точки отказа , то есть компоненты, выход которых из строя ведет к отказу всей системы. Для исследования систем с резервированием применяется иной формализм .

В соответствии с постановкой задачи будем считать, что существует количественная мера эффективности предоставляемых изделием информационных услуг. В таком случае вводятся понятия показателей эффективности отдельных элементов и эффективности функционирования всей сложной системы.

В качестве меры доступности можно принять вероятность приемлемости эффективности услуг, предоставляемых информационной системой, на всем протяжении рассматриваемого отрезка времени. Чем большим запасом эффективности располагает система, тем выше ее доступность.

При наличии избыточности в конфигурации системы вероятность того, что в рассматриваемый промежуток времени эффективность информационных сервисов не опустится ниже допустимого предела, зависит не только от вероятности отказа компонентов, но и от времени, в течение которого они остаются неработоспособными, поскольку при этом суммарная эффективность падает, и каждый следующий отказ может стать фатальным. Чтобы максимально увеличить доступность системы, необходимо минимизировать время неработоспособности каждого компонента. Кроме того, следует учитывать, что, вообще говоря, ремонтные работы могут потребовать понижения эффективности или даже временного отключения работоспособных компонентов; такого рода влияние также необходимо минимизировать.

Несколько терминологических замечаний. Обычно в литературе по теории надежности вместо доступности говорят о готовности (в том числе о высокой готовности ). Мы предпочли термин "доступность", чтобы подчеркнуть, что информационный сервис должен быть не просто "готов" сам по себе, но доступен для своих пользователей в условиях, когда ситуации недоступности могут вызываться причинами, на первый взгляд не имеющими прямого отношения к сервису (пример – отсутствие консультационного обслуживания).

Далее, вместо времени недоступности обычно говорят о коэффициенте готовности . Нам хотелось обратить внимание на два показателя – длительность однократного простоя и суммарную продолжительность простоев, поэтому мы предпочли термин " время недоступности " как более емкий.

Основы мер обеспечения высокой доступности

Основой мер повышения доступности является применение структурированного подхода, нашедшего воплощение в объектно-ориентированной методологии. Структуризация необходима по отношению ко всем аспектам и составным частям информационной системы – от архитектуры до административных баз данных, на всех этапах ее жизненного цикла – от инициации до выведения из эксплуатации. Структуризация , важная сама по себе, является одновременно необходимым условием практической реализуемости прочих мер повышения доступности. Только маленькие системы можно строить и эксплуатировать как угодно. У больших систем свои законы, которые, как мы уже указывали, программисты впервые осознали более 30 лет назад.

При разработке мер обеспечения высокой доступности

Типичная зависимость интенсивности отказов от времени: I - период приработки и отказов некачественных изделий; II - период нормальной эксплуатации; III - период старения (отказы вызваны износом деталей или старением материалов). Интенсивность отказов некоторых изделий (например, полупроводниковых приборов) не нарастает за всё время эксплуатации то есть, не имеет период старения, поэтому, иногда говорят, что их срок службы вечен.

Интенси́вность отка́зов - отношение числа отказавших объектов (образцов аппаратуры, изделий, деталей, механизмов, устройств, узлов и т. п.) в единицу времени к среднему числу объектов, исправно работающих в данный отрезок времени при условии, что отказавшие объекты не восстанавливаются и не заменяются исправными. Другими словами, интенсивность отказов численно равна числу отказов в единицу времени, отнесенное к числу узлов, безотказно проработавших до этого времени. Следующие определения интенсивности отказов эквивалентны:

λ (t) = n (t) N c p Δ t = n (t) [ N − n (t) ] Δ t = f (t) P (t) {\displaystyle \lambda (t)={\frac {n(t)}{N_{cp}\Delta t}}={\frac {n(t)}{\left\Delta t}}={\frac {f(t)}{P(t)}}}

где N {\displaystyle N} - общее число рассматриваемых изделий;
f (t) {\displaystyle f(t)} - скорость отказов - количество изделий, отказавших к моменту времени t {\displaystyle t} в единицу времени;
P (t) {\displaystyle P(t)} - количество изделий, не отказавших к моменту времени t {\displaystyle t} ;
n (t) {\displaystyle n(t)} - число отказавших образцов в интервале времени от t − (Δ t / 2) {\displaystyle t-(\Delta t/2)} до t + (Δ t / 2) {\displaystyle t+(\Delta t/2)} ;
- интервал времени;
N c p {\displaystyle {N_{cp}}} - среднее число исправно работающих образцов в интервале Δ t {\displaystyle \Delta t} : N c p = N i + N i + 1 2 {\displaystyle {N_{cp}}={\frac {N_{i}+N_{i+1}}{2}}}

где N i {\displaystyle N_{i}} - число исправно работающих образцов в начале интервала Δ t {\displaystyle \Delta t} ;
N i + 1 {\displaystyle N_{i+1}} - число исправно работающих образцов в конце интервала Δ t {\displaystyle \Delta t} .

Размерность интенсивности отказов обратна времени, обычно измеряется в 1/час.

Примеры

При испытании длительностью 3000 часов из 1000 изделий отказало 150. тогда интенсивность отказов этих изделий:

λ (3000) = 150 (1000 − 150) ⋅ (3000 − 0) ≈ 5 , 8824 ⋅ 10 − 5 {\displaystyle \lambda (3000)={\frac {150}{(1000-150)\cdot (3000-0)}}\approx 5,8824\cdot 10^{-5}} 1/час.

Например, средние значения интенсивностей отказов в период нормальной эксплуатации составляют:

Наиболее статистически надёжные данные по интенсивности отказов собраны для электронных компонентов.

Дискретные резисторы: от 1 ⋅ 10 − 9 {\displaystyle 1\cdot 10^{-9}} до 1/час.
Дискретные неэлектролитические конденсаторы : от до 1 ⋅ 10 − 8 {\displaystyle 1\cdot 10^{-8}} 1/час.
Электролитические конденсаторы : от 1 ⋅ 10 − 3 {\displaystyle 1\cdot 10^{-3}} до 1/час.
Полупроводниковые маломощные приборы (диоды, транзисторы) после приработки: от 1 ⋅ 10 − 6 {\displaystyle 1\cdot 10^{-6}} до 1/час.
Интегральные микросхемы в период нормальной эксплуатации: от 1 ⋅ 10 − 5 {\displaystyle 1\cdot 10^{-5}} до 1 ⋅ 10 − 7 {\displaystyle 1\cdot 10^{-7}} 1/час.

Надежность и живучесть бортовых вычислительных систем (БЦВС).

Надежность – это свойство изделий выполнять требуемые функции, сохраняя свои эксплуатационные показатели в заданных пределах в течение требуемого промежутка времени.

Живучесть - способность вычислительной системы выполнять свои основные функции, несмотря на полученные повреждения и вышедшие из строя элементы аппаратуры.

К надежности и живучести БУВМ и БЦВС предъявляются более жесткие требования, чем к надежности и живучести универсальных и персональных ЭВМ. При отказе БЦВМ нарушается работоспособность системы, и не выполняются поставленные задачи, что может привести к непоправимым последствиям, в том числе и к человеческим жертвам.

Повторное решение задачи после восстановления БЦВМ и БЦВС часто невозможно. Так, например, при сбое в работе БЦВС зенитно-ракетного комплекса будет уничтожен обороняемый объект. И, если вы в короткий срок восстановите работу системы, то разрушения не удастся вернуть так же, как и потерянные жизни. Сбой в авионике может привести к крушению самолета или самопроизвольному сходу ракет. В этом случае восстановление работы БЦВС так же не позволит исправить последствия ошибки.

Обеспечение высокой надежности и живучести БЦВС усложняется условиями работы аппаратуры на борту при больших колебаниях температуры, влажности, действии механических нагрузок и в условии высокой запыленности. Так же ограничение накладывается на габариты и массу аппаратуры. Это в основном относится к авиации, но так же большое значение имеет и для БЦВС других направлений.

Таким образом, проблема надежности и живучести БЦВМ и БЦВС имеет ряд особенностей, обусловленных своеобразием структуры БЦВМ и характером выполняемых ими функций.

Задача обеспечения в сложной системе высокой надежности и живучести может оказаться весьма дорогостоящей, сложной и требующей больших затрат времени, хотя затруднения с выпуском продукции и проблемы, возникающие во время эксплуатации, в связи с необходимостью обеспечения и поддержания требуемого уровня надежности, могут вызвать еще большие затруднения.

Например, при уменьшении надежности ракетной системы на 10% для обеспечения одной и той же степени поражения цели потребуется увеличение, по меньшей мере, на 10% фактического количества боевых ракет. Для этих ракет нужны дополнительные пусковые площадки, испытательная аппаратура, оборудование для пуска, обслуживающий персонал и вспомогательное оборудование, что связано с большими затратами денежных средств и времени.

Чем сложнее структура вычислительной системы, тем труднее обеспечить надежность и живучесть. Следует заметить, что большинство отказов, имевших место при пусках управляемых ракет и искусственных спутников в США, не было вызвано неисправностью какого-либо экзотического устройства, конструкция которого ускорила прогресс современного уровня техники. Напротив, многие отказы были вызваны неисправностью функциональных и конструктивных элементов ранее апробированной конструкции. Иногда элементы были изготовлены неправильно, а в других случаях имели место ошибки в работе программистов или обслуживающего персонала. Нет такой мелочи, которая была бы слишком ничтожной для того, чтобы не оказаться возможной причиной отказа. Высокие потенциальная и практически достижимая надежности в значительной степени являются результатом глубокого и пристального внимания к мелочам.

Проблема повышения надежности и отказоустойчивости свойственна не только БЦВС, но и коммерческой аппаратуре. Например, в кластере Google в среднем происходит отказ 1 компьютера в день (то есть за год аварии происходят примерно на 3% компьютеров). Конечно, за счет резервирования данных и кода эти сбои пользователям незаметны, но для программиста они являются большой проблемой.

Случай, когда вычислительная система или ее часть вышли из строя, и дальнейшая работа невозможна без ремонта - называется отказом.

Теория надежности различает 3 характерных признака отказов, которые могут быть присуще аппаратуре и проявляются без всякого воздействия со стороны людей.

1. Приработные отказы. Эти отказы происходят в течение раннего периода эксплуатации и в большинстве случаев вызваны недостатком технологии производства и дефектами при изготовлении элементов вычислительных систем. Эти отказы могут быть исключены процессом отбраковки, приработки и технологического тестирования готового изделия.

2. Дефектные или постепенные отказы. Это - отказы, возникающие из-за износа отдельных параметров или частей аппаратуры. Они характеризуются постепенным изменением параметров изделия или элементов. В начале эти отказы могут проявляется как временные сбои. Однако, по мере того, как износ возрастает, временные сбои превращаются в серьезные отказы аппаратуры. Эти отказы являются признаком старения БЦВС. Они частично могут быть устранены при правильной эксплуатации, хорошей профилактике и своевременной замене изношенных элементов аппаратуры.

3. Внезапные или катастрофические отказы. Эти отказы не могут быть устранены ни при отладке аппаратуры, ни правильным обслуживанием, ни профилактикой. Внезапные отказы возникают случайно, никто не может их предсказать, однако, они подчиняются определенным законам вероятности. Так что частота внезапных отказов в течение достаточно большого периода времени становится примерно постоянной. Это происходит в любой аппаратуре. Примером случайных отказов является обрыв или замыкание цепей. Такой отказ приводит, обычно, к тому, что на выходе устанавливается постоянно либо 0, либо 1. При возникновении случайных отказов необходимо заменять элементы, в которых они произошли. Для этого вычислительная система должна быть ремонтопригодной и позволять быстро проводить профилактические работы в полевых условиях.

В отдельную группу можно выделить перемежающиеся отказы или сбои. Под сбоем подразумевается кратковременное нарушение нормальной работы БЦВМ, при котором один или несколько ее элементов, при выполнении одной или нескольких смежных операции, дает случайный результат. После сбоя вычислительная система может нормально функционировать в течение длительного времени.

Причиной возникновения сбоев могут быть электромагнитные наводки, механические воздействия и др. Часто сбои не приводит к выходу из строя комплекса, а только изменяют ход работы программного обеспечения из-за неверного выполнения одной или нескольких команд, что может привести к катастрофическим последствиям. Отличие сбоев от отказов в том, что при обнаружении последствий от сбоя, необходимо восстанавливать не аппаратуру, а информацию, искаженную сбоем.

Рассказывая о сбоях, необходимо упомянуть о, так называемых, Шрёдинбагах. Шрёдинбаг – это ошибка, при которой вычислительная система долгое время функционирует нормально, однако, при определенных условиях, например, задании нестандартных параметров работы, возникает сбой. При анализе этого сбоя оказывается, что программное обеспечение вычислительной системы имеет принципиальную ошибку, из-за которой оно в принципе не должно было функционировать.

Шрёдинбаг может быть образован сложной комбинацией парных ошибок (когда ошибка в одном месте компенсируется ошибкой противоположного действия в другом месте). При определенном стечении обстоятельств баланс ошибок разрушается, что приводит к парализации работы.

Таким образом, для БЦВС характерно еще одно свойство, определяющее ее надежность – безошибочность или достоверность функционирования. Следовательно, надежность БЦВС – это совокупность безотказности, достоверности функционирования, живучести и ремонтопригодности.

В качестве параметров надежности применяют:

1. Интенсивность отказов –

2. Средняя наработка на отказ –

3. Вероятность безотказной работы в течение заданного времени – Р

4. Вероятность отказа – Q

Интенсивность отказов

Интенсивность отказов – это частота, с которой происходят отказы. Если аппаратура состоит из нескольких элементов, то ее интенсивность отказов равна сумме интенсивности отказов всех элементов, отказы которых приводят к неисправности оборудования.

Кривая интенсивности отказов, в зависимости от времени эксплуатации, изображена на рисунке ниже.

При начале эксплуатации (в момент времени t = 0) вводится в действие большое количество элементов. Эта совокупность элементов в начале может имеет большую интенсивность отказов, за счет дефектных образцов. Поскольку дефектные элементы отказывают один за другим, интенсивность отказов относительно быстро уменьшается в течение периода приработки и становится приблизительно постоянной к моменту нормальной эксплуатации (Т норм), когда дефектные элементы уже отказали, и были заменены на работоспособные.

Совокупность элементов, прошедших период приработки, имеет самый низкий уровень отказов, который сохраняется примерно постоянным до начала выхода из строя элементов, из-за износа (Т износа). С этого момента интенсивность отказов начинает возрастать.

Средняя наработка на отказ

Средняя наработка на отказ – это отношение общего отработанного времени к общему числу отказов. В течение периода нормальной эксплуатации, когда интенсивность отказов примерно постоянна, средняя наработка на отказ представляет собой величину обратную интенсивности отказов:

Вероятность безотказной работы.

Вероятностью безотказной работы называется вероятное или ожидаемое число устройств, которое будет безотказно функционировать в течение заданного периода времени:

Эта формула справедлива для всех устройств, которые прошли приработку, но не испытывают влияние износа. Следовательно, время t не может превышать периода нормальной эксплуатации устройств.

График, показывающий вероятность безотказной работы в зависимости от времени нормальной эксплуатации, приведен ниже:

Вероятность отказа.

Вероятность отказа – это величина обратная вероятности безотказной работы.

Номинальная интенсивность отказов.

Элементы аппаратуры проектируют так, чтобы они могла выдерживать определенные номинальные: напряжение, силу тока, температуру, вибрации, влажность и так далее. Когда аппаратура в процессе работы подвергается влиянию таких воздействий, наблюдается некая определенная интенсивность отказов. Ее называют номинальной интенсивностью отказов.

При увеличении общей рабочей нагрузи или некоторых частных нагрузок, или вредных воздействий окружающей среды сверх номинальных уровней, интенсивность отказов возрастает довольно резко по сравнению со своим номинальным значением. И наоборот, интенсивность отказов уменьшается, когда нагрузка становится ниже номинального уровня.

Например, если элемент должен работать при номинальном значении температуры 60 градусов, то путем понижения температуры, в результате применения принудительной системы охлаждения, можно снизить интенсивность отказов. Однако, если снижение температуры влечет за собой слишком большое увеличение количества элементов и веса аппаратуры, то более выгодным может оказаться выбор элементов с увеличенным номинальным значением рабочей температуры и применение их при температуре, ниже номинальной. В этом случае аппаратура может стать дешевле, а масса меньше (что принципиально при работе в летательном аппарате), чем при применении принудительной системы охлаждения.

Методы определения надежности БЦВС.

Когда проектируются и создаются новые изделия механическими, электрическими, химическими или другими измерениями, нельзя определить значение интенсивности отказов. Интенсивность отказов можно определить путем сбора статистических данных, полученных при испытании на надежность этого или аналогичных изделий.

Вероятность безотказной работы в течение любого момента времени испытаний выражается формулой:

Интенсивность отказов определяется формулой:

При измерении интенсивности отказов необходимо поддерживать постоянное число элементов, участвующих в испытании, путем замены отказавших элементов новыми.

Таким образом, для получения данных о количественных характеристиках надежности аппаратуры, необходимо изготовить специальный образец аппаратуры для испытаний на надежность. Испытания на надежность должны проводиться в условиях, соответствующих реальным условиям эксплуатации оборудования по внешним воздействиям, периодичности включения и изменения параметров питания.

“ Обеспечение высокой доступности ”

Цель работы:

Изучить два вида средств поддержания высокой доступности: обеспечение отказоустойчивости (нейтрализация отказов, живучесть) и обеспечение безопасного и быстрого восстановления после отказов (обслуживаемость). Получить навык работы по обеспечению высокой доступности.

1. Теоретическое введение

1.1. Доступность

1.11. Основные понятия

Эффективность услуг. Эффективность услуги определяется в терминах максимального времени обслуживания запроса, количества поддерживаемых пользователей и т.п. Требуется, чтобы эффективность не опускалась ниже заранее установленного порога.

Время недоступности. Если эффективность информационной услуги не удовлетворяет наложенным ограничениям, услуга считается недоступной. Требуется, чтобы максимальная продолжительность периода недоступности и суммарное время недоступности за некоторой период (месяц, год) не превышали заранее заданных пределов.

В сущности, требуется, чтобы информационная система почти всегда работала с нужной эффективностью. Для некоторых критически важных систем (например, систем управления) время недоступности должно быть нулевым, без всяких "почти". В таком случае говорят о вероятности возникновения ситуации недоступности и требуют, чтобы эта вероятность не превышала заданной величины. Для решения данной задачи создавались и создаются специальные отказоустойчивые системы, стоимость которых, как правило, весьма высока.

Задачу обеспечения высокой доступности необходимо решать для современных конфигураций, построенных в технологии клиент/сервер. Это означает, что в защите нуждается вся цепочка - от пользователей (возможно, удаленных) до критически важных серверов (в том числе серверов безопасности).

Основные угрозы доступности были рассмотрены нами ранее.

В соответствии с ГОСТ 27.002, под отказом понимается событие, которое заключается в нарушении работоспособности изделия. В контексте данной работы изделие - это информационная система или ее компонент.

В простейшем случае можно считать, что отказы любого компонента составного изделия ведут к общему отказу, а распределение отказов во времени представляет собой простой пуассоновский поток событий. В таком случае вводят понятие интенсивности отказов и среднего времени наработки на отказ, которые связаны между собой соотношением

i - номер компонента,

Интенсивность отказов,

Среднее время наработки на отказ.

Интенсивности отказов независимых компонентов складываются:

а среднее время наработки на отказ для составного изделия задается соотношением

Пуассоновская модель позволяет обосновать еще одно очень важное положение, состоящее в том, что эмпирический подход к построению систем высокой доступности не может быть реализован за приемлемое время. При традиционном цикле тестирования/отладки программной системы по оптимистическим оценкам каждое исправление ошибки приводит к экспоненциальному убыванию (примерно на половину десятичного порядка) интенсивности отказов. Отсюда следует, что для того, чтобы на опыте убедиться в достижении необходимого уровня доступности, независимо от применяемой технологии тестирования и отладки, придется потратить время, практически равное среднему времени наработки на отказ. Например, для достижения среднего времени наработки на отказ 105 часов потребуется более 104,5 часов, что составляет более трех лет. Значит, нужны иные методы построения систем высокой доступности, методы, эффективность которых доказана аналитически или практически за более чем пятьдесят лет развития вычислительной техники и программирования.

Пуассоновская модель применима в тех случаях, когда информационная система содержит одиночные точки отказа, то есть компоненты, выход которых из строя ведет к отказу всей системы. Для исследования систем с резервированием применяется иной формализм.

В качестве меры доступности можно принять вероятность приемлемости эффективности услуг, предоставляемых информационной системой, на всем протяжении рассматриваемого отрезка времени. Чем большим запасом эффективности располагает наличии избыточности в конфигурации системы вероятность того, что в система, тем выше ее доступность.

При рассматриваемый промежуток времени эффективность информационных сервисов не опустится ниже допустимого предела, зависит не только от вероятности отказа компонентов, но и от времени, в течение которого они остаются неработоспособными, поскольку при этом суммарная эффективность падает, и каждый следующий отказ может стать фатальным. Чтобы максимально увеличить доступность системы, необходимо минимизировать время неработоспособности каждого компонента. Кроме того, следует учитывать, что, вообще говоря, ремонтные работы могут потребовать понижения эффективности или даже временного отключения работоспособных компонентов; такого рода влияние также необходимо минимизировать.

Несколько терминологических замечаний. Обычно в литературе по теории надежности вместо доступности говорят о готовности (в том числе о высокой готовности). Мы предпочли термин "доступность", чтобы подчеркнуть, что информационный сервис должен быть не просто "готов" сам по себе, но доступен для своих пользователей в условиях, когда ситуации недоступности могут вызываться причинами, на первый взгляд не имеющими прямого отношения к сервису (пример - отсутствие консультационного обслуживания).

Далее, вместо времени недоступности обычно говорят о коэффициенте готовности . Нам хотелось обратить внимание на два показателя - длительность однократного простоя и суммарную продолжительность простоев, поэтому мы предпочли термин "время недоступности" как более емкий.

Интенсивность отказов () называется вероятность отказа не ремонтируемого изделия в единицу времени при условии, что отказ до этого момента не возникал. Предположим, что некоторый элемент проработал в течение интервала времени от 0 до t. Какова вероятность того, что этот элемент откажет на интервале .

А-событие безотказной работы от 0 до t. В-событие безотказной работы от t до t 1 .

Для того чтобы элемент смог безотказно работать на интервале он должен безотказно проработать на интервале 0 до t.

Р(АВ)=Р(А)*Р(В/А) (1)

Р(А) =Р(0,t) – вероятность безотказной работы элемента на интервале от 0 до t.

Р(В/А) = Р(t,t 1) – условная вероятность события В, что условие А имело место.

Р(В/А)= Р(t,t 1)=Р(АВ)/Р(А); Р(АВ)= Р(0,t 1).

0, t= 0,t+ t, t 1 ,

Р(t,t 1)= Р(0,t 1)/ Р(0,t) (2)

Р(t,t 1)= Р(t 1)/ Р(t) (2а)

Вероятность отказа элемента на интервале (t, t 1):

Равенство (3) может быть переписано в виде: . Умножим числитель и знаменатель (4) на при .

Введем обозначение - интенсивность отказа.

Из равенства (5) с учетом (6) получим: , .

Из (7) следует что интенсивность отказа есть отношение вероятности отказа на интервал () при . Интенсивность отказов определяемая (7) стремится к интенсивности отказа определяемая равенством (6). В соответствии (6) величина может быть определена из графика функции надежности как отношение численного значения тангенса угла наклона касательной к кривой к численной ординаты функции надежности.

Если известна интенсивность отказа элементов, то можно рассчитать вероятность работы любой сколь угодно сложной системы. Незнание функции для составляющих элементов исключает возможность определить вероятность безотказной работы.

Чем менее точно известно для элементов тем больше ошибки в расчете безотказности изделия.

Интенсивность отказов может быть определена опытным путем на основе испытаний изделий.

Предположим Р(t) – есть отношение: , - число элементов, оставшихся безотказными. Тогда на малом отрезке и большом числе испытуемых образцов N.

где -число отказавших элементов на интервале времени, n(t)-число неотказавших элементов.

Экспериментальная кривая заменяется плавной кривой. Чем больше N и меньше интервал времени , тем точнее экспериментальная характеристика и заменяющая её плавная кривая, которая отражает действительную картину интенсивности отказов.

Эргодическая теория. На основании известной из теории вероятности эргодической теории среднее значение (мат. ожидание) при совокупном наблюдении ……….равна среднему значению по времени, определенной за одной системой (элементов).

В данном случае это означает, что изменение интенсивности отказа по времени для 1-го отдельно взятого элемента может быть описано тем же самым законом что и интенсивность, полученная при испытании однотипных элементов большой группы.

Вид функции показан 3 характерных участка:

I – участок приработки; II – нормальной эксплуатации; III – участок износовых отказов, могут возникать внезапные отказы.

Деление на участки является условным но оно позволяет рассмотреть работу элементов по участкам и для каждого участка применять свой закон распределения.

Общая формула безотказной работы позволяет определить Р если известна интенсивность отказа.

Если требуется определить вероятность безотказной работы . Равенство (12) справедливо при условии, что в момент времени t 1 элемент находился в работоспособном состоянии.