Презентация "Надежность и отказоустойчивость малых вычислительных систем"

Подписи к слайдам:
Тема урока: Надежность и отказоустойчивость малых вычислительных систем Одной из основных проблем построения вычислительных систем остается задача обеспечения их продолжительного функционирования Важнейшей характеристикой вычислительных систем является надежность, т.е. работа системы без сбоев в определенных условиях в течение определенного времени. Повышение надежности основано на принципе предотвращения неисправностей путем снижения интенсивности отказов и сбоев за счет применения электронных схем и компонентов с высокой и сверхвысокой степенью интеграции, снижения уровня помех, облегченных режимов работы схем, обеспечения тепловых режимов их работы, а также за счет совершенствования методов сборки аппаратуры. Единицей измерения надежности является среднее время наработки на отказ (MTBF - Mean Time Between Failure), иначе - среднее время безотказной работы. Единицей измерения надежности является среднее время наработки на отказ (MTBF - Mean Time Between Failure), иначе - среднее время безотказной работы. Средняя наработка на отказ (Mean time between failures, MTBF) — технический параметр, характеризующий надёжность восстанавливаемого прибора, устройства или технической системы. Средняя продолжительность работы устройства между ремонтами, то есть показывает, какая наработка в среднем приходится на один отказ. Выражается обычно в часах. Для программных продуктов обычно подразумевается срок до полного перезапуска программы или полной перезагрузки операционной системы. Методы построения отказоустойчивых систем На сегодняшний день не существует системы, гарантирующей 100% отказоустойчивость. Существует два основных направления при построении отказоустойчивых систем: Существует два основных направления при построении отказоустойчивых систем: Первый способ - использование только отказоустойчивых компонентов. При реализации этого направления каждый компонент системы может продолжать свое функционирование, даже если один/несколько подкомпонентов системы, выходят из строя. Второй способ - разработка методов, гарантирующих построение отказоустойчивой системы из компонентов, не являющихся отказоустойчивыми. В таких системах отказоустойчивость реализована за счет введения избыточности и разработки специального программного обеспечения, элементных взаимосвязей и алгоритмов функционирования. Внесение отказоустойчивости в систему или отдельно взятый компонент всегда нуждается в появлении некоторой избыточности. Внесение отказоустойчивости в систему или отдельно взятый компонент всегда нуждается в появлении некоторой избыточности. Избыточность - это наличие в структуре устройства возможностей сверх тех, которые могли бы обеспечить его нормальное функционирование. Избыточность вводится для повышения надёжности работы и для исключения влияния на достоверность передаваемой информации помех и сбоев (в телекоммуникационных устройствах). Отказоустойчивость - это способность вычислительной системы продолжать действия, заданные программой, после возникновения неисправностей. Отказоустойчивость - это способность вычислительной системы продолжать действия, заданные программой, после возникновения неисправностей. Решения, обеспечивающие повышенную отказоустойчивость серверов, должны включать:
  • компоненты с "горячей" заменой (жёсткие диски, внешние накопители, источники питания);
  • автоматический перезапуск и восстановление системы;
  • память с коррекцией ошибок;
  • функции проверки состояния системы;
  • обнаружение и анализ неисправностей;
  • средства удаленного администрирования системы.