Блог ИТ склеротика. Мониторинг жёстких дисков при помощи SMART

Страницы

Расширенный поиск в статьях блога

13 марта 2012 г.

Мониторинг жёстких дисков при помощи SMART

Так уж вышло, что диски имеют свойство умирать. Но часто выяснить причину смерти накопителя бывает очень легко. Диски современных накопителей вращаются со скоростью в несколько тысяч оборотов в минуту. При этом расстояние от головки до поверхности диска составляет доли микрона. Часто диски круглосуточно  работают в условиях повышенной загрязнённости или при неблагоприятном температурном режиме, в системах с очень высокой нагрузкой или не очень хорошим обслуживанием. Опытные пользователи хорошо знакомы с симптомами умирающего накопителя: система начинает работать нестабильно, зависает, ядро сообщает о каких-то трудно объяснимых ошибках. В большинстве случаев на восстановление утерянных данных может уйти весь день, при условии, конечно, что у вас есть резервные копии. Хотя, даже если у вас и есть копии всех важных данных, внезапный отказ жёсткого диска может показаться вам катастрофой.

 

Много пользователей и даже системных администраторов понятия не имеют что такоеSMART (Self-Monitoring, Analysis and Reporting Technology), которая, тем не менее, присутствует во всех современных жёстких дисках. Диски со SMART самостоятельно наблюдают за своей жизнедеятельностью и работоспособностью. Такие диски,в случае возникновения ошибок, сами могут определить, что что-то работает не так. Такая возможность в большинстве случаев поможет предотвратить сценарий «внезапного» отказа жёсткого диска. Практически все реализации SMART позволяют пользователям запускать самотестирование накопителей и просматривать значения параметров производительности и надёжности.

По профессии автор статьи является физиком. Его исследовательская группа использует в работе кластер из 300 компьютеров и 600 жёстких дисков, хранящих более 50 терабайт информации. Интересоваться SMART он начал несколько лет назад, когда начал думать над тем, каким образом можно уменьшить время простоя и повысить эффективность работы кластера. Для этих целей автор уже около года пользуется набором smartmontools, потомком пакета smartsuite.

В этой статье рассказывается о том, как при помощи утилиты smartctl и сервера smartdнаблюдать за состоянием дисков в системе. Со страницы проекта вы сможете загрузить необходимые файлы и инструкции по установке. Обязательно ознакомьтесь с файломWARNINGS, содержащем перечень проблемных контроллеров/дисков, с которыми утилиты могут работать некорректно. Дополнительную документацию можно найти в man-страницах программ, а также на странице проекта.

Smartmontools имеются в репозитариях Slackware, Debian, SuSE, Mandrake, Gentoo, Conectiva и некоторых других Linux-дистрибутивах, так что скорее всего, вы без проблем сможете установить программы в свою систему традиционным для вашей системы методом.

Чтобы понять принципы работы smartmontools, полезно будет ознакомиться с историей создания и развития SMART. Первая спецификация SMART (SFF-8035i) была разработана группой производителей жёстких дисков. Во второй редакции (апрель 1996-го) диски хранили во  внутреннем списке до 30-ти атрибутов, отражавших состояния различных параметров производительности и надёжности, таких как количество ошибок чтения и поиска. Каждый атрибут имеет однобайтовое нормализованное значение в диапазоне от 1 до 253 и соответствующий однобайтовое пороговое значение. Если одно или более нормализованных значений атрибутов меньше или равны соответствующим пороговым, значит, вероятно, в ближайшие 24 часа жёсткий диск выйдет из строя или же истекает срок его службы, заявленный производителем. Значения некоторых атрибутов обновляются в процессе работы диска, а некоторые — лишь в процессе оффлайн-тестов, которые приостанавливают на время операции чтения вывода, и по этой причине запускаются при помощи специальных команд. Позже, в 1995 году, части спецификации SFF-8035i были включены в стандарт ATA-3.

Начиная со стандарта ATA-4 введено требование удалить внутреннюю таблицу атрибутов. Вместо неё жёсткий диск должен отвечать на запросы о его состоянии ответами OK или NOT OK. Отрицательный ответ на запрос означает, что микропрограмма жёсткого диска определила, что тот скоро выйдет из строя. В стандарте ATA-5 было добавлено ведение протокола ошибок, а также набор команд для запуска самотестирования диска. Для того, чтобы воспользоваться всеми описанными возможностями, вам нужно знать, как при помощиsmartmontools получать значения атрибутов SMART (большинство жёстких дисков имеют обратную совместимость с SFF-8035i), узнавать состояние диска, запускать самотестирование и анализировать протокол его работы (результаты последних 21 теста) и анализировать протокол ATA-ошибок жёсткого диска (информация о пяти последних ошибках). Эта статья ориентирована на работу с ATA-дисками, а информацию о работе со SCSI-накопителями вы можете получить на странице проекта smartmontools.

Первым шагом запустите команду

smartctl -a /dev/hda

заменив /dev/hda на путь к файлу устройства вашего диска. Если SMART для вашего накопителя не включён, вам необходимо сначала включить его при помощи команды

smartctl -s on /dev/hda

В приведённой ниже части вывода команды smartctl -a приведена информация о модели и прошивке жесткого диска, в этом примере — IBM/Hitachi GXP-180. Smartmontools имеет собственную базу данных типов дисков. Если модель вашего накопителя присутствует в БД, то вы сможете правильно интерпретировать значения атрибутов SMART.

Device Model:     IC35L120AVV207-0
Serial Number: VNVD02G4G3R72G
Firmware Version: V24OA63A
Device is: In smartctl database [for details use: -P show]
ATA Version is: 6
ATA Standard is: ATA/ATAPI-6 T13 1410D revision 3a
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

В следующем вывода команды smartctl -Hc /dev/hda отображаются результаты опроса состояния «здоровья» диска. В этом примере показан диск, который успешно прошёл тест. Если в вашем случае первая строка будет содержать результат FAILING — немедленно сделайте резервные копии всех нужных данных! Оставшаяся часть вывода отображает поддерживаемые возможности вашего накопителя, а также примерное время выполнения различных вариантов самотестирования.


SMART overall-health self-assessment test result: PASSED
General SMART Values:
Off-line data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Off-line Data Collection:
Enabled.
Self-test execution status: ( 0) The previous self-test routine
completed without error or no
self-test has ever been run.
Total time to complete off-line
data collection: (2855) seconds.
Offline data collection
capabilities: (0x1b) SMART execute Offline immediate.
Automatic timer ON/OFF support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
No Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 48) minutes.

В следующем примере вывода команды smartctl -A /dev/hda показаны значения 30-ти атрибутов SMART (максимум их может быть 255). Имейте ввиду, что атрибуты SMART не являются частью стандарта ATA, хотя многие производители и используют их. Несмотря на то, что SFF-8035i не определяет, как правильно интерпретировать каждый атрибут, многие из них имеют де-факто соответствуют определённым параметрам. В приводимом примере 13-й атрибут (ID #194) отражает внутреннюю температуру диска.


Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 060 Pre-fail Always - 0
2 Throughput_Performance 0x0005 155 155 050 Pre-fail Offline - 225
3 Spin_Up_Time 0x0007 097 097 024 Pre-fail Always - 293 (Average 270)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 10
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 125 125 020 Pre-fail Offline - 36
9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 3548
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
192 Power-Off_Retract_Count 0x0032 100 100 050 Old_age Always - 158
193 Load_Cycle_Count 0x0012 100 100 050 Old_age Always - 158
194 Temperature_Celsius 0x0002 189 189 000 Old_age Always - 29 (Lifetime Min/Max 23/33)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0

Исследования показали, что снижение рабочей температуры диска всего на 5 градусов Цельсия существенно уменьшают количество возникающих ошибок в его работе. Таким образом, вы можете достаточно простым способом повысить надёжность вашего накопителя, установив для него дополнительный вентилятор.


Каждый Атрибут имеет шестибайтовое значение (RAW_VALUE) и однобайтовое нормализованное значение (VALUE). В нашем примере с параметром температуры мы видим три значения RAW_VALUE: текущую температуру (29), рекомендованную минимальную (23) и рекомендованную максимальную (33). Формат данных RAW_VALUE не определяется никакими стандартами и каждый производитель использует какие-то свои стандарты. Для того, чтобы отслеживать надёжность диска, его прошивка конвертирует raw-значения атрибутов в нормализованные, лежащие в пределах от 1 до 253. Если нормализованное значение меньше или равно пороговому (THRESH), то это сигнализирует об ошибке, что будет отображено в столбце WHEN_FAILED. В приведённом примере эта колонка пуста, поскольку значения всех атрибутов в норме. Также в таблице отображено наименьшее нормализованное значение; оно устанавливается в момент включения в диске SMART. Столбец TYPE показывает, как нужно трактовать значение атрибута, имеющего ошибочное состояние: Old_age — время жизни устройства достигло предела, определённого производителем; Pre-fail — ожидается выход устройства из строя. Например, время работы диска (ID #3) является Pre-fail атрибутом. Если такой атрибут будет иметь значение FAIL, то следует ожидать выхода устройства из строя в течение 24 часов.


Имена атрибутов и их трактовка не определены никакими стандартами. Разные производители используют одни и те же ID атрибутов для различных целей. По этой причине в smartctl предусмотрена возможность переопределять трактовку значений атрибутов при помощи опции -v. Обратитесь к man-странице smartctl за дополнительной информацией. Например, некоторые диски используют 9-й атрибут для хранения времени, в течение которого устройство включено. При помощи опции smartctl -v 9,minutes вы можете настроить корректную интерпретацию значения этого атрибута. Если модель вашего диска присутствует в базе данных smartmontools, то подобные опции устанавливаются автоматически.




При помощи команды smartctl -l error /dev/hda можно просмотреть протокол ошибок диска. Если ошибки отсутствуют, то, естественно, протокол ошибок будет пустым. Обычно волноваться стоит лишь в том случае, когда количество ошибок в протоколе будет значительным, поскольку часто возникают случайные, незначительные ошибки в работе, которые не представляют особой серьёзности. Если вам уж очень хочется посмотреть, на что похож протокол, содержащий ошибки, вы можете взглянуть на примеры, представленные на веб-странице smartmontools.


Ниже представлен вывод команды smartctl -l selftest /dev/hda, запускающей механизмы самотестирования диска. В примере показаны результаты двух типов тестирования: короткого и длинного (диски стандарта ATA-6/7 могут иметь ещё два других типа встроенных тестов). По отдельности короткий и длинный тесты могут быть запущены командами smartctl -t short /dev/hda и smartctl -t long /dev/hda соответственно. Выполнение этих тестов не затрагивает содержащиеся на диске данные, поэтому эти тесты можно выполнять на работающей системе. Обычно короткие тесты длятся не более минуты-двух, а длинные — около часа. В кластере, который обслуживает автор статьи, длинное самотестирование автоматически запускается по расписанию в воскресенье утром. В примере ниже показан вывод, когда самотестирование прошло без ошибок. В колонкеLifeTime отображается время, относительно момента включения питания диска, когда был запущен тест. Если в результате самотестирования была обнаружена ошибка, то в колонкеLBA_of_first_error будет отображён логический адрес блока, в котором обнаружена ошибка. Если тест не будет проведён до конца в связи с ошибкой, то в колонке Remainingбудет отображено количество процентов, оставшееся до завершения. Если у вас есть подозрения, что что-то не так с вашим диском, автор настоятельно рекомендует запустить длинное самотестирование, которое поможет выявить потенциальные проблемы.

SMART Self-test log, version number 1
Num Test_Description Status Remaining LifeTime(hours)  LBA_of_first_error
# 1 Extended off-line Completed 00% 3525 -
# 2 Extended off-line Completed 00% 3357 -
# 3 Short off-line Completed 00% 3059 -

При помощи команды smartctl -t offline можно запустить оффлайн-тестирование. Такие тесты появились ещё со времён стандарта SFF-8035i и обновляют значения тех атрибутов, которые не обновляются в процессе нормальной работы диска (см. столбец UPDATED). Некоторые диски поддерживают автоматическое оффлайн-тестирование, выполняющееся каждые несколько часов после его включения командой smartctl -o on.


SMART предоставляет механизм мониторинга параметров производительности диска. Однако есть существенная проблема, заключающаяся в том, что не существует механизма, с помощью которого можно было бы напрямую уведомлять операционную систему о возникающих проблемах. А поскольку SMART-мониторинг обычно не настраивается по умолчанию, то многие явные проблемы не обнаруживаются на ранних этапах, что зачастую приводит к плачевным последствиям. Конечно же, вы можете регулярно самостоятельно вручную отслеживать состояние дисков при помощи smartctl, однако это довольно нудное и утомительное занятие.


В пакете smartmontools имеется демон smartd, который умеет выполнять всю рутину по регулярной проверке состояния дисков. Этот демон отслеживает SMART-данные дисков и обнаруживает ошибки. smartd может быть сконфигурирован таким образом, чтобы запускать определённые сценарии оболочки, а также отсылать уведомления на e-mail администраторам в случае обнаружения ошибок. По умолчанию, когда smartd запускается, он регистрирует диски, находящиеся в системе и затем опрашивает SMART дисков каждые 30 минут на предмет ошибок в значениях атрибутов, состояний, результатов самотестирования или увеличения количества ATA-ошибок. По умолчанию все найденные ошибки протоколируются в /var/log/messages через syslog.


Управлять настройкой smartd можно при помощи файла конфигурации /etc/smartd.conf. Содержимое этого файла считывается smartd в момент его запуска. Каждая строка содержит директивы, относящиеся к одному диску. Конфигурационные файлы хостов кластера, который обслуживает автор статьи, выглядят так:

# /etc/smartd.conf config file
/dev/hda -S on -o on -a -I 194 -m sense@phys.uwm.edu
/dev/hdc -S on -o on -a -I 194 -m sense@phys.uwm.edu

В первом поле определяется путь к устройству. Директива -o on включает автоматический запуск оффлайн-тестов, а директива -S on включает функцию автоматического сохранения значений атрибутов. Директива -m совместно с e-mail адресом указывает smartd адрес для отсылки уведомлений о найденных ошибках. Директива -a заставляет smartd наблюдать за всеми доступными SMART-параметрами дисков. В приведённом примере конфигурацииsmartd будет протоколировать все изменения нормализованных значений атрибутов. Директива -I 194 указывает smartd игнорировать изменения значения атрибута #194, поскольку температура жёсткого диска довольно часто изменяется, а наличие в протоколе кучи сообщений об этом лишь будет мешать.


Обычно smartd запускается при помощи традиционного UNIX-механизма init. Например, вRedHat для запуска и останова smartd используются команды /etc/rc.d/init.d/smartd start и /etc/rc.d/init.d/smartd stop.


Больше информации о работе smartd вы можете получить в его man-странице (man smartd), а краткую информацию по использованию — при помощи команд smartd -D иsmartd -h. Например, при помощи опции -M test можно инициировать отправку тестового e-mail сообщения, чтобы убедиться в том, что оно корректно будет доставлено получателю. Различные опции позволяют гибко управлять smartd. Например, можно включить наблюдение за изменением значений raw-атрибутов.


Что делать, если при работе диска стали проявляться проблемы? Что делать, если результаты самотестирования сообщают об ошибке или SMART-статус жизненно-важных параметров диска находится в ошибочном состоянии? Начните с того, что как можно быстрее переместите все важные данные на другую систему. Затем запустите расширенное самотестирование диска и посмотрите, возникают ли ошибки на тех же самых блоках. Если это так, значит с диском творится что-то неладное. Если SMART сообщает вам об ошибках, но диск ещё находится на гарантии, вам должны без проблем его заменить. Если диск не может выполнить самотестирование, можно попробовать поискать специальное ПО, иногда предоставляемое производителями, например, PowerMax от Maxtor или Drive Fitness Testот IBM. Иногда такие программы могут помочь предотвратить потерю данных за счёт блокирования повреждённых блоков. А иногда при помощи них можно получить специальный код, который поможет вам получить замену плохого диска.


В этой статье рассмотрены лишь основы работы со smartmontools. Если вам необходимо больше информации, вы всегда можете обратиться к man-страницам, веб-сайту проекта или же задать вопрос в список рассылки. Не забывайте, что использование smartmontools не избавляет вас от необходимости делать резервные копии данных. SMART не может предотвратить все возможные сбои в работе жёстких дисков, однако часто даёт ключ к тому, что с вашим диском происходит что-то нехорошее, а это, в свою очередь, поможет вам повысить стабильность работы вашей системы.


Разработчики портировали smartmontools на FreeBSD, Darwin и Solaris, а также добавили некоторые расширения, позволяющие, например, наблюдать за дисками, находящимися за RAID-контроллером. Если вы желаете принять участие в разработке, просто напишите об этом в списке рассылки smartmontools. Особенно полезными для разработчиков будут данные о дисках, которых ещё нет в базе данных smartmontools.


По мотивам LinuxJournal.Com




.

Счетчик тИЦ и PR Яндекс.Метрика Msn bot last visit powered by MyPagerank.NetYahoo bot last visit powered by MyPagerank.Net ping fast  my blog, website, or RSS feed for Free