Развернул Ovirt 4.3 и в процессе эксплуатации стали бится образы виртуалок.
Появились сообщения вида
kernel: blk_update_request: I/O error, dev sda, sector 2053921281) RAID 1 был собран недавно на свежих энтерпрайз дисках, а сами диски вне рейда и по инфе smartctl -a и smtartctl -t long и badblocks тесты успешно проходят.
2) Проверка рейда на консинстентность силами рейд контроллера(PERC H200) проходит без ошибок.Самое занятное чего я не ожидал и что мне не понятно:
badblocks показывает прямо на рейде /dev/sda 148 битых секторов!
Повторная проверка badblocks после холодного ребута сервера показывает те же сбойные сектора.Также в процессе проверки badblocks на рейде проявляется деградация скорости проверки.
Изначально скорость проверки идет 1% ~ 1 мин. Потом доходит до 1% ~ 7 мин. Проверка в итоге длилась 5-6 часов.При тестировании дисков вне рейда скорость проверки не деградирует и держится на тех же 1% ~ 1 мин.
Сейчас склоняюсь к следующим вариантам
- неисправность рейд контроллера
- проблема драйвера, ядраCentOS 7, ядро 3.10 штатное
Кто нибудь сталкивался, есть идеи?
> Сейчас склоняюсь к следующим вариантам
> - неисправность рейд контроллера
> - проблема драйвера, ядра
> Кто нибудь сталкивался, есть идеи?Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на грабли с дисками, оказалось - БП помирает.
> Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на
> грабли с дисками, оказалось - БП помирает.При проблеме питания мне кажется что сектора "бились" бы рандомно. Но у меня, и я специально это отметил, адреса битых секторов не меняются.
У вас бились рандомно или всегда те же?
>> Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на
> При проблеме питания мне кажется что сектора "бились" бы рандомно. Но у
> меня, и я специально это отметил, адреса битых секторов не меняются.
> У вас бились рандомно или всегда те же?Битых секторов не было. Но через несколько часов после старта скорость чтения/записи начинала падать, пока вообще не прекращались всякие операции с диском.
Попробуй забекапить виртуалки, обновить все прошивки (биос, контроллер, всё что свежее найдёшь), залить нулями каждый диск отдельно, собрать новый рейд1 и снова прогнать бедблокс.
Если та же проблема с деградацией скорости останется, пересобери рейд без контроллера, через мдадм и тот же тест.
> Попробуй забекапить виртуалки, обновить все прошивки (биос, контроллер, всё что свежее
> найдёшь), залить нулями каждый диск отдельно, собрать новый рейд1 и сноваПрошивки Dell - это обязательно, но с H200 нужно аккуратно. Их целая куча - H200, H200A, H200B, H200E, H200I. У чувака был неописуемый случай - https://forums.servethehome.com/index.php?threads/dell-h200-.../
Стояла последняя прошивка по умолчанию.
Пришел к таким действиям:
- Контроллер PERC H200A это один в один LSI 9211-8i. Можно шить прошивками от LSI которые свежее и функциональнее.
- Перепрошил на LSI P20 из FreeDOS. Инструкция в комменте снизу от Zeit(https://blog.michael.kuron-germany.de/2014/11/crossflashing-.../)
- Пересобрал рейд.
- Нарезал партишены, отформатировал, скопировал файлы груба и корень с овиртом в соответствующие разделы.
- Проинсталил груб.
- Все взлетело, данные не потерял.Как я понял трабл был в порче метаданных рейда. Рейд контроллер показывает меньше объем диска примерно на 1 гиг. По разметке видно, что в хвосте дисков он резервирует область под метаданные. Хотя остается загадкой почему проверка на целостность рейда проходила. Меня это очень напрягало и думал что нужно обязательно перепрошиться либо менять контроллер, чтобы не попасть ни эти грабли вновь. По итогу удалось обнаружить новые LSI прошивки.
Забыл сказать. После перепрошивки рейд не развалился. Показал последнюю конфу рейда. Я попробовал прогнать еще раз badblocks на нем в надежде, что обновление прошивки уберет сбойные сектора. Но нет, все сыпалось по прежнему. После этого уже сошелся на порче метаданных рейда на самих дисках и решил пересобрать рейд.
Обнови прошивки Прошивки Dell, все перезагрузи