URL: https://www.opennet.ru/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID13
Нить номер: 988
[ Назад ]

Исходное сообщение
"badblocks на рейде"

Отправлено Анонимко , 31-Дек-19 02:52 
Развернул Ovirt 4.3 и в процессе эксплуатации стали бится образы виртуалок.
Появились сообщения вида
kernel: blk_update_request: I/O error, dev sda, sector 205392128

1) RAID 1 был собран недавно на свежих энтерпрайз дисках, а сами диски вне рейда и по инфе smartctl -a и smtartctl -t long и badblocks тесты успешно проходят.
2) Проверка рейда на консинстентность силами рейд контроллера(PERC H200) проходит без ошибок.

Самое занятное чего я не ожидал и что мне не понятно:

badblocks показывает прямо на рейде /dev/sda 148 битых секторов!
Повторная проверка badblocks после холодного ребута сервера показывает те же сбойные сектора.

Также в процессе проверки badblocks на рейде проявляется деградация скорости проверки.
Изначально скорость проверки идет 1% ~ 1 мин. Потом доходит до 1% ~ 7 мин. Проверка в итоге длилась 5-6 часов.

При тестировании дисков вне рейда скорость проверки не деградирует и держится на тех же 1% ~ 1 мин.

Сейчас склоняюсь к следующим вариантам
- неисправность рейд контроллера
- проблема драйвера, ядра

CentOS 7, ядро 3.10 штатное

Кто нибудь сталкивался, есть идеи?


Содержание

Сообщения в этом обсуждении
"badblocks на рейде"
Отправлено Аноним , 31-Дек-19 10:28 
> Сейчас склоняюсь к следующим вариантам
> - неисправность рейд контроллера
> - проблема драйвера, ядра
> Кто нибудь сталкивался, есть идеи?

Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на грабли с дисками, оказалось - БП помирает.


"badblocks на рейде"
Отправлено Анонимко , 31-Дек-19 15:40 
> Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на
> грабли с дисками, оказалось - БП помирает.

При проблеме питания мне кажется что сектора "бились" бы рандомно. Но у меня, и я специально это отметил, адреса битых секторов не меняются.

У вас бились рандомно или всегда те же?


"badblocks на рейде"
Отправлено Аноним , 31-Дек-19 16:52 
>> Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на
> При проблеме питания мне кажется что сектора "бились" бы рандомно. Но у
> меня, и я специально это отметил, адреса битых секторов не меняются.
> У вас бились рандомно или всегда те же?

Битых секторов не было. Но через несколько часов после старта скорость чтения/записи начинала падать, пока вообще не прекращались всякие операции с диском.



"badblocks на рейде"
Отправлено DeerFriend , 31-Дек-19 11:28 
Попробуй забекапить виртуалки, обновить все прошивки (биос, контроллер, всё что свежее найдёшь), залить нулями каждый диск отдельно, собрать новый рейд1 и снова прогнать бедблокс.
Если та же проблема с деградацией скорости останется, пересобери рейд без контроллера, через мдадм и тот же тест.

"badblocks на рейде"
Отправлено ACCA , 02-Янв-20 16:02 
> Попробуй забекапить виртуалки, обновить все прошивки (биос, контроллер, всё что свежее
> найдёшь), залить нулями каждый диск отдельно, собрать новый рейд1 и снова

Прошивки Dell - это обязательно, но с H200 нужно аккуратно. Их целая куча - H200, H200A, H200B, H200E, H200I. У чувака был неописуемый случай - https://forums.servethehome.com/index.php?threads/dell-h200-.../


"badblocks на рейде"
Отправлено Анонимко , 19-Янв-20 01:12 
Стояла последняя прошивка по умолчанию.
Пришел к таким действиям:
- Контроллер PERC H200A это один в один LSI 9211-8i. Можно шить прошивками от LSI которые свежее и функциональнее.
- Перепрошил на LSI P20 из FreeDOS. Инструкция в комменте снизу от Zeit(https://blog.michael.kuron-germany.de/2014/11/crossflashing-.../)
- Пересобрал рейд.
- Нарезал партишены, отформатировал, скопировал файлы груба и корень с овиртом в соответствующие разделы.
- Проинсталил груб.
- Все взлетело, данные не потерял.

Как я понял трабл был в порче метаданных рейда. Рейд контроллер показывает меньше объем диска примерно на 1 гиг. По разметке видно, что в хвосте дисков он резервирует область под метаданные. Хотя остается загадкой почему проверка на целостность рейда проходила. Меня это очень напрягало и думал что нужно обязательно перепрошиться либо менять контроллер, чтобы не попасть ни эти грабли вновь. По итогу удалось обнаружить новые LSI прошивки.


"badblocks на рейде"
Отправлено Анонимко , 19-Янв-20 01:19 
Забыл сказать. После перепрошивки рейд не развалился. Показал последнюю конфу рейда. Я попробовал прогнать еще раз badblocks на нем в надежде, что обновление прошивки уберет сбойные сектора. Но нет, все сыпалось по прежнему. После этого уже сошелся на порче метаданных рейда на самих дисках и  решил пересобрать рейд.


"badblocks на рейде"
Отправлено dmitriygessus , 24-Май-20 23:50 
Обнови прошивки Прошивки Dell, все перезагрузи