forum.opennet.ru

Составление сообщения

Исходное сообщение

"В ядре Linux 6.3 всплыла проблема, приводящая к повреждению ..."
Отправлено Аноним, 29-Май-23 01:56

> Есть, только аппаратные,самого жёсткого диска, и уже давно.
Там вообще-то не чексуммы а FEC - но вот там если он не выдюжил, вариантов обычно два. Оно либо отдаст наверх IO error - UNC, либо отдаст сектор "как вышло" после FEC. В зависимости от дури фирмвари железки.
Со стороны ФС и райдов проблема в том что они в результате зачастую не знают какая копия верная. Штуки типа btrfs получают очевидный плюс: на какой копии данных чексум сошелся, та и правильная. Обычный RAID вообще может вытворять что угодно если вместо полной кончины девайсы стали допустим битые данные выгружать. Дальнейшее unspecified - и если чексум данных не было вы можете довольно долго не замечать это, пока в ФС что-то не развалится фатальным образом.
Как показал опыт с btrfs - пойти не так может совершенно все.
- Может глючить RAM и в конечном итоге это тоже проблема.
- Может глючить CPU и это тоже ведет к проблемам.
- Может глючить чипсет или контроллер RAID и их фирмвар (где применимо).
- Может быть глючный провод от диска до контроллера (SATA/SAS/etc).
- Фирмвари девайсов могут вытворять все что угодно и даже больше.
Иногда это превосходит самые дикие допущения ФСов. Скажем потерять большой регион в 16-64 мега при внезапном слете питания? Всего лишь SSD кантовал RMW/GC а тут питание слетело или сглючила фирмварь. Некоторые конфигурации типа Btrfs @ RAID1 даже имеют шансы. А вот просто RAID1 совсем не готов что 2 копии будт, как живые, только - уже вот несимметричные, и догадайтесь какая из 2 верная.
А как об этом всем узнать? А вот запустить файлуху с чексуммами в эксплуатацию. И сразу столько открытий чудных, на тему глючного железа, которое как живое, но раз в час/день/месяц/год пару битиков загаживает.
> Сейчас уже выжали с жёстких все что можно,особенно с учётом черепичной записи.
Zoned в btrfs приветы передавал. Правда это для host-managed актуально.
> производителей серверные жёсткие с усиленной контрольной суммой,там до 3 байт ошибок
> на 4 мгб ченить могут на аппаратном уровне.
У почти всех заметно более мощный FEC. Типа эн байтов на каждые 4096 сектор. Собственно с 512 на 4096 перешли чтобы улучшить соотношение data/FEC. Но наружу это если и лезет то только как UNC или как мусор вместо данных если фирмварь решила вместо UNC отдать "уж что вышло". Это однако совсем не аналог чексум ФС, потому что end-to-end проверки корректности работы железа не получается и вооон то можно прошляпить.
А с btrfs вон там глючный чипсет заметили, тут глючный шнурок, там глючная RAM, а там и вообще проц кривой был, а там девайс не сообщал UNC но отдавал труху. Коллекция глюкастиков основательно пополнилась. Хорошо когда чексуммы данных есть.

Исходное сообщение
"В ядре Linux 6.3 всплыла проблема, приводящая к повреждению ..." Отправлено Аноним, 29-Май-23 01:56
> Есть, только аппаратные,самого жёсткого диска, и уже давно. Там вообще-то не чексуммы а FEC - но вот там если он не выдюжил, вариантов обычно два. Оно либо отдаст наверх IO error - UNC, либо отдаст сектор "как вышло" после FEC. В зависимости от дури фирмвари железки. Со стороны ФС и райдов проблема в том что они в результате зачастую не знают какая копия верная. Штуки типа btrfs получают очевидный плюс: на какой копии данных чексум сошелся, та и правильная. Обычный RAID вообще может вытворять что угодно если вместо полной кончины девайсы стали допустим битые данные выгружать. Дальнейшее unspecified - и если чексум данных не было вы можете довольно долго не замечать это, пока в ФС что-то не развалится фатальным образом. Как показал опыт с btrfs - пойти не так может совершенно все. - Может глючить RAM и в конечном итоге это тоже проблема. - Может глючить CPU и это тоже ведет к проблемам. - Может глючить чипсет или контроллер RAID и их фирмвар (где применимо). - Может быть глючный провод от диска до контроллера (SATA/SAS/etc). - Фирмвари девайсов могут вытворять все что угодно и даже больше. Иногда это превосходит самые дикие допущения ФСов. Скажем потерять большой регион в 16-64 мега при внезапном слете питания? Всего лишь SSD кантовал RMW/GC а тут питание слетело или сглючила фирмварь. Некоторые конфигурации типа Btrfs @ RAID1 даже имеют шансы. А вот просто RAID1 совсем не готов что 2 копии будт, как живые, только - уже вот несимметричные, и догадайтесь какая из 2 верная. А как об этом всем узнать? А вот запустить файлуху с чексуммами в эксплуатацию. И сразу столько открытий чудных, на тему глючного железа, которое как живое, но раз в час/день/месяц/год пару битиков загаживает. > Сейчас уже выжали с жёстких все что можно,особенно с учётом черепичной записи. Zoned в btrfs приветы передавал. Правда это для host-managed актуально. > производителей серверные жёсткие с усиленной контрольной суммой,там до 3 байт ошибок > на 4 мгб ченить могут на аппаратном уровне. У почти всех заметно более мощный FEC. Типа эн байтов на каждые 4096 сектор. Собственно с 512 на 4096 перешли чтобы улучшить соотношение data/FEC. Но наружу это если и лезет то только как UNC или как мусор вместо данных если фирмварь решила вместо UNC отдать "уж что вышло". Это однако совсем не аналог чексум ФС, потому что end-to-end проверки корректности работы железа не получается и вооон то можно прошляпить. А с btrfs вон там глючный чипсет заметили, тут глючный шнурок, там глючная RAM, а там и вообще проц кривой был, а там девайс не сообщал UNC но отдавал труху. Коллекция глюкастиков основательно пополнилась. Хорошо когда чексуммы данных есть.

Ваше сообщение
Имя*:
EMail:	Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email). Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:	>> Есть, только аппаратные,самого жёсткого диска, и уже давно. > Там вообще-то не чексуммы а FEC - но вот там если он > не выдюжил, вариантов обычно два. Оно либо отдаст наверх IO error > - UNC, либо отдаст сектор "как вышло" после FEC. В зависимости > от дури фирмвари железки. > Со стороны ФС и райдов проблема в том что они в результате > зачастую не знают какая копия верная. Штуки типа btrfs получают очевидный > плюс: на какой копии данных чексум сошелся, та и правильная. Обычный > RAID вообще может вытворять что угодно если вместо полной кончины девайсы > стали допустим битые данные выгружать. Дальнейшее unspecified - и если чексум > данных не было вы можете довольно долго не замечать это, пока > в ФС что-то не развалится фатальным образом. > Как показал опыт с btrfs - пойти не так может совершенно все. > - Может глючить RAM и в конечном итоге это тоже проблема. > - Может глючить CPU и это тоже ведет к проблемам. > - Может глючить чипсет или контроллер RAID и их фирмвар (где применимо). > - Может быть глючный провод от диска до контроллера (SATA/SAS/etc). > - Фирмвари девайсов могут вытворять все что угодно и даже больше. > Иногда это превосходит самые дикие допущения ФСов. Скажем потерять большой регион в > 16-64 мега при внезапном слете питания? Всего лишь SSD кантовал RMW/GC > а тут питание слетело или сглючила фирмварь. Некоторые конфигурации типа Btrfs > @ RAID1 даже имеют шансы. А вот просто RAID1 совсем не > готов что 2 копии будт, как живые, только - уже вот > несимметричные, и догадайтесь какая из 2 верная. > А как об этом всем узнать? А вот запустить файлуху с чексуммами > в эксплуатацию. И сразу столько открытий чудных, на тему глючного железа, > которое как живое, но раз в час/день/месяц/год пару битиков загаживает. >> Сейчас уже выжали с жёстких все что можно,особенно с учётом черепичной записи. > Zoned в btrfs приветы передавал. Правда это для host-managed актуально. >> производителей серверные жёсткие с усиленной контрольной суммой,там до 3 байт ошибок >> на 4 мгб ченить могут на аппаратном уровне. > У почти всех заметно более мощный FEC. Типа эн байтов на каждые > 4096 сектор. Собственно с 512 на 4096 перешли чтобы улучшить соотношение > data/FEC. Но наружу это если и лезет то только как UNC > или как мусор вместо данных если фирмварь решила вместо UNC отдать > "уж что вышло". Это однако совсем не аналог чексум ФС, потому > что end-to-end проверки корректности работы железа не получается и вооон то > можно прошляпить. > А с btrfs вон там глючный чипсет заметили, тут глючный шнурок, там > глючная RAM, а там и вообще проц кривой был, а там > девайс не сообщал UNC но отдавал труху. Коллекция глюкастиков основательно пополнилась. > Хорошо когда чексуммы данных есть.
	Введите код, изображенный на картинке:

При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру