forum.opennet.ru - "Выпуск кластерной ФС Lustre 2.17" (24)

"Выпуск кластерной ФС Lustre 2.17"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Выпуск кластерной ФС Lustre 2.17"	+/–
Сообщение от opennews (?), 31-Дек-25, 11:37
Опубликован релиз кластерной файловой системы Lustre 2.17, используемой в большей части крупнейших Linux-кластеров, содержащих десятки тысяч узлов. Ключевыми компонентами Lustre являются серверы обработки и хранения метаданных (MDS), управляющие серверы (MGS), серверы хранения объектов (OSS), хранилище объектов (OST, поддерживается работа поверх ext4 и ZFS) и клиенты. Код проекта распространяется под лицензией GPLv2... Подробнее: https://www.opennet.dev/opennews/art.shtml?num=64533
Ответить \| Правка \| Cообщить модератору

Оглавление

Непонятно, это лучше BTRFS, или нет , aname (ok), 11:47 , 31-Дек-25, (2) –10

Это другое Она надстройка над обычными ФС , Аноним (8), 13:28 , 31-Дек-25, (8) +1
Это что-то типа NFS, только круче , faa (?), 14:20 , 31-Дек-25, (10)

Человек попытался объяснить незнайке простыми словами, а другой незнайка обиделс, Аноним (20), 19:56 , 31-Дек-25, (20)

ZFS Ван лав, Аноним (12), 14:25 , 31-Дек-25, (12) –3

Архаика , Аноним (23), 21:30 , 31-Дек-25, (23) +1

Непонятно а как это на локалхосте поднять , Аноним (4), 11:55 , 31-Дек-25, (4) –1

Если непонятно, значит не нужно, Фонтимос (?), 12:47 , 31-Дек-25, (5) +9
Наделать кучу виртуалок и над ними поднять , Аноним (8), 13:29 , 31-Дек-25, (9) +2

и что будет, если одна, или несколько виртуалок будут загашены выйдут из строя , Аноним (19), 19:42 , 31-Дек-25, (19)

Итог будет зависеть от того, как Вы настроите репликацию в Lustre , Аноним (20), 19:58 , 31-Дек-25, (21)

Может быть это нужно только если у тебя в квартире много компьютеров и ты что-то, kusb (?), 22:23 , 31-Дек-25, (24)

Например облачный кластер на балконе и несколько оптических проводочков идёт к н, kusb (?), 22:23 , 31-Дек-25, (25) +1

Хранители рутрекера и держатели кластеров редких торрентами поддерживают , Аноним (28), 00:23 , 01-Янв-26, (28)
10гб с коммутатор на алике стоит меньше 10 000 рублей, стоил покрайней мере год , Аноним (34), 15:18 , 01-Янв-26, (34)

Это имеет смысл только если тебе надо слить в один накопитель несколько накопите, torvn77 (ok), 13:50 , 01-Янв-26, (32)

Какой к хренам раст, lustre fs уже работала когда раста даже в планах не было , chemistmail (ok), 12:54 , 31-Дек-25, (7)
Lustre еще используется на суперкомпьютерах , faa (?), 14:21 , 31-Дек-25, (11)
Архитектурно выглядит очень похоже на ceph, но в чём преимущества Я так понял б, morphe (?), 14:40 , 31-Дек-25, (14) +2

Поддерживаю этого оратора, тоже хотелось бы понять - в чем разница и почему бы , daemontux (?), 20:03 , 31-Дек-25, (22)

Короткий ответ Ceph не для этого был придуман Заранее извинияюсь за сильное упр, none (??), 11:27 , 01-Янв-26, (29) +1

Можно включить, можно отключить, можно управлять кол-вом реплик, считай кол-м се, Аноним (34), 15:50 , 01-Янв-26, (36)

Извините, повторюсь Ceph не для этого был придуман Именно то, что ceph работает, none (??), 17:33 , 01-Янв-26, (37)

Рассказывать про запись данных на ceph не буду, но там появятся такие милые серд, none (??), 11:44 , 01-Янв-26, (30)

Сообщения [Сортировка по времени | RSS]

2. "Выпуск кластерной ФС Lustre 2.17" –10 +/–

Сообщение от aname (ok), 31-Дек-25, 11:47

Непонятно, это лучше BTRFS, или нет?

Ответить | Правка | Наверх | Cообщить модератору

8. "Выпуск кластерной ФС Lustre 2.17" +1 +/–

Сообщение от Аноним (8), 31-Дек-25, 13:28

Это другое. Она надстройка над обычными ФС.

Ответить | Правка | Наверх | Cообщить модератору

10. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от faa (?), 31-Дек-25, 14:20

Это что-то типа NFS, только круче.

Ответить | Правка | К родителю #2 | Наверх | Cообщить модератору

20. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от Аноним (20), 31-Дек-25, 19:56

Человек попытался объяснить незнайке простыми словами, а другой незнайка обиделся на человека.

Ответить | Правка | Наверх | Cообщить модератору

12. "Выпуск кластерной ФС Lustre 2.17" –3 +/–

Сообщение от Аноним (12), 31-Дек-25, 14:25

ZFS Ван лав

Ответить | Правка | К родителю #2 | Наверх | Cообщить модератору

23. "Выпуск кластерной ФС Lustre 2.17" +1 +/–

Сообщение от Аноним (23), 31-Дек-25, 21:30

Архаика...

Ответить | Правка | Наверх | Cообщить модератору

4. "Выпуск кластерной ФС Lustre 2.17" –1 +/–

Сообщение от Аноним (4), 31-Дек-25, 11:55

Непонятно а как это на локалхосте поднять...

Ответить | Правка | Наверх | Cообщить модератору

5. "Выпуск кластерной ФС Lustre 2.17" +9 +/–

Сообщение от Фонтимос (?), 31-Дек-25, 12:47

Если непонятно, значит не нужно

Ответить | Правка | Наверх | Cообщить модератору

9. "Выпуск кластерной ФС Lustre 2.17" +2 +/–

Сообщение от Аноним (8), 31-Дек-25, 13:29

Наделать кучу виртуалок и над ними поднять.

Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

19. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от Аноним (19), 31-Дек-25, 19:42

и что будет, если одна, или несколько виртуалок будут загашены\выйдут из строя?

Ответить | Правка | Наверх | Cообщить модератору

21. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от Аноним (20), 31-Дек-25, 19:58

Итог будет зависеть от того, как Вы настроите репликацию в Lustre.

Ответить | Правка | Наверх | Cообщить модератору

24. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от kusb (?), 31-Дек-25, 22:23

Может быть это нужно только если у тебя в квартире много компьютеров и ты что-то считаешь на них.

Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

25. "Выпуск кластерной ФС Lustre 2.17" +1 +/–

Сообщение от kusb (?), 31-Дек-25, 22:23

Например облачный кластер на балконе и несколько оптических проводочков идёт к ним.

Ответить | Правка | Наверх | Cообщить модератору

28. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от Аноним (28), 01-Янв-26, 00:23

Хранители рутрекера и держатели кластеров редких торрентами поддерживают.

Ответить | Правка | Наверх | Cообщить модератору

34. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от Аноним (34), 01-Янв-26, 15:18

10гб/с коммутатор на алике стоит меньше 10 000 рублей, стоил покрайней мере год назад, работает и выдает заявленную скорость. Так что соорудить собственное облачко не сложно и не дорого

Ответить | Правка | К родителю #25 | Наверх | Cообщить модератору

32. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от torvn77 (ok), 01-Янв-26, 13:50

>Непонятно а как это на локалхосте поднять...
Это имеет смысл только если тебе надо слить в один накопитель несколько накопителей на разных хостах и их так много что тебе их никак не собрать на одном сервере.

Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

7. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от chemistmail (ok), 31-Дек-25, 12:54

Какой к хренам раст, lustre fs уже работала когда раста даже в планах не было....
Какой нафиг btrfs, это кластерная система заточенная под грид вычисления, там где нужна низкая латентность...
Легко, но нафиг не надо.
По сути штука специфичная но для тех целей для которых она разрабатывалась весьма не плоха. Лет 20 назад  использовал, петабайтов не было, но грузовик жестких дисков был заюзан.

Ответить | Правка | Наверх | Cообщить модератору

11. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от faa (?), 31-Дек-25, 14:21

Lustre еще используется на суперкомпьютерах.

Ответить | Правка | Наверх | Cообщить модератору

14. "Выпуск кластерной ФС Lustre 2.17" +2 +/–

Сообщение от morphe (?), 31-Дек-25, 14:40

Архитектурно выглядит очень похоже на ceph, но в чём преимущества? Я так понял блочное хранилище внутреннее нельзя использовать отдельно от FS, в то время как в ceph cephfs это лишь надстройка

Ответить | Правка | Наверх | Cообщить модератору

22. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от daemontux (?), 31-Дек-25, 20:03

Поддерживаю этого оратора, тоже хотелось бы понять +- в чем разница и почему бы на кластерах ceph не юзать.

Ответить | Правка | Наверх | Cообщить модератору

29. "Выпуск кластерной ФС Lustre 2.17" +1 +/–

Сообщение от none (??), 01-Янв-26, 11:27

Короткий ответ: Ceph не для этого был придуман.
Заранее извинияюсь за сильное упрощение и прошу умных людей не сильно пинать меня за упущения.
Длинный ответ требует постановку задачи, для чего придумывали кластерные файловые системы:
Вот, например, у вас есть небольшой вычислительный кластер, скажем, узлов (серверов) на 200-300. Занимаетесь вы обработкой данных физических экспериментов или какой-нибудь сейсморазведкой. Т.е. у вас не модельные данные, а вполне себе зарегистрированные цифровые результаты каких-то физических процессов. Их тоже не очень много, ну, скажем, примерно петабайт. Из которых 4/5 - это результаты предыдущих обсчётов, а 200T - это тот датасет, с которым сейчас _активно_ работает кластер. Софт, с которым вы работаете, написан не вами, а какой-то другой группой разработчиков, которые собаку съели на физике и оптимизировали некие "решатели" под разные архитектуры CPU/GPU. Софт работает с обычной файловой структурой, создаёт кучу индексов, поддерживает собственный внутренний формат БД для работы с данными, читает данные, визуализирует их, пишет логи и результаты параллельно со всех серверов в одном дереве файлов. Данные терять нельзя, производительность _имеет значение_, как по задержкам, так и по пропускной способности. Дополнительное требование: в следующем году расширить систему хранения на 30%.
И вот, вооружившись собственным мозгом и интернетом, вы начинаете изучать вопрос: а как "большие дяди" решают такие задачки. На выбор: Lustre, BeeGFS, pNFS (Panasas или NetApp), вычёркиваете Intel DAOS, т.к. она блочная, вычёркиваете Exellero, по той же причиние, смотрите в сторону VAST Data и прикидываете в уме ценник на коробочное решения.
Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками.
Давайте, грубо, посмотрим на цепочку открытия некоторого файла с данными, в качестве примера:
В случае Ceph:
- Приложение хочет открыть некий файл (/distributed/data/path/to/file) и дёргает ядро.
- Ядро смотрит, что за этот кусок отвечает NFS клиент.
- NFS клиент в составе ядра обращается к одному из серверов NFS Ganesha
- Запрос пошёл по сети.
- ядро на NFS сервере (который Ganesha), перебросило данные  из пространства ядра в процесс Ganesha.
- NFS Ganesha запрос получил.
- Дёрнул RadosGW (для простоты они на одной машине)
- RadosGW дёрнул сервер метаданных Ceph.
- В этот момент опять произошло переключение контекста.
- Запрос пошёл по сети.
- Сервер метаданных ответил какие бакеты Ceph надо забрать из OST, в которых будут метаданные файлов.
- RadosGW отправляет запрос/запросы по сети на полученные OST. Опять с переключением контекста.
- запросы пошли по сети, ждём приезда данных (бакеты фиксиорованно размера, какого, кстати?)
- Ждём, когда все данные приедут и мы отдадим их Ganesha. Ещё одно переключение контекста.
- Данные приехали и Ganesha мысленно поставил себе галочку, что с данным файлом работают. Проверяет какие у него права доступа, заблокирован ли он кем-то ещё и если всё в порядке, то возвращает клиенту некий дескриптор открытого файла.
- Клиент NFS радостно рапортует, что файл открыт.
Дальше мы хотим прочитать кусок данных из файла. Вся цепочка повторяется, но с удлиннением, вместо метаданных файла, мы будем получать некоторую кучку бакетов, которые потом будем через NFS передавать клиенту, запоминая по дороге, где находится текущий указатель на чтение.
Как это будет происходить в Luste/BeeGFS:
- Приложение хотет открыть файл и дёргает ядро.
- Ядро понимает, что за этот путь в виртуальной файловой системе отвечает клиент Lustre (который тоже в составе ядра) и сразу дёргает его.
- Клиент Lustre не покидая пространства ядра, делает запрос к серверу метаданных
- Запрос уходит по сети сразу из ядра.
- Получает ответ, что файл открыт, если права пользователей позволяют, т.к. сервер метаданных хранит не только карту блоков содержимого файлов, но и права доступа, владельца и все остальные атрибуты.
- Клиент Lustre сообщает ядру, что файл открыт.
- Ядро возвращает приложению: файл открыт.
В случае чтения какого-то блока из файла:
- Клиент просит сместиться внутри файла на 100Gb и прочитать блок данных размером 10M.
- Ядро дёргает клиента Lustre (который всё тот же модуль ядра).
- Клиент Lustre запрашивает у сервера метаданных какие сервера OST отвечают за этот диапазон.
- Запрос уходит в сеть из ядра (нет переключения контекста).
- Сервер метаданных проверяет блокировки этого диапазона и, если противопоказаний нет, то возвращает список и номера блоков.
- Клиент Lustre (не покидая пространства ядра) параллельно запрашивает нужные блоки у серверов OST.
- Запросы уходят по сети (кстати, это может быть Infiniband с RDMA, что ещё немного сокращает задержки)
- Получив данные он либо оставляет их в кэше и делает memory map для приложения, либо копирует данные в пространство приложения (тут происходит переключение контекста), в зависимости от того, как именно приложение просило открыть себе файл и как читает данные.
Ну и напоследок. Наступает новый финансовый год. Планов - громадьё. Руководство, в своей бесконечной мудрости, решает, что надо бы расширить кластер и увеличить объём хранения данных процентов эдак на 30%. Закупает железо. А все проекты идут и активно работают. Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?

Ответить | Правка | Наверх | Cообщить модератору

36. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от Аноним (34), 01-Янв-26, 15:50

> Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?
Можно включить, можно отключить, можно управлять кол-вом реплик, считай кол-м серверов отключенных на обслуживание, к тому же сеф работает в пространстве пользователя и любой его процесс может быть тупо убит, в отличии от ядерных процессов с которыми сделать нельзя ничего, кроме как ребутать всю ноду.
Честное слово не представляю что за софт такой который работает на кластере, но требует общую фс и локальный доступ к файлам, звучит какбудто ктото сильно сьэкономил на софте и выдал (родил) эдакого инвалида, с ручками, но без ножек.
В современном мире, в современной мете программирования, все должно жить в контейнерах, каждый из которых может быть отдельным миникластером с собственными очередями и нодами, прекрасно понимаю что в докер можно запихать далеко не все, прекрасно понимаю что накладные расходы могут быть чудовищными, особенно если поднимают это люди не оченьто шарящие...но так будет, да уже есть...
найти колкового токаря, который на старом советском станке выточит детель с нужной точностью не проблема, но вот найти толпу таких токарей, которые выточат сотни тысяч деталей с той же точностью невозможно, и выход один, менять советские станки на чпу, чтобы любой школоло мог пару кнопок нажать и получить результат, конечно такой станок будет дороже и медленнее, наверное, но это те самые накладные расходы и на дистанции оно отобьется по денгам и рискам чем платить элитным сотрудникам которые знают магию вне хогвардса как из ржавого ведра и линейки ...

Ответить | Правка | Наверх | Cообщить модератору

37. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от none (??), 01-Янв-26, 17:33

Извините, повторюсь: Ceph не для этого был придуман.
Именно то, что ceph работает в пространстве пользователя - это большая потеря производительности. Вы пытаетесь применить "свой молоток" не к тем "гвоздям".
Это не маленький B2C бизнес. В большинстве случаев - это даже не бизнес, а исследования. Сравнение с токарем, на мой взгляд, не очень подходит. Скорее таки Ceph тут будет выглядеть "садовой тележкой" в том месте, где нужны "карьерные самосвалы".

Ответить | Правка | Наверх | Cообщить модератору

30. "Выпуск кластерной ФС Lustre 2.17" +/–

Сообщение от none (??), 01-Янв-26, 11:44

Рассказывать про запись данных на ceph не буду, но там появятся такие милые сердцу ожидания, пока данные лягут в две из трёх реплик (мы же помним, что терять данные нельзя и храним 3 реплики).
Вот кстати, отдельная задачка - посчитать стоимость хранения за минимальный "строительный блок" для расширения на 100Tb, с учётом всех OST, RadosGW, серверов NFS и тремя репликами данных.

Ответить | Правка | К родителю #22 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

2. "Выпуск кластерной ФС Lustre 2.17"	–10 +/–
Сообщение от aname (ok), 31-Дек-25, 11:47
Непонятно, это лучше BTRFS, или нет?
Ответить \| Правка \| Наверх \| Cообщить модератору


	8. "Выпуск кластерной ФС Lustre 2.17"	+1 +/–
	Сообщение от Аноним (8), 31-Дек-25, 13:28
	Это другое. Она надстройка над обычными ФС.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	10. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от faa (?), 31-Дек-25, 14:20
	Это что-то типа NFS, только круче.
	Ответить \| Правка \| К родителю #2 \| Наверх \| Cообщить модератору


	20. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от Аноним (20), 31-Дек-25, 19:56
	Человек попытался объяснить незнайке простыми словами, а другой незнайка обиделся на человека.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	12. "Выпуск кластерной ФС Lustre 2.17"	–3 +/–
	Сообщение от Аноним (12), 31-Дек-25, 14:25
	ZFS Ван лав
	Ответить \| Правка \| К родителю #2 \| Наверх \| Cообщить модератору


	23. "Выпуск кластерной ФС Lustre 2.17"	+1 +/–
	Сообщение от Аноним (23), 31-Дек-25, 21:30
	Архаика...
	Ответить \| Правка \| Наверх \| Cообщить модератору

4. "Выпуск кластерной ФС Lustre 2.17"	–1 +/–
Сообщение от Аноним (4), 31-Дек-25, 11:55
Непонятно а как это на локалхосте поднять...
Ответить \| Правка \| Наверх \| Cообщить модератору


	5. "Выпуск кластерной ФС Lustre 2.17"	+9 +/–
	Сообщение от Фонтимос (?), 31-Дек-25, 12:47
	Если непонятно, значит не нужно
	Ответить \| Правка \| Наверх \| Cообщить модератору


	9. "Выпуск кластерной ФС Lustre 2.17"	+2 +/–
	Сообщение от Аноним (8), 31-Дек-25, 13:29
	Наделать кучу виртуалок и над ними поднять.
	Ответить \| Правка \| К родителю #4 \| Наверх \| Cообщить модератору


	19. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от Аноним (19), 31-Дек-25, 19:42
	и что будет, если одна, или несколько виртуалок будут загашены\выйдут из строя?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	21. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от Аноним (20), 31-Дек-25, 19:58
	Итог будет зависеть от того, как Вы настроите репликацию в Lustre.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	24. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от kusb (?), 31-Дек-25, 22:23
	Может быть это нужно только если у тебя в квартире много компьютеров и ты что-то считаешь на них.
	Ответить \| Правка \| К родителю #4 \| Наверх \| Cообщить модератору


	25. "Выпуск кластерной ФС Lustre 2.17"	+1 +/–
	Сообщение от kusb (?), 31-Дек-25, 22:23
	Например облачный кластер на балконе и несколько оптических проводочков идёт к ним.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	28. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от Аноним (28), 01-Янв-26, 00:23
	Хранители рутрекера и держатели кластеров редких торрентами поддерживают.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	34. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от Аноним (34), 01-Янв-26, 15:18
	10гб/с коммутатор на алике стоит меньше 10 000 рублей, стоил покрайней мере год назад, работает и выдает заявленную скорость. Так что соорудить собственное облачко не сложно и не дорого
	Ответить \| Правка \| К родителю #25 \| Наверх \| Cообщить модератору


	32. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от torvn77 (ok), 01-Янв-26, 13:50
	>Непонятно а как это на локалхосте поднять... Это имеет смысл только если тебе надо слить в один накопитель несколько накопителей на разных хостах и их так много что тебе их никак не собрать на одном сервере.
	Ответить \| Правка \| К родителю #4 \| Наверх \| Cообщить модератору

7. "Выпуск кластерной ФС Lustre 2.17"	+/–
Сообщение от chemistmail (ok), 31-Дек-25, 12:54
Какой к хренам раст, lustre fs уже работала когда раста даже в планах не было.... Какой нафиг btrfs, это кластерная система заточенная под грид вычисления, там где нужна низкая латентность... Легко, но нафиг не надо. По сути штука специфичная но для тех целей для которых она разрабатывалась весьма не плоха. Лет 20 назад использовал, петабайтов не было, но грузовик жестких дисков был заюзан.
Ответить \| Правка \| Наверх \| Cообщить модератору

11. "Выпуск кластерной ФС Lustre 2.17"	+/–
Сообщение от faa (?), 31-Дек-25, 14:21
Lustre еще используется на суперкомпьютерах.
Ответить \| Правка \| Наверх \| Cообщить модератору

14. "Выпуск кластерной ФС Lustre 2.17"	+2 +/–
Сообщение от morphe (?), 31-Дек-25, 14:40
Архитектурно выглядит очень похоже на ceph, но в чём преимущества? Я так понял блочное хранилище внутреннее нельзя использовать отдельно от FS, в то время как в ceph cephfs это лишь надстройка
Ответить \| Правка \| Наверх \| Cообщить модератору


	22. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от daemontux (?), 31-Дек-25, 20:03
	Поддерживаю этого оратора, тоже хотелось бы понять +- в чем разница и почему бы на кластерах ceph не юзать.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	29. "Выпуск кластерной ФС Lustre 2.17"	+1 +/–
	Сообщение от none (??), 01-Янв-26, 11:27
	Короткий ответ: Ceph не для этого был придуман. Заранее извинияюсь за сильное упрощение и прошу умных людей не сильно пинать меня за упущения. Длинный ответ требует постановку задачи, для чего придумывали кластерные файловые системы: Вот, например, у вас есть небольшой вычислительный кластер, скажем, узлов (серверов) на 200-300. Занимаетесь вы обработкой данных физических экспериментов или какой-нибудь сейсморазведкой. Т.е. у вас не модельные данные, а вполне себе зарегистрированные цифровые результаты каких-то физических процессов. Их тоже не очень много, ну, скажем, примерно петабайт. Из которых 4/5 - это результаты предыдущих обсчётов, а 200T - это тот датасет, с которым сейчас _активно_ работает кластер. Софт, с которым вы работаете, написан не вами, а какой-то другой группой разработчиков, которые собаку съели на физике и оптимизировали некие "решатели" под разные архитектуры CPU/GPU. Софт работает с обычной файловой структурой, создаёт кучу индексов, поддерживает собственный внутренний формат БД для работы с данными, читает данные, визуализирует их, пишет логи и результаты параллельно со всех серверов в одном дереве файлов. Данные терять нельзя, производительность _имеет значение_, как по задержкам, так и по пропускной способности. Дополнительное требование: в следующем году расширить систему хранения на 30%. И вот, вооружившись собственным мозгом и интернетом, вы начинаете изучать вопрос: а как "большие дяди" решают такие задачки. На выбор: Lustre, BeeGFS, pNFS (Panasas или NetApp), вычёркиваете Intel DAOS, т.к. она блочная, вычёркиваете Exellero, по той же причиние, смотрите в сторону VAST Data и прикидываете в уме ценник на коробочное решения. Если вы решите выбрать Ceph, то вам никто не может запретить, но между "бакетами ceph" и файловой структурой будет стоять RadosGW, после чего вам понадобится один или несколько NFS Ganesha, который работает в пространстве пользователя, со всеми вытекающими накладными расходами и вносимыми задержками. Давайте, грубо, посмотрим на цепочку открытия некоторого файла с данными, в качестве примера: В случае Ceph: - Приложение хочет открыть некий файл (/distributed/data/path/to/file) и дёргает ядро. - Ядро смотрит, что за этот кусок отвечает NFS клиент. - NFS клиент в составе ядра обращается к одному из серверов NFS Ganesha - Запрос пошёл по сети. - ядро на NFS сервере (который Ganesha), перебросило данные из пространства ядра в процесс Ganesha. - NFS Ganesha запрос получил. - Дёрнул RadosGW (для простоты они на одной машине) - RadosGW дёрнул сервер метаданных Ceph. - В этот момент опять произошло переключение контекста. - Запрос пошёл по сети. - Сервер метаданных ответил какие бакеты Ceph надо забрать из OST, в которых будут метаданные файлов. - RadosGW отправляет запрос/запросы по сети на полученные OST. Опять с переключением контекста. - запросы пошли по сети, ждём приезда данных (бакеты фиксиорованно размера, какого, кстати?) - Ждём, когда все данные приедут и мы отдадим их Ganesha. Ещё одно переключение контекста. - Данные приехали и Ganesha мысленно поставил себе галочку, что с данным файлом работают. Проверяет какие у него права доступа, заблокирован ли он кем-то ещё и если всё в порядке, то возвращает клиенту некий дескриптор открытого файла. - Клиент NFS радостно рапортует, что файл открыт. Дальше мы хотим прочитать кусок данных из файла. Вся цепочка повторяется, но с удлиннением, вместо метаданных файла, мы будем получать некоторую кучку бакетов, которые потом будем через NFS передавать клиенту, запоминая по дороге, где находится текущий указатель на чтение. Как это будет происходить в Luste/BeeGFS: - Приложение хотет открыть файл и дёргает ядро. - Ядро понимает, что за этот путь в виртуальной файловой системе отвечает клиент Lustre (который тоже в составе ядра) и сразу дёргает его. - Клиент Lustre не покидая пространства ядра, делает запрос к серверу метаданных - Запрос уходит по сети сразу из ядра. - Получает ответ, что файл открыт, если права пользователей позволяют, т.к. сервер метаданных хранит не только карту блоков содержимого файлов, но и права доступа, владельца и все остальные атрибуты. - Клиент Lustre сообщает ядру, что файл открыт. - Ядро возвращает приложению: файл открыт. В случае чтения какого-то блока из файла: - Клиент просит сместиться внутри файла на 100Gb и прочитать блок данных размером 10M. - Ядро дёргает клиента Lustre (который всё тот же модуль ядра). - Клиент Lustre запрашивает у сервера метаданных какие сервера OST отвечают за этот диапазон. - Запрос уходит в сеть из ядра (нет переключения контекста). - Сервер метаданных проверяет блокировки этого диапазона и, если противопоказаний нет, то возвращает список и номера блоков. - Клиент Lustre (не покидая пространства ядра) параллельно запрашивает нужные блоки у серверов OST. - Запросы уходят по сети (кстати, это может быть Infiniband с RDMA, что ещё немного сокращает задержки) - Получив данные он либо оставляет их в кэше и делает memory map для приложения, либо копирует данные в пространство приложения (тут происходит переключение контекста), в зависимости от того, как именно приложение просило открыть себе файл и как читает данные. Ну и напоследок. Наступает новый финансовый год. Планов - громадьё. Руководство, в своей бесконечной мудрости, решает, что надо бы расширить кластер и увеличить объём хранения данных процентов эдак на 30%. Закупает железо. А все проекты идут и активно работают. Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	36. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от Аноним (34), 01-Янв-26, 15:50
	> Как ребалансировка Ceph повлияет на производительность? Вы готовы ждать пока она закончится? Можно включить, можно отключить, можно управлять кол-вом реплик, считай кол-м серверов отключенных на обслуживание, к тому же сеф работает в пространстве пользователя и любой его процесс может быть тупо убит, в отличии от ядерных процессов с которыми сделать нельзя ничего, кроме как ребутать всю ноду. Честное слово не представляю что за софт такой который работает на кластере, но требует общую фс и локальный доступ к файлам, звучит какбудто ктото сильно сьэкономил на софте и выдал (родил) эдакого инвалида, с ручками, но без ножек. В современном мире, в современной мете программирования, все должно жить в контейнерах, каждый из которых может быть отдельным миникластером с собственными очередями и нодами, прекрасно понимаю что в докер можно запихать далеко не все, прекрасно понимаю что накладные расходы могут быть чудовищными, особенно если поднимают это люди не оченьто шарящие...но так будет, да уже есть... найти колкового токаря, который на старом советском станке выточит детель с нужной точностью не проблема, но вот найти толпу таких токарей, которые выточат сотни тысяч деталей с той же точностью невозможно, и выход один, менять советские станки на чпу, чтобы любой школоло мог пару кнопок нажать и получить результат, конечно такой станок будет дороже и медленнее, наверное, но это те самые накладные расходы и на дистанции оно отобьется по денгам и рискам чем платить элитным сотрудникам которые знают магию вне хогвардса как из ржавого ведра и линейки ...
	Ответить \| Правка \| Наверх \| Cообщить модератору


	37. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от none (??), 01-Янв-26, 17:33
	Извините, повторюсь: Ceph не для этого был придуман. Именно то, что ceph работает в пространстве пользователя - это большая потеря производительности. Вы пытаетесь применить "свой молоток" не к тем "гвоздям". Это не маленький B2C бизнес. В большинстве случаев - это даже не бизнес, а исследования. Сравнение с токарем, на мой взгляд, не очень подходит. Скорее таки Ceph тут будет выглядеть "садовой тележкой" в том месте, где нужны "карьерные самосвалы".
	Ответить \| Правка \| Наверх \| Cообщить модератору


	30. "Выпуск кластерной ФС Lustre 2.17"	+/–
	Сообщение от none (??), 01-Янв-26, 11:44
	Рассказывать про запись данных на ceph не буду, но там появятся такие милые сердцу ожидания, пока данные лягут в две из трёх реплик (мы же помним, что терять данные нельзя и храним 3 реплики). Вот кстати, отдельная задачка - посчитать стоимость хранения за минимальный "строительный блок" для расширения на 100Tb, с учётом всех OST, RadosGW, серверов NFS и тремя репликами данных.
	Ответить \| Правка \| К родителю #22 \| Наверх \| Cообщить модератору