The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Раздел полезных советов: Полезные пакеты, которые следует установить на сервер для диагностики сбоев, auto_tips (ok), 28-Мрт-24, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


10. "Полезные пакеты, которые следует установить на сервер для диагностики сбоев"  +/
Сообщение от Аноним (10), 15-Апр-24, 12:59 
Выпилены потому что в современном мире на фиг не нужны на большинстве серверов.

Зачем вам в EC2 инстансе cpuid или numastat?

ps/vmstat/top - ок, а теперь возьмите типичный современный стейджинг или подакшен с БД в rds и всем остальным в контейнерах в EKS или другом managed kubernetes, куда/где/как вы получите хоть какие осмысленные результаты этими утилитами?

Я совершенно не против всех этих утилит. Но мир, блин, изменился. 20 лет назад было ок "сервер торомозит, зайди и глянь что там не так". Сегодня это "вчера с 5 до 7 утра по GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты по метрикам задержек, давайте выясним что это было и как сделать, чтобы больше так не было". И что вы с ps / vmstat будете смотреть вчера? А в реальном времени ни у каких разрабочиков и админов нет времени смотреть туда, есть SRE анализирующий мониторинг и алерты, которые делаются совершенно не этими утилитами. И которые позволяют понять что произошло вчера намного быстрее и точнее, чем медитация над тоннами цифр которые выдаст sar с различными ключиками или срезов atop или что там любит админ старой закалки. Может ему графики нравится смотреть и он вкатил какой-нибудь легкий cacti. Только увы к какому-нибудь pagerduty оно не прикручено, поэтому то, на что смотрит конкретно тот админ, никак не координируется с командой.

А если у нас админ старой закалки у которого локалхост в чулане (NB: я никого не пытаюсь обидеть, у меня самого 3 сервера дома в чулане), то наверное он и так знает, как это все поставить.

Ответить | Правка | Наверх | Cообщить модератору

11. "Полезные пакеты, которые следует установить на сервер для диагностики сбоев"  +3 +/
Сообщение от Аноним (11), 16-Апр-24, 11:36 
Напиши свою статью, аноним, с изложением своей версии того, как делать мониторинг.

То есть, о том, что "мир изменился" ты прав, но во-первых, у утилит нового мира внутри те же самые top, sysstat, vmstat.

>алерты, которые делаются совершенно не этими утилитами

А чем? Куча этих самых мониторингов -- это же те же самые обвязки над олдовыми утилитами.

>EC2 инстансе, в контейнерах в EKS или другом managed kubernetes

Хм. Я бы, конечно, не против EC2, EKS, и тому подобного, но у нас airgapped система. Как мне быть?

Ответить | Правка | Наверх | Cообщить модератору

14. "Полезные пакеты, которые следует установить на сервер для диагностики сбоев"  +/
Сообщение от ant2 (?), 24-Апр-24, 10:17 
Мир изменился потому что "вчера с 5 до 7 утра по GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты по метрикам задержек, давайте выясним что это было и как сделать, чтобы больше так не было" теперь как бы норма.
Раньше был бы звонок админу в 5:03 по GMT что Вася из Зарюпинска не может работать и Маша тоже жалуется. И чтобы исправил, иначе за что тебе деньги платят.
А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего там больше 5% клиентов два часа утром матерились.
Ответить | Правка | К родителю #10 | Наверх | Cообщить модератору

16. "Полезные пакеты, которые следует установить на сервер для диагностики сбоев"  –1 +/
Сообщение от Аноним (15), 28-Апр-24, 02:32 
>  Мир изменился потому что "вчера с 5 до 7 утра по
> GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты
> по метрикам задержек, давайте выясним что это было и как сделать,
> чтобы больше так не было" теперь как бы норма.
>  Раньше был бы звонок админу в 5:03 по GMT что Вася
> из Зарюпинска не может работать и Маша тоже жалуется. И чтобы
> исправил, иначе за что тебе деньги платят.
>  А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего
> там больше 5% клиентов два часа утром матерились.

Если предприятие работает вне часовой зоны ИТ отдела, то нанимают
дежурных инженеров работающих 24/7 и не долбят мозг главному инженеру,
а решают вопросы с закончившимся местом, отвалившимся коннектом,
ошибкой маршрута самостоятельно, а вот если вопрос серьезный, то
тогда уже оформляют как положено баг репорт и решают в штатном порядке
в рабочее время.


При распределенной команде кстати есть шанс что ошибку отловят и исправят
и вообще в тот же час разработчики из тойже часовой зоны.

Вообще распределенка сэры давно с удаленкой...

Ответить | Правка | Наверх | Cообщить модератору

18. "Полезные пакеты, которые следует установить на сервер для диагностики сбоев"  +/
Сообщение от Tron is Whistling (?), 18-Май-24, 18:42 
Тут ожидание и реальность.
Ожидание - удалёнка, дежурная смена, whatever.
Реальность - половина нод завалилась, инженегра два на полставки, и те джуны, потому что архитекта задолбало лопатить за десятерых за полторы зарплаты, и он свалил, whatever.
Ответить | Правка | Наверх | Cообщить модератору

17. "Полезные пакеты, которые следует установить на сервер для диагностики сбоев"  +/
Сообщение от Tron is Whistling (?), 18-Май-24, 18:41 
> А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего там больше 5% клиентов два часа утром матерились.

И то только покумекать, потому что индусский саппорт какого-нибудь Emc2 будет спать ещё часа 4, и только потом заявку примет.

Ответить | Правка | К родителю #14 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру