The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Релиз инструмента для анонимизации баз данных nxs-data-anonymizer 1.4.0"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Релиз инструмента для анонимизации баз данных nxs-data-anonymizer 1.4.0"  +/
Сообщение от opennews (??), 24-Апр-24, 14:03 
Опубликован nxs-data-anonymizer 1.4.0 - инструмент для анонимизации дампа баз данных PostgreSQL и MySQL/MariaDB/Percona. Утилита поддерживает анонимизацию данных на основе шаблонов и функций библиотеки Sprig. Среди прочего, для заполнения можно использовать значения других столбцов для той же строки.   Допустимо использовать инструмент через неименованные каналы (pipe) в командной строке и перенаправить дамп из исходной БД непосредственно в целевую БД с необходимыми преобразованиями. Инструмент написан на языке Go и  выпускается под лицензией Apache License 2.0...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=61062

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

2. Сообщение от Аноним (2), 24-Апр-24, 14:04   +3 +/
Для непросвященных - какая область применения? Нутром чую что где-то кому-то такое надо. А вот кому и в какой ситуации - ума не приложу.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #3, #9, #13, #17

3. Сообщение от Аноним (-), 24-Апр-24, 14:18   +1 +/
> Для непросвященных - какая область применения? Нутром чую что где-то кому-то такое
> надо. А вот кому и в какой ситуации - ума не
> приложу.

Например если ты должен провести анализ базы, а допуска у сотрудника нету.
Просто анонимизируешь и с чистой совестью отдаешь.
Примерно такая же ситуация на аутсорсе.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #8

4. Сообщение от Анонимemail (4), 24-Апр-24, 14:42   +1 +/
еще мы пользовались таким вариантом когда нужна реальная база с прода, но мы не хотим чтобы она както пересекалась с реальными данными и там не сработали дублирующие нотификации в виде отправки email

несколько раз тоже нужно было заменить клиентские данные чтобы можно было отдать на тест запросов для новичков для практики написания sql запросов (когда локально, у меня ничего не тормозит, а на проде джойн долго отрабатывает)

Ответить | Правка | Наверх | Cообщить модератору

5. Сообщение от Хухрымухры (ok), 24-Апр-24, 14:46   +/
Пример бы где-то глянуть.

Типа дамп до и после.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #6

6. Сообщение от nixys (ok), 24-Апр-24, 14:59   +2 +/
В репозитории описали пример до\после, скрипты тоже описаны: https://github.com/nixys/nxs-data-anonymizer?tab=readme-ov-f...
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5

8. Сообщение от КО (?), 24-Апр-24, 15:09   +/
И что он там будет анализировать без переменных?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3 Ответы: #10

9. Сообщение от Аноним (10), 24-Апр-24, 16:09   +1 +/
> Для непросвященных - какая область применения? Нутром чую что где-то кому-то такое надо. А вот кому и в какой ситуации - ума не приложу.

В тестировании и отладке. Из продуктива берутся реальные данные, анонимизируются и отдаются тестировшикам. Автоматические тесты работают с такой копией. Данные из такой копии можно для примера отдавать разработчику для работы над найденными багами.

Разработчики бывают из другого юр.лица. Т.е. совсем посторонние.

В банках распространено, например.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #16, #24

10. Сообщение от Аноним (10), 24-Апр-24, 16:15   +2 +/
Все переменные на месте. А вот значения переменных подменяются случайными строками так, чтобы программный код, использующий базу данных мог работать с базой как с настоящей.

Анализировать можно скорость и эффективность работы с базой. Могут быть задачи по описанию бизнес логики предприятия (да, так бывает, что не могут понять точно кто что зачем делает на предприятии и нанимают аудит для наведения порядка). И самое очевидное: нанятый разработчик, без доступа к реальным данным, пишет и отлаживает какую-либо программу, использующую базу данных.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #11

11. Сообщение от Аноним (11), 24-Апр-24, 16:45   +/
Мда, рекомендую взглянуть на процессы The Libertators. Там два мужика разрабатывают методологии для компаний и их изучают. Довольно неплохие иллюстрации делают для этих процессов.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10 Ответы: #12

12. Сообщение от Аноним (12), 24-Апр-24, 17:15   +/
А как это гуглить? Куда глядеть?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11 Ответы: #18, #20, #21

13. Сообщение от нах. (?), 24-Апр-24, 17:21   –1 +/
> Для непросвященных - какая область применения?

ну это когда начальнега говорит - сдампи продовую базу и отдай разработчикам, пусть у себя на стенде ищут что вчера поломали. Только удали из нее персональные данные и все емейлы замени на devnull@localhost

А ты sed'ом пользоваться не умеешь...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

16. Сообщение от Аноним (16), 24-Апр-24, 20:14   +/
Не проще ли тогда тупо СГЕНЕРИРОВАТЬ фэйковую базу и отдать?!
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9 Ответы: #19, #22, #26

17. Сообщение от Аноним (16), 24-Апр-24, 20:16   –1 +/
Да никакая, тупо баловство!

Хочешь сделать "анонимную" базу - да тупо сгенери фэйковые записи, зачем ещё влезать в продакшен базу?!!

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #23

18. Сообщение от Аноним (18), 24-Апр-24, 21:02   –1 +/
https://theliberators.com/
Внизу ссылка на их соцсети, где follow us написано. Я лично смотрю их канал через LinkedIn, но насколько я понял у вас он запрещён (что наверно верное решение). Но там есть выбор и насколько я понимаю они на курсах зарабатывают.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

19. Сообщение от Аноним (19), 24-Апр-24, 21:07   +1 +/
Потому что в реальной базе иногда могут случаться такие комбинации данных, который ни один генератор или ИИ не нагенерит.. и именно на таком сочетании оно делает кряк, и не работает.. База данных это врядли одна плоская табличка которую фором из дев рандома набил и готово. там связи и иногда не очевидные.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

20. Сообщение от Аноним (18), 24-Апр-24, 21:20   +/
Вот я например открываю их medium и одна из первых статей:
  Секретный соус успешных инициатив по изменениям
https://medium.com/the-liberators/the-secret-sauce-of-succes...

Правда у них были и более сильные статьи. Если постоянно читать, можно много интересного почерпнуть.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

21. Сообщение от Аноним (18), 24-Апр-24, 21:35   +/
Или вот: Раскройте Scrum в своей организации с помощью нашего нового комплекта
https://medium.com/the-liberators/unleash-scrum-in-your-orga...
Просто гляньте на картинку что делает скрам успешным. И вот у них таких иллюстраций интересных много.
Если понять эти процессы, то продуктивность можно существенно повысить. Но есть небольшой нюанс — хорошие менеджеры организовывают работу так что команда/ы начинают развиваться самостоятельно и в какой-то момент они становятся не нужны. Но сокращение такого менеджера будет ошибкой, так как процессы периодически требуют корректировки — проверенный факт. В целом менеджмент/синьеры-лиды на постсоветском пространстве это мрак и ужас, потому что этому тоже нужно учиться и много, а это только один из источников я описал.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

22. Сообщение от Фняк (?), 24-Апр-24, 23:04   +/
Если было бы проще, все бы так и делали. А на деле это нифига не просто сделать такую базу чтобы данные статистически не сильно отличались от реальных, чтобы не создавались невозможные комбинации данные и при этом воспроизводились странные ситуации когда часть записей создавалось в одной версии системы, часть в другой, а обрабатываются они третьей версией
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

23. Сообщение от нах. (?), 24-Апр-24, 23:21   +/
патамушта на фейковых трех записях все работало, тут ровно, тут выпирает, как в ТЗ.
А на нефейковой терабайтной ой.. упало. Ашипка-ашипка насяльника.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17 Ответы: #28

24. Сообщение от нах. (?), 24-Апр-24, 23:23   +/
> Разработчики бывают из другого юр.лица. Т.е. совсем посторонние.

как будто своим кто-то доверять собрался. Ты на их рожи протокольные глянь - я всегда когда к ним иду, мобилу в стол прячу.

А то отвлекут и не заметишь как сперли.

А тут база с реальными деньгами и номерами. Да кто ж им дасть-то...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9

26. Сообщение от Аноним (10), 25-Апр-24, 15:21   +/
> Не проще ли тогда тупо СГЕНЕРИРОВАТЬ фэйковую базу и отдать?!

Это невозможно сделать надёжно.

Т.к.

- программируют максимально дёшево, максимально быстро,
- люди приходят и уходят,
- через некоторое время стоимость надёжного генератора тест-базы с нуля становится ооочень высокой, слишком много человеко-часов нужно на обратный инженеринг программного кода, когда множество авторов измений которого давно ушли.

Самое обычное в крупном бизнесе.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16 Ответы: #27

27. Сообщение от Аноним (27), 25-Апр-24, 15:43   +/
> слишком много человеко-часов нужно на обратный инженеринг программного кода, когда множество авторов измений которого давно ушли.

Так у них, что, документации нет как факт, на собственно генеренный код?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

28. Сообщение от Аноним (27), 25-Апр-24, 15:44   +/
А еще есть вариант, когда ты накатываешь данные из "анонимизатора",
и внезапно все начинает работать, как требуется.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23

29. Сообщение от Электрон (?), 26-Апр-24, 07:08   +/
Инструмент... скорее фреймворк. Анонимизация - это алгоритмы, а не "вот вам ручка, там как-нибудь сами напишите рандомизацию".

Именно анонимизировать данные - очень сложно. Уверен, у каждой большой компании на эту тему были статьи или проекты. Помню статью Яндекса на Хабре, там какой-то тестовый датасет готовили.

Пример из жизни: Web of Trust (mywot-com) "закончился" после того, как журналисту вместе со спецами удалось соотнести "анонимизированные" данные, которые, как оказалось, WoT собирал и продавал, с данными из других маркетинговых источников, для определения полицейского в датасете. Так как аудитория у WOT была повернутая на безопасности-приватности, то исход пользователей был массовый. WOT пришлось сделать ребрендинг, как у них сейчас дела - не знаю.

Это еще не говоря о расширенном "OSINT", который в т.ч. включает в себя анализ маркетинговых трекинговых данных. Соотнеси несколько "анонимизированных" источников и получишь что надо. Но для галочки и законодателей хватит.

Ответить | Правка | Наверх | Cообщить модератору


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру