The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Google опубликовал Magika 1.0, инструментарий для определения типа содержимого файлов "
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Google опубликовал Magika 1.0, инструментарий для определения типа содержимого файлов "  +/
Сообщение от opennews (??), 07-Ноя-25, 14:28 
Компания Google представила релиз инструментария Magika 1.0, предназначенного для определения типа содержимого на основе анализа имеющихся в файле данных. Magika может точно определять в содержимом используемые языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки, форматы звука, видео, документов и изображений. Связанный с проектом инструментарий и готовая модель машинного обучения распространяются под лицензией Apache 2.0. Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=64201

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от Аноним (1), 07-Ноя-25, 14:28   +1 +/
Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.

> Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go.

Хорошо, что сишные программы такой мусор юзать не будут.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #13, #16, #23, #24, #42, #44

5. Сообщение от Хлебан (?), 07-Ноя-25, 14:34   +/
А вот интересно, что произойдет, если этот определитель типа начнет бредить (или как еще аккуратно говорят, галлюцинировать)? Какой простор для творчества вирусописателей.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #7, #10, #36

6. Сообщение от Кошкажена (?), 07-Ноя-25, 14:37   +2 +/
> Magika is used at scale to help improve Google users' safety by routing Gmail, Drive, and Safe Browsing files to the proper security and content policy scanners
> improve Google users' safety

Верим?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #9, #18

7. Сообщение от Жор (?), 07-Ноя-25, 14:45   +3 +/
Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификации.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #25, #29, #51

9. Сообщение от ryoken (ok), 07-Ноя-25, 14:45   +4 +/
Гуглу-то..?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6

10. Сообщение от Аноним (10), 07-Ноя-25, 14:49   –4 +/
> А вот интересно, что произойдет, если этот определитель типа начнет бредить

Забавно, как люди одним вопросом показывают свою полнейшую некомпетентность в вопросе.

Такая нейронка не может галючинировать. Вы можете попробовать подобрать содержимое файла так, чтобы она ошиблась. И... на этом все. Точно также вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты автоматического детекта типа.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #19

13. Сообщение от НяшМяш (ok), 07-Ноя-25, 15:07   +/
Интересно, что гугл на это даже ответить попытался: https://securityresearch.google/magika/additional-resources/...
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

16. Сообщение от Bob (??), 07-Ноя-25, 15:11   +1 +/
Максимально оптимизируют, ибо всетмощности надо под ИИ освобождать. Ту же Гемини и чё там ещё понавыпускали.

Анализирця и обучаясь на файлах со своего диска и прочих сервисах.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

17. Сообщение от Аноним10084 и 1008465039 (?), 07-Ноя-25, 15:16   +1 +/
Утилита file больше не нужна, получается?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #39, #69

18. Сообщение от Bob (??), 07-Ноя-25, 15:20   +2 +/
Это пресс релиз - для колхозников (юзеров гугла). Дачники (думающее) - идут мимо)

Копирайт по медиа, кряки с кейгенами по софту, дообучение своего ИИ на файлах юзеров.

Зачем вести базу "небезопасных" сайтов, если их можно сразу репортить хостеру и говорить: сноси или с выдачи уберём уже тебя)

С файлами - не всё так просто. Есть 100% вирусы, общеизвестные. А есть параноидальная шиза на любой ехе, bat, sh и т.п. файл. Ибо юзер не планктон и посмел что-то накодить или такое качнуть.

Доходит до идиотизма, когда самопальный ps или bash скрипт гугл диск как "опасный" определяет, а он пингует инет по ipv4 / ipv6 и меняет dns на гугловский)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6

19. Сообщение от Аноним (19), 07-Ноя-25, 15:29   +/
> вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты

И как вы это себе представляете? Я убираю из файла заголовок/магическое число и он превращается... в бессмысленный набор байтов? Как вы собираетесь "вводить в заблуждение" инструменты, если они определяют тип файла тем же способом что и программы которые собственно работают с этими файлами — по их структуре?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10 Ответы: #37, #74

20. Сообщение от Аноним (20), 07-Ноя-25, 15:29   +/
а в чем была проблема юзать binwalk? он даже на их любимом расте переписан
Ответить | Правка | Наверх | Cообщить модератору

21. Сообщение от Аноним (21), 07-Ноя-25, 15:32   +1 +/
Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули, почему бы из них хоть каплю пользы не выдоить для сабжа и подобных задач?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #70

23. Сообщение от Аноним (23), 07-Ноя-25, 15:59   –3 +/
File такая кривая дрянь что это уже не смешно. Даже распознавание zip файлов регулярно ломают. Если хотя бы будет работать, то 200 мегабайт не жалко.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #73

24. Сообщение от Аноним (24), 07-Ноя-25, 16:09   +2 +/
> отличается применением методов машинного обучения

Ого, т.е. будут галлюцинации и ложные результаты.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

25. Сообщение от Аноним (24), 07-Ноя-25, 16:11   +1 +/
> может просто ошибиться

Супер! Ошибётся, запустит гифку и сломает систему.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

26. Сообщение от Аноним (26), 07-Ноя-25, 16:16    Скрыто ботом-модератором+2 +/
Ответить | Правка | Наверх | Cообщить модератору

27. Сообщение от Аноним (27), 07-Ноя-25, 16:30   +1 +/
Напоминаю, что magicka работает через откусывание от файла блока из начала, конца и середины. То есть засунув в начало, конец и середину нужные данные эту либу элементарно обмануть, при этом это нейронка, то есть не строгий алгоритмический парсинг, какой используется в реализациях, а штука, которой можно подсунуть adversarial куски, но при этом строгим парсером они всё равно будут парситься как надо. По-настоящему любой формат детектится только через попытку парсинга. На практике надо тип файла детектить по расширению, если контейнер - то парсить контейнер тоже, если тип запрещён - то ффтопку, если выглядит не запрещённым - то парсить безопасным парсером. Если не парсится - то ффтопку, если парсится - значит тот тип, что написан в расширении (даже если это химера). Либа имела бы существенную ценность для реверсинга, если бы была трансформером на индивидуальных битах и выдавала бы не тип файла, а тип данных (тип компрессии или кодировки, тип инта или тип флоата), а так это просто кусок хайпожорного дерьма, который на практике бесполезен.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #45, #78

28. Сообщение от Аноним (28), 07-Ноя-25, 16:53   +2 +/
Зашли с коллегой на их сайт в раздел DEMO
Файл a.sh (UTF-8) с содержимым что-то типа "sudo <cmd> <cmd params>".
Строк 4-5, ничего специфического.
Определило как "Batch" (виндовый .bat) и выдало score = 87%

Как-то несолидно

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #30, #33, #63

29. Сообщение от 12yoexpert (ok), 07-Ноя-25, 16:57   +/
так это совсем другое дело
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

30. Сообщение от Мемоним (?), 07-Ноя-25, 17:00   +/
> Sudo for Windows is a new way for users to run elevated commands (as an administrator) directly from an unelevated console session on Windows.

А в Powershell давно есть алиасы для всяких cp/mv/rm. Так что не все так просто.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28 Ответы: #32

32. Сообщение от Аноним (39), 07-Ноя-25, 17:05   +1 +/
> Magika может точно определять

Сказал - сделай )

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #30

33. Сообщение от Аноним (33), 07-Ноя-25, 17:17   +3 +/
Поочередно кинул три файла Гимпа в формате xcf с какими-то своими каляками.
1) wav 19%, tiff 9%, psd 9%, vba 5%, hlp 5%
2) tar 21%, pebin 9%, mp3 6%, psd 6%, tiff 5%
3) wav 24%, hlp 16%, tiff 13%, jpeg 3%, psd 3%
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28 Ответы: #54, #58, #76

36. Сообщение от devl547 (ok), 07-Ноя-25, 18:01   +/
>вирусописателей

Квайн-вирусы?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5

37. Сообщение от Аноним (37), 07-Ноя-25, 18:13   +1 +/
Например, есть такой контейнерный формат ISOBMFF, который используется в MP4, JPEG2000, MJPEG, FMP4. В теории можно использовать атомы одного типа в файле другого, чтобы заставить подобные штуки ошибиться.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #19

38. Сообщение от Аноним (38), 07-Ноя-25, 18:14    Скрыто ботом-модератором–1 +/
Ответить | Правка | Наверх | Cообщить модератору

39. Сообщение от Аноним (39), 07-Ноя-25, 18:34   –1 +/
Зато нужна GTX100500 LLM и проц помощнее.
Ну и скажут тебе примерно тоже самое - "это файл, но это не точно" )
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17 Ответы: #41

41. Сообщение от Аноним (42), 07-Ноя-25, 19:22   +/
> Зато нужна GTX100500 LLM и проц помощнее.

Тем временем в новости:

"После загрузки модели время формирования вывода составляет 5 мс при тестировании на одном ядре CPU"

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #39 Ответы: #53, #64

42. Сообщение от Аноним (42), 07-Ноя-25, 19:23   +/
> Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.

На основании чего такие "чувства"? Увидели фразу "машинное обучение" - и дальше все как в тумане?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #57

43. Сообщение от Аноним (43), 07-Ноя-25, 19:33   +/
Жду, когда выпустят новую программу dir, которая отображает список файлов и директорий. Естественно нужно ,чтобы эта программа была обязательно на искусственном интеллекте и обучалась на типичных домашних каталогах пользователей.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #48

44. Сообщение от Аноним (44), 07-Ноя-25, 19:34   –1 +/
> Уже чувствую
> мусор

Окрестили софт мусором на основе своих "чуств"? Ну, это качественная опеннетная экспертиза.

> Хорошо, что сишные программы такой мусор юзать не будут.

А что за сишные программы?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #46

45. Сообщение от Аноним (42), 07-Ноя-25, 19:37   +/
> То есть засунув в начало, конец и середину нужные данные эту либу элементарно обмануть

Так можно обмануть любой алгоритм определения типа файла. Хз, что ты хотел этим сказать.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27 Ответы: #75

46. Сообщение от Аноним (46), 07-Ноя-25, 19:46   –1 +/
> А что за сишные программы?

Которые CVE производят.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #44 Ответы: #49

47. Сообщение от аролп5 (?), 07-Ноя-25, 19:51   +/
"The client and the bindings are already open source, and more is coming soon!" Не понял, этой штуке что ли стабильный канал интернета нужен будет для работы?!
Ответить | Правка | Наверх | Cообщить модератору

48. Сообщение от аролп5 (?), 07-Ноя-25, 19:52   +/
Это будет клиент, который будет в Майкрософт отправлять ваши файлы, анализировать и сообщать клиенту, директория это или файл )))
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #43

49. Сообщение от Аноним (42), 07-Ноя-25, 19:56   –1 +/
>> А что за сишные программы?
> Которые CVE производят.

А, понятно. Ну, главное, что они "Растовый мусор" не используют. С CVE-то мы всегда жили, а вот с Растом - погибель...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #46

50. Сообщение от ProfessorNavigator (ok), 07-Ноя-25, 19:58   +/
> Задействование методов глубокого машинного обучения

А что, бывают ещё методы "мелкого" машинного обучения?))

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #55

51. Сообщение от Аноним (42), 07-Ноя-25, 20:00   +/
> Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификации

Нейронке не обязательно быть генеративной, чтобы галлюцинировать. "Галлюцинирование" в контексте нейронок - это когда мизерные различия входных данных приводят к разным результатам.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7 Ответы: #72

52. Сообщение от Аноним (52), 07-Ноя-25, 20:06   +/
"В Google система (magika) используется для классификации файлов в сервисах Gmail, Drive ..."

Подсматривать нехорошо

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #60, #65

53. Сообщение от Аноним (-), 07-Ноя-25, 20:08   +1 +/
> Тем временем в новости

Нет времени читать!
Комментировать нужно!

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #41

54. Сообщение от Аноним (-), 07-Ноя-25, 20:12   –1 +/
> Поочередно кинул три файла Гимпа в формате xcf

Так это и не удивительно.
Они скорее всего и не обучали сетку на каком-то маргинальном формате, который используется только в одной васяно-софтине.
Попробуйте на чем-то нормальном, напр. на файлах photoshop :)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #33

55. Сообщение от Аноним (-), 07-Ноя-25, 20:17   +/
> А что, бывают ещё методы "мелкого" машинного обучения?))

Ну если сделаете "сетку" с малых количеством слоев, то будет не глубокое.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #50 Ответы: #56

56. Сообщение от ProfessorNavigator (ok), 07-Ноя-25, 20:33   +/
>> А что, бывают ещё методы "мелкого" машинного обучения?))
> Ну если сделаете "сетку" с малых количеством слоев, то будет не глубокое.

А с какой величины заканчивается мелкое и начинается глубокое?))


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #55 Ответы: #59

57. Сообщение от Аноним (57), 07-Ноя-25, 20:59   +/
Если ты настолько несведущ в слабых сторонах ИИ, то лучше тебе вообще эту тему не комментировать.
ИИ хорош только как помощник человека. Финальное решение должен делать ТОЛЬКО человек, ибо ИИ неспособен В ПРИНЦИПЕ объяснить свои выводы. Так что да, когда слышу применение ИИ, "дальше всё как в тумане" - у применятелей ИИ.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #42 Ответы: #62

58. Сообщение от Аноним (57), 07-Ноя-25, 21:04   +1 +/
Вот и всё, что нужно знать о "нейронках". :)
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #33

59. Сообщение от Аноним (57), 07-Ноя-25, 21:06   +/
Мне вот "глубокое" по ___й, а вам по колено будет :)
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #56

60. Сообщение от Аноним (57), 07-Ноя-25, 21:06   –1 +/
Нехорошо. Но это если всем об этом рассказывать.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #52

62. Сообщение от Аноним (42), 07-Ноя-25, 21:11   +/
> Если ты настолько несведущ в слабых сторонах ИИ

Хотелось бы услышать конкретику в контексте сабжа.

> Финальное решение должен делать ТОЛЬКО человек

Ну так сиди парси файлики вручную в HEX-редакторе. Разае сабж тебе мешает это делать?

> неспособен В ПРИНЦИПЕ объяснить свои выводы

Я хз, к чему ты приплел необходимость "объяснять", но вообще-то уже давно существуют "рассуждающие" ИИ, которые могут тебе дать буквально пошаговую цепочку своих рассуждений, из которых вытекает вывод.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #57

63. Сообщение от Кошкажена (?), 07-Ноя-25, 21:13   +/
Вряд ли они в проде используют прям тоже самое.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28

64. Сообщение от BrainFucker (ok), 07-Ноя-25, 21:16   +/
> После загрузки модели время формирования вывода составляет 5 мс
> После загрузки модели

Померил утилиту file, результат примерно тот же, только время на загрузку модели тратить не надо.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #41

65. Сообщение от Кошкажена (?), 07-Ноя-25, 21:16   +/
Но есть и плюс: можно создать нужный тебе "профиль" в гугле просто загружая нужную инфу.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #52

67. Сообщение от Кошкажена (?), 07-Ноя-25, 21:20   +/
> На MacBook Pro (M4) производительность движка позволяет обрабатывать около 1000 файлов в секунду.

Это данные для блондинок? Может стоит написать параметры железа на тестах и тестовые данные дать, чтобы можно было желающим прогнать не на макпукпро? Не серьезно.

Ответить | Правка | Наверх | Cообщить модератору

68. Сообщение от Кошкажена (?), 07-Ноя-25, 21:30   +/
> Изначально проект развивался на языке Python, но при подготовке релиза 1.0 движок для определения типов контента был переписан на языке Rust, что позволило добиться более высокой производительности, сохранив должный уровень защищённости кода.

Ловко сформулировано:

> сохранив должный уровень защищённости кода

То есть код на питоне безопаснее? Тут не спорим.

> что позволило добиться более высокой производительности

Какой? К сожалению никто не ответит, да и зачем манагерам лишать себя премии за ненужные переписывания. Такого ведь никогда не было. Ведь правда?

Ответить | Правка | Наверх | Cообщить модератору

69. Сообщение от Кошкажена (?), 07-Ноя-25, 21:36   +/
> Утилита file больше не нужна, получается?

Нужна, конечно, как и детерминированный алгоритм, а не вот это вот "ой, не знаю, почему такое расширение, такая модель..."

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

70. Сообщение от Кошкажена (?), 07-Ноя-25, 21:38   +/
> Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули,
> почему бы из них хоть каплю пользы не выдоить для сабжа
> и подобных задач?

Молодой человек, не нужно таких вопросов задавать. Производители процессоров волнуются. А вообще пройдите в эту комнату, да тут не ловит телефон, не волнуйтесь.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #21

72. Сообщение от Аноним (-), 07-Ноя-25, 22:01   –1 +/
Меня всегда озадачивают люди типа тебя, которые вдруг придумывают своё собственно определение для термина, и совершенно безосновательно утверждают, что это единственно верное утверждение. Что интересно вас сподвигает на такое поведение? Считаете ли вы его нормальным и допустимым в приличном обществе, или делаете это ради троллинга?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #51

73. Сообщение от Аноним (73), 07-Ноя-25, 22:09   +/
https://github.com/horsicq/Detect-It-Easy?tab=readme-ov-file

Вот еще хороший вариани.

А пихать нейронку в этот тип софта - та еще затея.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23

74. Сообщение от Аноним (-), 07-Ноя-25, 22:10   +/
> Я убираю из файла заголовок/магическое число и он превращается... в бессмысленный набор байтов?

А это очень интересный вопрос. Если, допустим, у меня есть покоцанный zip архив с винрарным содержымым. Он покоцан до уровня, когда ни одна реализация zip не может его распаковать. Будет ли правильно называть этот файл zip-архивом или бессмысленным набором байтов?

Ответ наверное зависит от целей, например если я пытаюсь данные восстановить с порушенной файловой системы, выудил оттуда цепочку инодов, и пытаюсь понять что там, то было бы неплохо узнать, что это японский текст в utf8, даже если начало текста не найдено на диске. Или узнать о том, что это zip-архив. Пускай покоцанный, не все его иноды найдены, но они может найдутся ещё, а я уже сейчас знаю что это. Может я даже какие-то блоки смогу разжать и глянуть, что внутре?

С другой стороны, эта теория о том, как лучше утилите поступать зависит от целей, страдает от того, что мне не придумать применения этой утилите, когда будет лучше, если она про покоцанный файл скажет "бессмысленный набор байт" чем "zip-архив". У тебя есть идеи, когда так будет лучше?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #19

75. Сообщение от Аноним (75), 07-Ноя-25, 22:25   +/
Нет, обмануть сочетание расширения и структуры - нельзя. Расширение тебе говорит, что ты ожидаешь в файле найти. А парсер тебе говорит, нашёл ли ты именно то, что ожидаешь. И не используйте говнософт, который гадает, вместо того, чтобы полагаться на идентифкаторы. Особенно держитесь подальше от ImageMagick.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #45

76. Сообщение от Аноним (75), 07-Ноя-25, 22:26   +/
А теперь давай выкладывай свои каляки...
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #33

77. Сообщение от Аноним (77), 07-Ноя-25, 23:31   +/
Правильно, всегда надо знать, что за файл перед тобой.
Ответить | Правка | Наверх | Cообщить модератору

78. Сообщение от Аноним (78), 07-Ноя-25, 23:45   +/
> Напоминаю, что magicka работает через откусывание от файла блока из начала, конца и середины.

Строгие парсеры также работают.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру