URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 138300
[ Назад ]

Исходное сообщение
"Google опубликовал Magika 1.0, инструментарий для определения типа содержимого файлов "

Отправлено opennews , 07-Ноя-25 14:28 
Компания Google представила релиз инструментария Magika 1.0, предназначенного для определения типа содержимого на основе анализа имеющихся в файле данных. Magika может точно определять в содержимом используемые языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки, форматы звука, видео, документов и изображений. Связанный с проектом инструментарий и готовая модель машинного обучения распространяются под лицензией Apache 2.0. Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=64201


Содержание

Сообщения в этом обсуждении
"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 14:28 
Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.

> Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go.

Хорошо, что сишные программы такой мусор юзать не будут.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено НяшМяш , 07-Ноя-25 15:07 
Интересно, что гугл на это даже ответить попытался: https://securityresearch.google/magika/additional-resources/...

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Bob , 07-Ноя-25 15:11 
Максимально оптимизируют, ибо всетмощности надо под ИИ освобождать. Ту же Гемини и чё там ещё понавыпускали.

Анализирця и обучаясь на файлах со своего диска и прочих сервисах.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 15:59 
File такая кривая дрянь что это уже не смешно. Даже распознавание zip файлов регулярно ломают. Если хотя бы будет работать, то 200 мегабайт не жалко.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 22:09 
https://github.com/horsicq/Detect-It-Easy?tab=readme-ov-file

Вот еще хороший вариани.

А пихать нейронку в этот тип софта - та еще затея.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 01:30 
this.
Досовский FA на порядок лучше был.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Ванька , 08-Ноя-25 12:53 
совмещайте, file и binwalk на одно и тоже =)

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 16:09 
> отличается применением методов машинного обучения

Ого, т.е. будут галлюцинации и ложные результаты.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Чтото знающий , 08-Ноя-25 03:32 
>т.е. будут галлюцинации и ложные результаты

Насколько я понимаю, не более 1%. По сравнению с предыдущим вариантом без нейроки - довольно круто.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 05:38 
Очень круто, когда ты можешь вызвать программу сто раз с теми же входными данными и в среднем один раз она выдаст что-то другое. Очень надежный инструмент.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено МИСАКА , 08-Ноя-25 10:22 
Так а кто тебя заставляет температуру крутить? Если давать нейронке идентичные настройки, то там и 1% не будет

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Андрей , 10-Ноя-25 10:39 
Так и что ? Остальные методы вообще держаться на неуверенных эвристиках и дают более низкое качество, не понятно к чему претензия. Бонусом ещё более не понятно при чём тут галлюцинации, если это по сути подходит к категории ложно положительных и в данной задаче не является значимым. Также стоит вспомнить что некоторые файлы могут принадлежать разным типам имея одинаковое содержимое.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:23 
> Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.

На основании чего такие "чувства"? Увидели фразу "машинное обучение" - и дальше все как в тумане?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:59 
Если ты настолько несведущ в слабых сторонах ИИ, то лучше тебе вообще эту тему не комментировать.
ИИ хорош только как помощник человека. Финальное решение должен делать ТОЛЬКО человек, ибо ИИ неспособен В ПРИНЦИПЕ объяснить свои выводы. Так что да, когда слышу применение ИИ, "дальше всё как в тумане" - у применятелей ИИ.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 21:11 
> Если ты настолько несведущ в слабых сторонах ИИ

Хотелось бы услышать конкретику в контексте сабжа.

> Финальное решение должен делать ТОЛЬКО человек

Ну так сиди парси файлики вручную в HEX-редакторе. Разае сабж тебе мешает это делать?

> неспособен В ПРИНЦИПЕ объяснить свои выводы

Я хз, к чему ты приплел необходимость "объяснять", но вообще-то уже давно существуют "рассуждающие" ИИ, которые могут тебе дать буквально пошаговую цепочку своих рассуждений, из которых вытекает вывод.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Анониссимус , 08-Ноя-25 02:23 
Я другой аноним, но отвечу на это:

> Я хз, к чему ты приплел необходимость "объяснять", но вообще-то уже давно существуют "рассуждающие" ИИ, которые могут тебе дать буквально пошаговую цепочку своих рассуждений, из которых вытекает вывод.

Иногда эта цепочка рассуждений абсолютно правильная. А иногда она выглядит очень убедительно и логично, но когда попытаешься вникнуть — понимаешь, что это полный бред. Всё-таки надо понимать, что LLM — это всего лишь генератор текста. Безусловно, иногда он очень полезен, а иногда абсолютно бесполезен.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Чтото знающий , 08-Ноя-25 03:35 
>Безусловно, иногда он очень полезен, а иногда абсолютно бесполезен

В данном случае полезность - 99%, бесполезность - всего 1%. Уверен, людям такая точность в сочетании со скоростью обработки и не снилась.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Анониссимус , 14-Ноя-25 01:19 
>>Безусловно, иногда он очень полезен, а иногда абсолютно бесполезен
> В данном случае полезность - 99%, бесполезность - всего 1%. Уверен, людям
> такая точность в сочетании со скоростью обработки и не снилась.

Задачи бывают очень разные. 99% будет только в простых задачах.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 14:11 
> А иногда она выглядит очень убедительно и логично, но когда попытаешься вникнуть — понимаешь, что это полный бред.

Ну, и? Я в опеннетных комментариях наблюдаю то же самое, когда очередной эксперт обличает Раст, корпорации, слежку, капитализм и т.п.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 05:38 
А простая программа или условная баш-портянка значит может делать финальное решение? Прям 100% точность? Прям все возможные файловые инпуты протестированы?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено anonymos , 08-Ноя-25 14:31 
А чем Вам bash не угодил?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:34 
> Уже чувствую
> мусор

Окрестили софт мусором на основе своих "чуств"? Ну, это качественная опеннетная экспертиза.

> Хорошо, что сишные программы такой мусор юзать не будут.

А что за сишные программы?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:46 
> А что за сишные программы?

Которые CVE производят.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:56 
>> А что за сишные программы?
> Которые CVE производят.

А, понятно. Ну, главное, что они "Растовый мусор" не используют. С CVE-то мы всегда жили, а вот с Растом - погибель...


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 10-Ноя-25 17:02 
Но их хотя бы собрать можно всегда, а раст поделку мне в любой момент могут из-за океана удаленно запретить собирать.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Чтото знающий , 08-Ноя-25 03:36 
Видимо, file

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Хлебан , 07-Ноя-25 14:34 
А вот интересно, что произойдет, если этот определитель типа начнет бредить (или как еще аккуратно говорят, галлюцинировать)? Какой простор для творчества вирусописателей.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Жор , 07-Ноя-25 14:45 
Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификации.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 16:11 
> может просто ошибиться

Супер! Ошибётся, запустит гифку и сломает систему.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено 12yoexpert , 07-Ноя-25 16:57 
так это совсем другое дело

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:00 
> Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификации

Нейронке не обязательно быть генеративной, чтобы галлюцинировать. "Галлюцинирование" в контексте нейронок - это когда мизерные различия входных данных приводят к разным результатам.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 22:01 
Меня всегда озадачивают люди типа тебя, которые вдруг придумывают своё собственно определение для термина, и совершенно безосновательно утверждают, что это единственно верное утверждение. Что интересно вас сподвигает на такое поведение? Считаете ли вы его нормальным и допустимым в приличном обществе, или делаете это ради троллинга?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 10:53 
А что за организация должна придумывать единственно верное определение терминов? Или вам пролам о таком думать не положено?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 11:32 
Почему сразу организация? Если мы говорим про галлюцинации ИИ, то есть референсная группа -- ИИ-исследователи. В этой группе термин зародился и сформировался. В этой группе сформировалось и определение. Все остальные, пользующиеся этим термином, в лучшем случае могут понимать его правильно, но никакого влияния на его смысл они иметь не могут.

> Или вам пролам о таком думать не положено?

Я подозреваю, что думать не положено тем, кто свои определения придумывает. Это люди, которые не думают, они действуют как LLM, всасывают какую-то рандомную информацию, и дальше генеративно и вероятностно генерируют речь, которая на первый взгляд выглядит как речь разумного человека. Критически информацию осмыслить и проверить, задавать вопросы и искать ответы на эти вопросы целенаправленно -- это деятельность выше их разумения.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 16:54 
> Если мы говорим про галлюцинации ИИ, то есть референсная группа -- ИИ-исследователи. В этой группе термин зародился и сформировался. В этой группе сформировалось и определение.

На ходе сочиняешь, эксперт? Термин впервые появился еще в 90х, и конкретное поведение, подразумевающееся под "галлюцинированием", зависит от конкретной области машинного обучения.

https://en.wikipedia.org/wiki/Hallucination_(artificial_inte...)

В контексте сабжа, очевидно, галлюцинирование проявляется в ошибочном определении типа файла - ибо эта инфа является его единственным выхлопом.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 16:49 
> Меня всегда озадачивают люди типа тебя, которые вдруг придумывают своё собственно определение для термина

Что-нибудь содержательное скажешь по теме обсуждения?

> утверждают, что это единственно верное утверждение

Где ты у меня увидел такое утверждение?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 09-Ноя-25 18:10 
Вам стоит почитать про то, что называют галлюцинациями у нейронных сетей

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 14:49 
> А вот интересно, что произойдет, если этот определитель типа начнет бредить

Забавно, как люди одним вопросом показывают свою полнейшую некомпетентность в вопросе.

Такая нейронка не может галючинировать. Вы можете попробовать подобрать содержимое файла так, чтобы она ошиблась. И... на этом все. Точно также вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты автоматического детекта типа.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 15:29 
> вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты

И как вы это себе представляете? Я убираю из файла заголовок/магическое число и он превращается... в бессмысленный набор байтов? Как вы собираетесь "вводить в заблуждение" инструменты, если они определяют тип файла тем же способом что и программы которые собственно работают с этими файлами — по их структуре?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 18:13 
Например, есть такой контейнерный формат ISOBMFF, который используется в MP4, JPEG2000, MJPEG, FMP4. В теории можно использовать атомы одного типа в файле другого, чтобы заставить подобные штуки ошибиться.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 22:10 
> Я убираю из файла заголовок/магическое число и он превращается... в бессмысленный набор байтов?

А это очень интересный вопрос. Если, допустим, у меня есть покоцанный zip архив с винрарным содержымым. Он покоцан до уровня, когда ни одна реализация zip не может его распаковать. Будет ли правильно называть этот файл zip-архивом или бессмысленным набором байтов?

Ответ наверное зависит от целей, например если я пытаюсь данные восстановить с порушенной файловой системы, выудил оттуда цепочку инодов, и пытаюсь понять что там, то было бы неплохо узнать, что это японский текст в utf8, даже если начало текста не найдено на диске. Или узнать о том, что это zip-архив. Пускай покоцанный, не все его иноды найдены, но они может найдутся ещё, а я уже сейчас знаю что это. Может я даже какие-то блоки смогу разжать и глянуть, что внутре?

С другой стороны, эта теория о том, как лучше утилите поступать зависит от целей, страдает от того, что мне не придумать применения этой утилите, когда будет лучше, если она про покоцанный файл скажет "бессмысленный набор байт" чем "zip-архив". У тебя есть идеи, когда так будет лучше?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено anonymos , 08-Ноя-25 14:55 
Берем jpeg картинку, например haha.jpeg
А теперь магия консоли )))

echo "Hello World!" > hello.txt
rar a hello.rar hello.txt
cat haha.jpeg hello.rar > issue.rar
cp issue.rar issue.jpeg

А теперь посмотрите на эти файлы через свой любимый проводник.
issue.rar - окажется rar архивом
issue.jpeg - это та самая картинка, которая haha.jpeg
Более того, если файлы переименовать, они поменяют сущность )

mv issue.jpeg issue.jpeg.rar
mv issue.rar issue.rar.jpeg


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 09-Ноя-25 13:07 
Rarjpeg, которому сто лет в обед и "корректность" которого завязана исключительно на особености парсера RAR.
Что сказать-то хотел?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 10:56 
Ты показал свою полнейшую некомпетентность.  

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено devl547 , 07-Ноя-25 18:01 
>вирусописателей

Квайн-вирусы?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 14:37 
> Magika is used at scale to help improve Google users' safety by routing Gmail, Drive, and Safe Browsing files to the proper security and content policy scanners
> improve Google users' safety

Верим?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено ryoken , 07-Ноя-25 14:45 
Гуглу-то..?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Bob , 07-Ноя-25 15:20 
Это пресс релиз - для колхозников (юзеров гугла). Дачники (думающее) - идут мимо)

Копирайт по медиа, кряки с кейгенами по софту, дообучение своего ИИ на файлах юзеров.

Зачем вести базу "небезопасных" сайтов, если их можно сразу репортить хостеру и говорить: сноси или с выдачи уберём уже тебя)

С файлами - не всё так просто. Есть 100% вирусы, общеизвестные. А есть параноидальная шиза на любой ехе, bat, sh и т.п. файл. Ибо юзер не планктон и посмел что-то накодить или такое качнуть.

Доходит до идиотизма, когда самопальный ps или bash скрипт гугл диск как "опасный" определяет, а он пингует инет по ipv4 / ipv6 и меняет dns на гугловский)


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 11:25 
> Зачем вести базу "небезопасных" сайтов, если их можно сразу репортить хостеру и говорить: сноси или с выдачи уберём уже тебя)

ну как бы многим небезопасным как раз пофиг на выдачу.

тут из свежего, звонок по телефону, здравствуйте (тут идут верные ИО), беспокоят из мин обра. собираем статистику по учебным заведениям, не могли бы вы зайти на сайт, идут буквы, и пройти там опрос...

сайт, естественно ни от какого ни от минобра, зареган неделю назад, и внутри у него "неонка", форма логина паразительно похожая на логин на гос услугах.
вот не пофиг им на вашу выдачу в гугле ? они еще и роботс тхт положат с дизаллоу, дабы не палили.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним10084 и 1008465039 , 07-Ноя-25 15:16 
Утилита file больше не нужна, получается?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 18:34 
Зато нужна GTX100500 LLM и проц помощнее.
Ну и скажут тебе примерно тоже самое - "это файл, но это не точно" )

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:22 
> Зато нужна GTX100500 LLM и проц помощнее.

Тем временем в новости:

"После загрузки модели время формирования вывода составляет 5 мс при тестировании на одном ядре CPU"


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:08 
> Тем временем в новости

Нет времени читать!
Комментировать нужно!


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено BrainFucker , 07-Ноя-25 21:16 
> После загрузки модели время формирования вывода составляет 5 мс
> После загрузки модели

Померил утилиту file, результат примерно тот же, только время на загрузку модели тратить не надо.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 13:00 
> только время на загрузку модели тратить не надо.

Зато надо тратить время на загрузку врсьмимегабайтного magic.mgc.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено BrainFucker , 08-Ноя-25 15:44 
> Зато надо тратить время на загрузку врсьмимегабайтного magic.mgc.

Вот с ней и получается примерно то же время, что у Magika без загрузки модели.

Но вообще сравнивать их смсла нет, там цель использоания разная. Утилита file и libmagick ок для разовых операций руками типа проверить что за файл случайно попался. А сабж для использования в сервисах, где оно разово загрузится в память и будет постоянно обрабатывать запросы.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:36 
> Утилита file больше не нужна, получается?

Нужна, конечно, как и детерминированный алгоритм, а не вот это вот "ой, не знаю, почему такое расширение, такая модель..."


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Чтото знающий , 08-Ноя-25 03:45 
Вы, очевидно, не в курсе, но детерминированные алгоритмы в утилите file могут работать хуже, чем недетерминированные в нейронке. Потому что часто форматы слишком многовариантные или подпорченные, детерминированный алгоритм на таком срабатывает неправильно. Вы же не думаете, что в Гугле идиоты работают, и не знают о том, что есть детерменированные алгоритмы?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 11-Ноя-25 19:56 
file детектит не формат, а сигнатуру. Детекцию формата он не обещает. Сабж детектив вообще не пойми что, ты никогда не сможешь узнать заранее, почему нейронка такое решение вынесла, придётся SHAPать.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено SubGun , 08-Ноя-25 09:15 
Она не очень справляется.
Вот, например, для 70% файлов в моем CDN утилита file отдает тип данных data. Так что это за файл?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено asand3r , 08-Ноя-25 10:34 
Проверил на keytab-файле -- file корректно определяет содержимое, а magika пишет "Unknown binary data (unknown) [Low-confidence model best-guess: Certificates (binary format) (text), score=0.273]".

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Vindex , 08-Ноя-25 13:43 
Давным-давно из-за проблем file я изобрёл другое:
https://codeberg.org/os-18/fileformat
Но, как водится, никому кроме меня оно не нужно.
Интересно, что при этом появился у меня конкурент в виде Google

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним10084 и 1008465039 , 08-Ноя-25 18:25 
А лучше file работает? Засчет чего добились улучшений?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Vindex , 12-Ноя-25 02:35 
За счёт составления огромного количества сигнатур и замороченного алгоритма. И тем не менее, стандартные MIME-типы как вспомогательные тоже используются. На самом деле, вся основная логика в отдельной моей библиотеке, а не конкретно в этой утилите

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 11-Ноя-25 19:53 
Написано на D. Что иного ты ожидал?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 15:29 
а в чем была проблема юзать binwalk? он даже на их любимом расте переписан

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Чтото знающий , 08-Ноя-25 03:46 
Возможно, проблема в количестве ошибок при определении формата.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 15:32 
Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули, почему бы из них хоть каплю пользы не выдоить для сабжа и подобных задач?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:38 
> Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули,
> почему бы из них хоть каплю пользы не выдоить для сабжа
> и подобных задач?

Молодой человек, не нужно таких вопросов задавать. Производители процессоров волнуются. А вообще пройдите в эту комнату, да тут не ловит телефон, не волнуйтесь.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 16:16 
Абсолютно не нужный мусор существующий только из-за искусственного поддержания пузыря в IT. Подобный софт давно существовал и без всякого псевдо-"ИИ".

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 16:30 
Напоминаю, что magicka работает через откусывание от файла блока из начала, конца и середины. То есть засунув в начало, конец и середину нужные данные эту либу элементарно обмануть, при этом это нейронка, то есть не строгий алгоритмический парсинг, какой используется в реализациях, а штука, которой можно подсунуть adversarial куски, но при этом строгим парсером они всё равно будут парситься как надо. По-настоящему любой формат детектится только через попытку парсинга. На практике надо тип файла детектить по расширению, если контейнер - то парсить контейнер тоже, если тип запрещён - то ффтопку, если выглядит не запрещённым - то парсить безопасным парсером. Если не парсится - то ффтопку, если парсится - значит тот тип, что написан в расширении (даже если это химера). Либа имела бы существенную ценность для реверсинга, если бы была трансформером на индивидуальных битах и выдавала бы не тип файла, а тип данных (тип компрессии или кодировки, тип инта или тип флоата), а так это просто кусок хайпожорного дерьма, который на практике бесполезен.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:37 
> То есть засунув в начало, конец и середину нужные данные эту либу элементарно обмануть

Так можно обмануть любой алгоритм определения типа файла. Хз, что ты хотел этим сказать.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 22:25 
Нет, обмануть сочетание расширения и структуры - нельзя. Расширение тебе говорит, что ты ожидаешь в файле найти. А парсер тебе говорит, нашёл ли ты именно то, что ожидаешь. И не используйте говнософт, который гадает, вместо того, чтобы полагаться на идентифкаторы. Особенно держитесь подальше от ImageMagick.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Чтото знающий , 08-Ноя-25 03:53 
Сколько-сколько времени займёт распарсить 1 файл объёмом в несколько гигабайтов? А если у вас их гораздо больше одного, запасёмся вечностью?

Почему местные опеннетные эксперты думают, что они умнее и осведомлённее инженеров фирмы, одного из лидеров планеты в области софтостроения? Это риторический вопрос, если что.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 10-Ноя-25 18:11 
>Сколько-сколько времени займёт распарсить 1 файл объёмом в несколько гигабайтов

1. Его не надо парсить целиком, написано же - верхнего уровня. Файл на много гигабайтов, если это не говно по типу тарбола, будет содержать хедер и таблицу с оглавлением. Вот она и есть структура верхнего уровня.

2. magicka продвигается как решение для безопасности для фильтрации типа файлов, допустимых для аплоада, чтобы типа на сайты не заливали под видом картинки переименованный PHP-скрипт, а потом его не инклюдили, или пиратскую книгу. При этом никакие адекватно написанные сайты magic не используют. Когда им заливают картинку, они её просто пытаются открыть через API для работы с тем типом картинки. Если не открывается - пользователь идёт в пешее. Если открывается - то делается миниатюра. Отсюда вопрос - какие форумы устроили такой аттракцион невиданной щедрости, что разрешают заливать многогигабайтные картинки?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 16:58 
> А парсер тебе говорит, нашёл ли ты именно то, что ожидаешь

Ну, и что именно ты ожидаешь, когда тебе подсовывают набор байт, который может являться файлом в одном из более чем 200 возможных форматов?

Ты не понимаешь, что несешь.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 10-Ноя-25 19:05 
>когда тебе подсовывают набор байт, который может являться файлом в одном из более чем 200 возможных форматов?

То есть у нас в мире всего 200 форматов? А я-то, дурачок, думал, что форматов бесконечно много, в том числе уникальные, о которых ты в принципе знать не можешь.

Вы неправильно формулируете задачу. У вас нет задачи узнать, в каком формате файл. У вас есть задача убедиться в том, что файл именно в том формате, какой вы от него ожидаете. Первая задача в принципе нерешаема. Вторая задача - это именно та, о которой идёт речь, когда речь заходит о безопасности, а гугл продвигает свою нейросеть как средство обеспечение безопасности. При этом под "безопасностью" понимать можно разные вещи.
1. проверить, что файл у нас такой, что его нельзя использовать для атаки на нашу систему. То есть залили PHP-скрипт под видом картинки, а дальше локальный инклюд. На самом деле так делают только дебилы, что возможность локального инклюда, что хранение картинок в папках, откуда их можно заинклюдить.
2. проверить, что пользователь не залил химеру (напр. рарджпег), что картинка - она не только с точки зрения ПО сайта картинка, но что в ней дополнительной нагрузки нет, а то ещё засунут пиратскую книгу в рарджпег, или GPG в JPEG, и к тебе как к владельцу сайта копирасты придут, или органы госбезопасности, и скажут willful blindness, не позаботился о государственном интересе в первую очередь, значит оказываешь врагам Короны aid and comfort, значит должен кучу денег или вообще вплоть до смертной казни. Это извращённый смысл слова "безопасность".

При этом эта нейросеть в принципе не может обеспечить безопасность ни в каком из этих смыслов, так как нейросети подвержены adversarial-атакам. Если вы хотите защититься от первого случая, то вы попробуете файл распарсить так, как его парсят обычные реализации. Сначала по белому списку, а потом по чёрному.

Ежели вы хотите защититься от второго случая, то вы файл не просто распарсите, вы его просанитируете: создадите свой вариант файла, в который возьмёте только минимально возможную часть данных оригинального файла, а все данные, которые возьмёте - подвергните транформации, которая на вид файл изменит незначительно, но разрушит стеганографически закодированное сообщение. А чтобы не постили QR-коды, где стеганографии нет а сообщение закодировано явно - приделаете детектор QR-кодов. И модератора посадите отсматривать все картинки, чтобы за все подозрительные картинки, а заодно и запрещённые законом, нещадно банил.



"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 23:45 
> Напоминаю, что magicka работает через откусывание от файла блока из начала, конца и середины.

Строгие парсеры также работают.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 02:29 
Нет, парсеры разбирают структуру хотя-бы верхнего уровня полностью, а не дают вердикт "кажется, байтики на exe похожи с вероятностью 0.9912345", хотя там хедер от какого-нибудь другого формата, просто поля метаданных подобраны чтобы нейросети казалось.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Анониссимус , 08-Ноя-25 02:30 
Строгий парсер ничего не кусает, он берёт и парсит весь файл. На то он и парсер.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 17:00 
> Строгий парсер ничего не кусает, он берёт и парсит весь файл. На то он и парсер.

Где я могу увидеть этот "строгий парсер", работающий с более чем 200 форматами файлов?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 10-Ноя-25 18:40 
Тебе не нужно 200 форматов поддерживать. Тебе нужно проверить, что конкретный файл в белом списке из максимум 10 форматов. Для этого ты берёшь либы для работы с этими форматами, и для каждой пишешь код, который этот файл пытается нелениво открыть этой либой.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Анониссимус , 14-Ноя-25 01:20 
>> Строгий парсер ничего не кусает, он берёт и парсит весь файл. На то он и парсер.
> Где я могу увидеть этот "строгий парсер", работающий с более чем 200
> форматами файлов?

Один конкретный парсер парсит один конкретный формат. Не начало и конец, а весь файл.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 16:53 
Зашли с коллегой на их сайт в раздел DEMO
Файл a.sh (UTF-8) с содержимым что-то типа "sudo <cmd> <cmd params>".
Строк 4-5, ничего специфического.
Определило как "Batch" (виндовый .bat) и выдало score = 87%

Как-то несолидно


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Мемоним , 07-Ноя-25 17:00 
> Sudo for Windows is a new way for users to run elevated commands (as an administrator) directly from an unelevated console session on Windows.

А в Powershell давно есть алиасы для всяких cp/mv/rm. Так что не все так просто.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 17:05 
> Magika может точно определять

Сказал - сделай )


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 09-Ноя-25 11:25 
PowerShell — не Batch. Это 2 разных языка так-то, и в последнем никаких псевдонимов типа cp/mv/rm нет.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Мемоним , 09-Ноя-25 14:50 
> PowerShell — не Batch. Это 2 разных языка так-то, и в последнем
> никаких псевдонимов типа cp/mv/rm нет.

Ну вот в Гугле не посчитали нужным их разделять


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 17:17 
Поочередно кинул три файла Гимпа в формате xcf с какими-то своими каляками.
1) wav 19%, tiff 9%, psd 9%, vba 5%, hlp 5%
2) tar 21%, pebin 9%, mp3 6%, psd 6%, tiff 5%
3) wav 24%, hlp 16%, tiff 13%, jpeg 3%, psd 3%

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:12 
> Поочередно кинул три файла Гимпа в формате xcf

Так это и не удивительно.
Они скорее всего и не обучали сетку на каком-то маргинальном формате, который используется только в одной васяно-софтине.
Попробуйте на чем-то нормальном, напр. на файлах photoshop :)


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 21:04 
Вот и всё, что нужно знать о "нейронках". :)

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 22:26 
А теперь давай выкладывай свои каляки...

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:13 
Вряд ли они в проде используют прям тоже самое.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 18:14 
Раст победил! Даже гугл отказался от go ради Раста! Только бездари не умеют в Раст. Где нужно думать головой, а не жо...й.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 19:33 
Жду, когда выпустят новую программу dir, которая отображает список файлов и директорий. Естественно нужно ,чтобы эта программа была обязательно на искусственном интеллекте и обучалась на типичных домашних каталогах пользователей.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено аролп5 , 07-Ноя-25 19:52 
Это будет клиент, который будет в Майкрософт отправлять ваши файлы, анализировать и сообщать клиенту, директория это или файл )))

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено аролп5 , 07-Ноя-25 19:51 
"The client and the bindings are already open source, and more is coming soon!" Не понял, этой штуке что ли стабильный канал интернета нужен будет для работы?!

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено ProfessorNavigator , 07-Ноя-25 19:58 
> Задействование методов глубокого машинного обучения

А что, бывают ещё методы "мелкого" машинного обучения?))


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:17 
> А что, бывают ещё методы "мелкого" машинного обучения?))

Ну если сделаете "сетку" с малых количеством слоев, то будет не глубокое.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено ProfessorNavigator , 07-Ноя-25 20:33 
>> А что, бывают ещё методы "мелкого" машинного обучения?))
> Ну если сделаете "сетку" с малых количеством слоев, то будет не глубокое.

А с какой величины заканчивается мелкое и начинается глубокое?))



"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 21:06 
Мне вот "глубокое" по ___й, а вам по колено будет :)

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 02:31 
xgboost, например, рабочая лошадка всего нехайпового машоба.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено ProfessorNavigator , 08-Ноя-25 12:18 
> xgboost, например, рабочая лошадка всего нехайпового машоба.

Это всё замечательно, но спрашивал я не о том и намекал вовсе на другое)) На случай, если кто не догадался - употребление прилагательных в техническом описании верный признак того, что вам пытаются в очередной раз что-то впарить. Есть просто машинное обучение. На самом деле оно конечно не обучение, а просто формирование базы данных с машиночитаемыми правилами под контролем операторов, но поскольку термин уже устоялся, то пусть будет машинное обучение. И если мы говорим о технических вещах, то уместно техническое же описание например модели. С конкретными параметрами. Если вы употребляете прилагательные, вроде "глубокое", то вслед за этим должна идти расшифровка, что под этим подразумевается - т.е. описание ваших критериев "глубокого" и "неглубокого". Без таковой расшифровки текст автоматически превращается в рекламу (чем данная новость и является). Т.е. в попытку всучить окружающим то, что им скорее всего не очень нужно, или вещи, характеристики которой не соответствуют заявленным.

В общем, будь бдителен, анон! Не ведись на рекламные разводки корпораций и любых других мутных личностей, которые пытаются на тебе нажиться.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 13:13 
> но поскольку термин уже устоялся, то пусть будет машинное обучение

"Глубокое обучение" - это тоже давно устоявшийся термин в области машинного обучения.

> Если вы употребляете прилагательные, вроде "глубокое", то вслед за этим должна идти расшифровка, что под этим подразумевается

Нет, не должна, ибо если у человека не хватает ума загуглить информацию по интересующего его термину, то понять этот термин ума у него тем более не хватит. Ты это сейчас прекрасно подтвердил.

Причем, ЧСХ, к буквально второму предложению новости, где "языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки" у тебя подобных претензий нет: эти все термины "расшифровывать" не надо, ведь их опеннетный ProfessorNavigator понимает, а "машинное обучение" - нет.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено anonymos , 08-Ноя-25 17:27 
Аноним прав, термин "глубокое" машинное обучение - это не более чем маркетинг )

1) Искусственный интеллект (ИИ) — общая область.
2) Машинное обучение (ML) — подраздел ИИ.
3) Глубокое обучение (DL) — подраздел ML.

Вся суть которого сводится к простой мысли, никакой аноним сам не сможет создать, и тем более обучить, сеть такой сложности. Поэтому должен нести бабло нам )))


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 18:03 
> Вся суть которого сводится к простой мысли, никакой аноним сам не сможет создать, и тем более обучить

Нет, к такой сути он никогда не сводился. Эту чушь придумали воины против ИИ и коварных корпораций. А твой "аноним" с Опеннета даже байесовский классификатор не осилит написать, лол.

> никакой аноним сам не сможет создать, и тем более обучить, сеть такой сложности

Не смеши меня. Есть целая тьма фреймворков, из которых любой васян с минимальными знаниями в ML и Python может клепать свои нейросети под личные нужды. На Гитхабе их тысячи. Про обучение тем более смешно: куча людей (в т.ч. буквально школьников) без упомянутых знаний ML/Python тренируют по пошаговым инструкциями готовые нейронки локально (в т.ч. для генерации и продажи rule 69 контента).


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 10-Ноя-25 18:23 
>Про обучение тем более смешно: куча людей (в т.ч. буквально школьников) без упомянутых знаний ML/Python тренируют по пошаговым инструкциями готовые нейронки локально (в т.ч. для генерации и продажи rule 69 контента).

Эта "куча людей" - это детки миллионеров с аккаунтами на инстаграме, тик-токе и фейсбуке, посещёнными пространствами, куда вход строго по биометрии (напр. аэропорты и порты, где частные самолёты и яхты запаркованы), и окружением из таких же членов элиты. Как сынки миллионеров они яро лояльны действующим режимам, плотно под присмотром гебни, и никакие не анонимы в принципе. Тренируют они их не на своих компах, на арендованных кластерах AWS или Asure. В общем не Мойша, а Рабинович, не в покер, а в преферанс, не три
рубля, а полтинник, не выиграл, а проиграл.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 20:06 
"В Google система (magika) используется для классификации файлов в сервисах Gmail, Drive ..."

Подсматривать нехорошо


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 21:06 
Нехорошо. Но это если всем об этом рассказывать.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:16 
Но есть и плюс: можно создать нужный тебе "профиль" в гугле просто загружая нужную инфу.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 10:22 
Читаем условия пользования гуглоящиком.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:20 
> На MacBook Pro (M4) производительность движка позволяет обрабатывать около 1000 файлов в секунду.

Это данные для блондинок? Может стоит написать параметры железа на тестах и тестовые данные дать, чтобы можно было желающим прогнать не на макпукпро? Не серьезно.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 07-Ноя-25 21:30 
> Изначально проект развивался на языке Python, но при подготовке релиза 1.0 движок для определения типов контента был переписан на языке Rust, что позволило добиться более высокой производительности, сохранив должный уровень защищённости кода.

Ловко сформулировано:

> сохранив должный уровень защищённости кода

То есть код на питоне безопаснее? Тут не спорим.

> что позволило добиться более высокой производительности

Какой? К сожалению никто не ответит, да и зачем манагерам лишать себя премии за ненужные переписывания. Такого ведь никогда не было. Ведь правда?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 01:06 
> Какой? К сожалению никто не ответит

Прям в новости написано:
"После загрузки модели время формирования вывода составляет 5 мс при тестировании на одном ядре CPU"
"На MacBook Pro (M4) производительность движка позволяет обрабатывать около 1000 файлов в секунду"

Вот paper с описанием в том числе производительности
VI. EVALUATION B. Speed
securityresearch.google/magika/2025_icse_magika.pdf

> да и зачем манагерам лишать себя премии за ненужные переписывания.

Если вы реально думаете что питон был быстрее... ну что ж, кого только на опеннете нет.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 01:42 
> на одном ядре CPU

На одном ядре какого процессора?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Чтото знающий , 08-Ноя-25 04:07 
Предположу, что какого-то серверного, скорее всего или Амл, или Интел. Но почему это важно?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 10:24 
Это в макбуке то?

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 11:53 
> Но почему это важно?

- Машина едет 300 км/ч.
- Какая и сколько стоит?
- Почему это важно?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 08-Ноя-25 01:56 
>> Какой? К сожалению никто не ответит
> Прям в новости написано:
> "После загрузки модели время формирования вывода составляет 5 мс при тестировании на
> одном ядре CPU"

Какой CPU? Почему только CPU учитываеся? Почему тест только на одном, если их больше одного?

> Вот paper с описанием в том числе производительности
> VI. EVALUATION B. Speed
> securityresearch.google/magika/2025_icse_magika.pdf

Как локально тесты запустить, чтобы проверить?

>> да и зачем манагерам лишать себя премии за ненужные переписывания.
> Если вы реально думаете что питон был быстрее... ну что ж, кого
> только на опеннете нет.

Питон остался. Раст для прокидывания параметров о чем явно в новости написано. Какая разница на чем это делать? На сколько быстрее? Где статистика? Верите наслово?

> ну что ж, кого только на опеннете нет.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Чтото знающий , 08-Ноя-25 03:59 
>Какой CPU? Почему только CPU учитываеся? Почему тест только на одном, если их больше одного?

А вы зачем спрашиваете?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Чтото знающий , 08-Ноя-25 04:05 
>Как локально тесты запустить, чтобы проверить?

Откройте оригинальную новость (на английском). Это не так сложно, как вы, наверное, думаете. А когда откроете, увидете ссылку на скачивание. Используйте её для того, чтобы скачать программу и начать ваше тестирование.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 08-Ноя-25 08:37 
>>Как локально тесты запустить, чтобы проверить?
> Откройте оригинальную новость (на английском). Это не так сложно, как вы, наверное,
> думаете. А когда откроете, увидете ссылку на скачивание. Используйте её для
> того, чтобы скачать программу и начать ваше тестирование.

Толсто. Тестовые данные то там есть?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 17:05 
>> Используйте её для того, чтобы скачать программу и начать ваше тестирование.
> Толсто. Тестовые данные то там есть?

Выходит, у тебя нет даже минимального набора файлов, на котором ты мог бы использовать эту софтину на своем конкретном железе - но ты ринулся срывать с сабжа покровы? Опеннетная классика...


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Кошкажена , 08-Ноя-25 21:32 
>>> Используйте её для того, чтобы скачать программу и начать ваше тестирование.
>> Толсто. Тестовые данные то там есть?
> Выходит, у тебя нет даже минимального набора файлов, на котором ты мог
> бы использовать эту софтину на своем конкретном железе - но ты
> ринулся срывать с сабжа покровы? Опеннетная классика...

Выходит ты не читаешь сообщения, а сразу на них отвечаешь. Опеннетная классика...

Речь шла про мутные заявления о скорости в новости без указания специфики железа. Это ни разу не техническое обсуждение.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 11:04 
Ты прав нас просто пытаются обмануть.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 07-Ноя-25 23:31 
Правильно, всегда надо знать, что за файл перед тобой.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 11:51 
ИИ: "Но это неточно".

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 11:28 
сейчас использую из golang: https://github.com/gabriel-vasile/mimetype
довольно таки не плохо

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено lucentcode , 08-Ноя-25 12:36 
Написано на Rust. Значит не взлетит. Вообще не понимаю, чего они так за этот недоязык цепляются? Есть же C, там где его возможностей не хватает(что бывает не часто) - C++, лучшее решение из существующих на рынке, для высокопроизводительных приложений.

Мало того, тут даже их сказки о "безопасности" Ржавчины не прокатят. Приложение собирается с C-шной либой, а потому оно ничуть не безопасней, чем обычное C-шное.


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 13:20 
> Написано на Rust. Значит не взлетит.

Уже взлетело.

> C
> C++
> лучшее решение из существующих на рынке, для высокопроизводительных приложений

То-то бенчмарки для суперкомпьютеров и научный софт для них же написан на Фортране.

> Приложение собирается с C-шной либой, а потому оно ничуть не безопасней, чем обычное C-шное.

Что, ложка Сишки портит всю бочку Раста? Бедный воин так воевал против Раста, что дескредитировал Сишку. 😂

Кстати, о каком конкретно приложении и сишной либе ты говоришь?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 16:17 
Конечно там же можно выйти за границу буфера.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Анонисссм , 08-Ноя-25 18:14 
подсунул EML файл, пожатый lz4.

внутри такое. эта шляпа с уверенностью 93% сказала что EML (kgam)


˫^D^@<F8>0Received: from
Wed, 29 Jan
2025 11:53:10 +0300
<ED>^@^S<F0>^L[fe80::d58e:521d:b38f:170f]<FD>^@/
9^@^_C%14]^O^A<90>mapi id
<BF>^@^S0<C0>^@ESC0<C1>^@^


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Аноним , 08-Ноя-25 19:24 
> подсунул EML файл
> сказала что EML
> шляпа

Гениальная логика. А что она должна была сказать?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Анонисссм , 09-Ноя-25 06:32 
>А что она должна была сказать

чем не нравится очевидное - lz4?


"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено Vasyan , 11-Ноя-25 21:10 
Ха-ха, zst не распознает. А обычный file - прекрасно распознал.

"Google опубликовал Magika 1.0, инструментарий для определени..."
Отправлено RM , 12-Ноя-25 01:52 
> ... Модель обучена с использованием фреймворка Keras на 100 ....

Вот именно что Херас на 100.
Я не знаю, да и не хочу знать, какую грибную Магию там на чем писали и когда именно какие версии в прод выкатывали, но гугол драйв, нехороший, имеет свойство добавлять расширения файлам при скачивании свои.
закачивали example.properties а скачали example.properties.txt

потому что оно так решило, тип файла, ё@#&!
если погуглить, этому поведеню уже много лет, воспроизводиться как получиться, но присутствует точно.