Компания Google представила релиз инструментария Magika 1.0, предназначенного для определения типа содержимого на основе анализа имеющихся в файле данных. Magika может точно определять в содержимом используемые языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки, форматы звука, видео, документов и изображений. Связанный с проектом инструментарий и готовая модель машинного обучения распространяются под лицензией Apache 2.0. Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go...Подробнее: https://www.opennet.dev/opennews/art.shtml?num=64201
Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.> Обвязки подготовлены для языков Rust, Python, JavaScript/TypeScript и Go.
Хорошо, что сишные программы такой мусор юзать не будут.
Интересно, что гугл на это даже ответить попытался: https://securityresearch.google/magika/additional-resources/...
Максимально оптимизируют, ибо всетмощности надо под ИИ освобождать. Ту же Гемини и чё там ещё понавыпускали.Анализирця и обучаясь на файлах со своего диска и прочих сервисах.
File такая кривая дрянь что это уже не смешно. Даже распознавание zip файлов регулярно ломают. Если хотя бы будет работать, то 200 мегабайт не жалко.
https://github.com/horsicq/Detect-It-Easy?tab=readme-ov-fileВот еще хороший вариани.
А пихать нейронку в этот тип софта - та еще затея.
this.
Досовский FA на порядок лучше был.
совмещайте, file и binwalk на одно и тоже =)
> отличается применением методов машинного обученияОго, т.е. будут галлюцинации и ложные результаты.
>т.е. будут галлюцинации и ложные результатыНасколько я понимаю, не более 1%. По сравнению с предыдущим вариантом без нейроки - довольно круто.
Очень круто, когда ты можешь вызвать программу сто раз с теми же входными данными и в среднем один раз она выдаст что-то другое. Очень надежный инструмент.
Так а кто тебя заставляет температуру крутить? Если давать нейронке идентичные настройки, то там и 1% не будет
Так и что ? Остальные методы вообще держаться на неуверенных эвристиках и дают более низкое качество, не понятно к чему претензия. Бонусом ещё более не понятно при чём тут галлюцинации, если это по сути подходит к категории ложно положительных и в данной задаче не является значимым. Также стоит вспомнить что некоторые файлы могут принадлежать разным типам имея одинаковое содержимое.
> Уже чувствую, что функционала меньше, чем в libmagic (или что там утилита file юзает), а жор будет где-то метров 200 минимум.На основании чего такие "чувства"? Увидели фразу "машинное обучение" - и дальше все как в тумане?
Если ты настолько несведущ в слабых сторонах ИИ, то лучше тебе вообще эту тему не комментировать.
ИИ хорош только как помощник человека. Финальное решение должен делать ТОЛЬКО человек, ибо ИИ неспособен В ПРИНЦИПЕ объяснить свои выводы. Так что да, когда слышу применение ИИ, "дальше всё как в тумане" - у применятелей ИИ.
> Если ты настолько несведущ в слабых сторонах ИИХотелось бы услышать конкретику в контексте сабжа.
> Финальное решение должен делать ТОЛЬКО человек
Ну так сиди парси файлики вручную в HEX-редакторе. Разае сабж тебе мешает это делать?
> неспособен В ПРИНЦИПЕ объяснить свои выводы
Я хз, к чему ты приплел необходимость "объяснять", но вообще-то уже давно существуют "рассуждающие" ИИ, которые могут тебе дать буквально пошаговую цепочку своих рассуждений, из которых вытекает вывод.
Я другой аноним, но отвечу на это:> Я хз, к чему ты приплел необходимость "объяснять", но вообще-то уже давно существуют "рассуждающие" ИИ, которые могут тебе дать буквально пошаговую цепочку своих рассуждений, из которых вытекает вывод.
Иногда эта цепочка рассуждений абсолютно правильная. А иногда она выглядит очень убедительно и логично, но когда попытаешься вникнуть — понимаешь, что это полный бред. Всё-таки надо понимать, что LLM — это всего лишь генератор текста. Безусловно, иногда он очень полезен, а иногда абсолютно бесполезен.
>Безусловно, иногда он очень полезен, а иногда абсолютно бесполезенВ данном случае полезность - 99%, бесполезность - всего 1%. Уверен, людям такая точность в сочетании со скоростью обработки и не снилась.
>>Безусловно, иногда он очень полезен, а иногда абсолютно бесполезен
> В данном случае полезность - 99%, бесполезность - всего 1%. Уверен, людям
> такая точность в сочетании со скоростью обработки и не снилась.Задачи бывают очень разные. 99% будет только в простых задачах.
> А иногда она выглядит очень убедительно и логично, но когда попытаешься вникнуть — понимаешь, что это полный бред.Ну, и? Я в опеннетных комментариях наблюдаю то же самое, когда очередной эксперт обличает Раст, корпорации, слежку, капитализм и т.п.
А простая программа или условная баш-портянка значит может делать финальное решение? Прям 100% точность? Прям все возможные файловые инпуты протестированы?
А чем Вам bash не угодил?
> Уже чувствую
> мусорОкрестили софт мусором на основе своих "чуств"? Ну, это качественная опеннетная экспертиза.
> Хорошо, что сишные программы такой мусор юзать не будут.
А что за сишные программы?
> А что за сишные программы?Которые CVE производят.
>> А что за сишные программы?
> Которые CVE производят.А, понятно. Ну, главное, что они "Растовый мусор" не используют. С CVE-то мы всегда жили, а вот с Растом - погибель...
Но их хотя бы собрать можно всегда, а раст поделку мне в любой момент могут из-за океана удаленно запретить собирать.
Видимо, file
А вот интересно, что произойдет, если этот определитель типа начнет бредить (или как еще аккуратно говорят, галлюцинировать)? Какой простор для творчества вирусописателей.
Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификации.
> может просто ошибитьсяСупер! Ошибётся, запустит гифку и сломает систему.
так это совсем другое дело
> Там нет генеративной модели. Оно не может "бредить", может просто ошибиться при классификацииНейронке не обязательно быть генеративной, чтобы галлюцинировать. "Галлюцинирование" в контексте нейронок - это когда мизерные различия входных данных приводят к разным результатам.
Меня всегда озадачивают люди типа тебя, которые вдруг придумывают своё собственно определение для термина, и совершенно безосновательно утверждают, что это единственно верное утверждение. Что интересно вас сподвигает на такое поведение? Считаете ли вы его нормальным и допустимым в приличном обществе, или делаете это ради троллинга?
А что за организация должна придумывать единственно верное определение терминов? Или вам пролам о таком думать не положено?
Почему сразу организация? Если мы говорим про галлюцинации ИИ, то есть референсная группа -- ИИ-исследователи. В этой группе термин зародился и сформировался. В этой группе сформировалось и определение. Все остальные, пользующиеся этим термином, в лучшем случае могут понимать его правильно, но никакого влияния на его смысл они иметь не могут.> Или вам пролам о таком думать не положено?
Я подозреваю, что думать не положено тем, кто свои определения придумывает. Это люди, которые не думают, они действуют как LLM, всасывают какую-то рандомную информацию, и дальше генеративно и вероятностно генерируют речь, которая на первый взгляд выглядит как речь разумного человека. Критически информацию осмыслить и проверить, задавать вопросы и искать ответы на эти вопросы целенаправленно -- это деятельность выше их разумения.
> Если мы говорим про галлюцинации ИИ, то есть референсная группа -- ИИ-исследователи. В этой группе термин зародился и сформировался. В этой группе сформировалось и определение.На ходе сочиняешь, эксперт? Термин впервые появился еще в 90х, и конкретное поведение, подразумевающееся под "галлюцинированием", зависит от конкретной области машинного обучения.
https://en.wikipedia.org/wiki/Hallucination_(artificial_inte...)
В контексте сабжа, очевидно, галлюцинирование проявляется в ошибочном определении типа файла - ибо эта инфа является его единственным выхлопом.
> Меня всегда озадачивают люди типа тебя, которые вдруг придумывают своё собственно определение для терминаЧто-нибудь содержательное скажешь по теме обсуждения?
> утверждают, что это единственно верное утверждение
Где ты у меня увидел такое утверждение?
Вам стоит почитать про то, что называют галлюцинациями у нейронных сетей
> А вот интересно, что произойдет, если этот определитель типа начнет бредитьЗабавно, как люди одним вопросом показывают свою полнейшую некомпетентность в вопросе.
Такая нейронка не может галючинировать. Вы можете попробовать подобрать содержимое файла так, чтобы она ошиблась. И... на этом все. Точно также вы можете подредактировать файл чтобы ввести в заблуждение другие инструменты автоматического детекта типа.
> вы можете подредактировать файл чтобы ввести в заблуждение другие инструментыИ как вы это себе представляете? Я убираю из файла заголовок/магическое число и он превращается... в бессмысленный набор байтов? Как вы собираетесь "вводить в заблуждение" инструменты, если они определяют тип файла тем же способом что и программы которые собственно работают с этими файлами — по их структуре?
Например, есть такой контейнерный формат ISOBMFF, который используется в MP4, JPEG2000, MJPEG, FMP4. В теории можно использовать атомы одного типа в файле другого, чтобы заставить подобные штуки ошибиться.
> Я убираю из файла заголовок/магическое число и он превращается... в бессмысленный набор байтов?А это очень интересный вопрос. Если, допустим, у меня есть покоцанный zip архив с винрарным содержымым. Он покоцан до уровня, когда ни одна реализация zip не может его распаковать. Будет ли правильно называть этот файл zip-архивом или бессмысленным набором байтов?
Ответ наверное зависит от целей, например если я пытаюсь данные восстановить с порушенной файловой системы, выудил оттуда цепочку инодов, и пытаюсь понять что там, то было бы неплохо узнать, что это японский текст в utf8, даже если начало текста не найдено на диске. Или узнать о том, что это zip-архив. Пускай покоцанный, не все его иноды найдены, но они может найдутся ещё, а я уже сейчас знаю что это. Может я даже какие-то блоки смогу разжать и глянуть, что внутре?
С другой стороны, эта теория о том, как лучше утилите поступать зависит от целей, страдает от того, что мне не придумать применения этой утилите, когда будет лучше, если она про покоцанный файл скажет "бессмысленный набор байт" чем "zip-архив". У тебя есть идеи, когда так будет лучше?
Берем jpeg картинку, например haha.jpeg
А теперь магия консоли )))echo "Hello World!" > hello.txt
rar a hello.rar hello.txt
cat haha.jpeg hello.rar > issue.rar
cp issue.rar issue.jpegА теперь посмотрите на эти файлы через свой любимый проводник.
issue.rar - окажется rar архивом
issue.jpeg - это та самая картинка, которая haha.jpeg
Более того, если файлы переименовать, они поменяют сущность )mv issue.jpeg issue.jpeg.rar
mv issue.rar issue.rar.jpeg
Rarjpeg, которому сто лет в обед и "корректность" которого завязана исключительно на особености парсера RAR.
Что сказать-то хотел?
Ты показал свою полнейшую некомпетентность.
>вирусописателейКвайн-вирусы?
> Magika is used at scale to help improve Google users' safety by routing Gmail, Drive, and Safe Browsing files to the proper security and content policy scanners
> improve Google users' safetyВерим?
Гуглу-то..?
Это пресс релиз - для колхозников (юзеров гугла). Дачники (думающее) - идут мимо)Копирайт по медиа, кряки с кейгенами по софту, дообучение своего ИИ на файлах юзеров.
Зачем вести базу "небезопасных" сайтов, если их можно сразу репортить хостеру и говорить: сноси или с выдачи уберём уже тебя)
С файлами - не всё так просто. Есть 100% вирусы, общеизвестные. А есть параноидальная шиза на любой ехе, bat, sh и т.п. файл. Ибо юзер не планктон и посмел что-то накодить или такое качнуть.
Доходит до идиотизма, когда самопальный ps или bash скрипт гугл диск как "опасный" определяет, а он пингует инет по ipv4 / ipv6 и меняет dns на гугловский)
> Зачем вести базу "небезопасных" сайтов, если их можно сразу репортить хостеру и говорить: сноси или с выдачи уберём уже тебя)ну как бы многим небезопасным как раз пофиг на выдачу.
тут из свежего, звонок по телефону, здравствуйте (тут идут верные ИО), беспокоят из мин обра. собираем статистику по учебным заведениям, не могли бы вы зайти на сайт, идут буквы, и пройти там опрос...
сайт, естественно ни от какого ни от минобра, зареган неделю назад, и внутри у него "неонка", форма логина паразительно похожая на логин на гос услугах.
вот не пофиг им на вашу выдачу в гугле ? они еще и роботс тхт положат с дизаллоу, дабы не палили.
Утилита file больше не нужна, получается?
Зато нужна GTX100500 LLM и проц помощнее.
Ну и скажут тебе примерно тоже самое - "это файл, но это не точно" )
> Зато нужна GTX100500 LLM и проц помощнее.Тем временем в новости:
"После загрузки модели время формирования вывода составляет 5 мс при тестировании на одном ядре CPU"
> Тем временем в новостиНет времени читать!
Комментировать нужно!
> После загрузки модели время формирования вывода составляет 5 мс
> После загрузки моделиПомерил утилиту file, результат примерно тот же, только время на загрузку модели тратить не надо.
> только время на загрузку модели тратить не надо.Зато надо тратить время на загрузку врсьмимегабайтного magic.mgc.
> Зато надо тратить время на загрузку врсьмимегабайтного magic.mgc.Вот с ней и получается примерно то же время, что у Magika без загрузки модели.
Но вообще сравнивать их смсла нет, там цель использоания разная. Утилита file и libmagick ок для разовых операций руками типа проверить что за файл случайно попался. А сабж для использования в сервисах, где оно разово загрузится в память и будет постоянно обрабатывать запросы.
> Утилита file больше не нужна, получается?Нужна, конечно, как и детерминированный алгоритм, а не вот это вот "ой, не знаю, почему такое расширение, такая модель..."
Вы, очевидно, не в курсе, но детерминированные алгоритмы в утилите file могут работать хуже, чем недетерминированные в нейронке. Потому что часто форматы слишком многовариантные или подпорченные, детерминированный алгоритм на таком срабатывает неправильно. Вы же не думаете, что в Гугле идиоты работают, и не знают о том, что есть детерменированные алгоритмы?
file детектит не формат, а сигнатуру. Детекцию формата он не обещает. Сабж детектив вообще не пойми что, ты никогда не сможешь узнать заранее, почему нейронка такое решение вынесла, придётся SHAPать.
Она не очень справляется.
Вот, например, для 70% файлов в моем CDN утилита file отдает тип данных data. Так что это за файл?
Проверил на keytab-файле -- file корректно определяет содержимое, а magika пишет "Unknown binary data (unknown) [Low-confidence model best-guess: Certificates (binary format) (text), score=0.273]".
Давным-давно из-за проблем file я изобрёл другое:
https://codeberg.org/os-18/fileformat
Но, как водится, никому кроме меня оно не нужно.
Интересно, что при этом появился у меня конкурент в виде Google
А лучше file работает? Засчет чего добились улучшений?
За счёт составления огромного количества сигнатур и замороченного алгоритма. И тем не менее, стандартные MIME-типы как вспомогательные тоже используются. На самом деле, вся основная логика в отдельной моей библиотеке, а не конкретно в этой утилите
Написано на D. Что иного ты ожидал?
а в чем была проблема юзать binwalk? он даже на их любимом расте переписан
Возможно, проблема в количестве ошибок при определении формата.
Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули, почему бы из них хоть каплю пользы не выдоить для сабжа и подобных задач?
> Теперь же в процессоры добавляют эти как его за ногу NPU нейромодули,
> почему бы из них хоть каплю пользы не выдоить для сабжа
> и подобных задач?Молодой человек, не нужно таких вопросов задавать. Производители процессоров волнуются. А вообще пройдите в эту комнату, да тут не ловит телефон, не волнуйтесь.
Абсолютно не нужный мусор существующий только из-за искусственного поддержания пузыря в IT. Подобный софт давно существовал и без всякого псевдо-"ИИ".
Напоминаю, что magicka работает через откусывание от файла блока из начала, конца и середины. То есть засунув в начало, конец и середину нужные данные эту либу элементарно обмануть, при этом это нейронка, то есть не строгий алгоритмический парсинг, какой используется в реализациях, а штука, которой можно подсунуть adversarial куски, но при этом строгим парсером они всё равно будут парситься как надо. По-настоящему любой формат детектится только через попытку парсинга. На практике надо тип файла детектить по расширению, если контейнер - то парсить контейнер тоже, если тип запрещён - то ффтопку, если выглядит не запрещённым - то парсить безопасным парсером. Если не парсится - то ффтопку, если парсится - значит тот тип, что написан в расширении (даже если это химера). Либа имела бы существенную ценность для реверсинга, если бы была трансформером на индивидуальных битах и выдавала бы не тип файла, а тип данных (тип компрессии или кодировки, тип инта или тип флоата), а так это просто кусок хайпожорного дерьма, который на практике бесполезен.
> То есть засунув в начало, конец и середину нужные данные эту либу элементарно обманутьТак можно обмануть любой алгоритм определения типа файла. Хз, что ты хотел этим сказать.
Нет, обмануть сочетание расширения и структуры - нельзя. Расширение тебе говорит, что ты ожидаешь в файле найти. А парсер тебе говорит, нашёл ли ты именно то, что ожидаешь. И не используйте говнософт, который гадает, вместо того, чтобы полагаться на идентифкаторы. Особенно держитесь подальше от ImageMagick.
Сколько-сколько времени займёт распарсить 1 файл объёмом в несколько гигабайтов? А если у вас их гораздо больше одного, запасёмся вечностью?Почему местные опеннетные эксперты думают, что они умнее и осведомлённее инженеров фирмы, одного из лидеров планеты в области софтостроения? Это риторический вопрос, если что.
>Сколько-сколько времени займёт распарсить 1 файл объёмом в несколько гигабайтов1. Его не надо парсить целиком, написано же - верхнего уровня. Файл на много гигабайтов, если это не говно по типу тарбола, будет содержать хедер и таблицу с оглавлением. Вот она и есть структура верхнего уровня.
2. magicka продвигается как решение для безопасности для фильтрации типа файлов, допустимых для аплоада, чтобы типа на сайты не заливали под видом картинки переименованный PHP-скрипт, а потом его не инклюдили, или пиратскую книгу. При этом никакие адекватно написанные сайты magic не используют. Когда им заливают картинку, они её просто пытаются открыть через API для работы с тем типом картинки. Если не открывается - пользователь идёт в пешее. Если открывается - то делается миниатюра. Отсюда вопрос - какие форумы устроили такой аттракцион невиданной щедрости, что разрешают заливать многогигабайтные картинки?
> А парсер тебе говорит, нашёл ли ты именно то, что ожидаешьНу, и что именно ты ожидаешь, когда тебе подсовывают набор байт, который может являться файлом в одном из более чем 200 возможных форматов?
Ты не понимаешь, что несешь.
>когда тебе подсовывают набор байт, который может являться файлом в одном из более чем 200 возможных форматов?То есть у нас в мире всего 200 форматов? А я-то, дурачок, думал, что форматов бесконечно много, в том числе уникальные, о которых ты в принципе знать не можешь.
Вы неправильно формулируете задачу. У вас нет задачи узнать, в каком формате файл. У вас есть задача убедиться в том, что файл именно в том формате, какой вы от него ожидаете. Первая задача в принципе нерешаема. Вторая задача - это именно та, о которой идёт речь, когда речь заходит о безопасности, а гугл продвигает свою нейросеть как средство обеспечение безопасности. При этом под "безопасностью" понимать можно разные вещи.
1. проверить, что файл у нас такой, что его нельзя использовать для атаки на нашу систему. То есть залили PHP-скрипт под видом картинки, а дальше локальный инклюд. На самом деле так делают только дебилы, что возможность локального инклюда, что хранение картинок в папках, откуда их можно заинклюдить.
2. проверить, что пользователь не залил химеру (напр. рарджпег), что картинка - она не только с точки зрения ПО сайта картинка, но что в ней дополнительной нагрузки нет, а то ещё засунут пиратскую книгу в рарджпег, или GPG в JPEG, и к тебе как к владельцу сайта копирасты придут, или органы госбезопасности, и скажут willful blindness, не позаботился о государственном интересе в первую очередь, значит оказываешь врагам Короны aid and comfort, значит должен кучу денег или вообще вплоть до смертной казни. Это извращённый смысл слова "безопасность".При этом эта нейросеть в принципе не может обеспечить безопасность ни в каком из этих смыслов, так как нейросети подвержены adversarial-атакам. Если вы хотите защититься от первого случая, то вы попробуете файл распарсить так, как его парсят обычные реализации. Сначала по белому списку, а потом по чёрному.
Ежели вы хотите защититься от второго случая, то вы файл не просто распарсите, вы его просанитируете: создадите свой вариант файла, в который возьмёте только минимально возможную часть данных оригинального файла, а все данные, которые возьмёте - подвергните транформации, которая на вид файл изменит незначительно, но разрушит стеганографически закодированное сообщение. А чтобы не постили QR-коды, где стеганографии нет а сообщение закодировано явно - приделаете детектор QR-кодов. И модератора посадите отсматривать все картинки, чтобы за все подозрительные картинки, а заодно и запрещённые законом, нещадно банил.
> Напоминаю, что magicka работает через откусывание от файла блока из начала, конца и середины.Строгие парсеры также работают.
Нет, парсеры разбирают структуру хотя-бы верхнего уровня полностью, а не дают вердикт "кажется, байтики на exe похожи с вероятностью 0.9912345", хотя там хедер от какого-нибудь другого формата, просто поля метаданных подобраны чтобы нейросети казалось.
Строгий парсер ничего не кусает, он берёт и парсит весь файл. На то он и парсер.
> Строгий парсер ничего не кусает, он берёт и парсит весь файл. На то он и парсер.Где я могу увидеть этот "строгий парсер", работающий с более чем 200 форматами файлов?
Тебе не нужно 200 форматов поддерживать. Тебе нужно проверить, что конкретный файл в белом списке из максимум 10 форматов. Для этого ты берёшь либы для работы с этими форматами, и для каждой пишешь код, который этот файл пытается нелениво открыть этой либой.
>> Строгий парсер ничего не кусает, он берёт и парсит весь файл. На то он и парсер.
> Где я могу увидеть этот "строгий парсер", работающий с более чем 200
> форматами файлов?Один конкретный парсер парсит один конкретный формат. Не начало и конец, а весь файл.
Зашли с коллегой на их сайт в раздел DEMO
Файл a.sh (UTF-8) с содержимым что-то типа "sudo <cmd> <cmd params>".
Строк 4-5, ничего специфического.
Определило как "Batch" (виндовый .bat) и выдало score = 87%Как-то несолидно
> Sudo for Windows is a new way for users to run elevated commands (as an administrator) directly from an unelevated console session on Windows.А в Powershell давно есть алиасы для всяких cp/mv/rm. Так что не все так просто.
> Magika может точно определятьСказал - сделай )
PowerShell — не Batch. Это 2 разных языка так-то, и в последнем никаких псевдонимов типа cp/mv/rm нет.
> PowerShell — не Batch. Это 2 разных языка так-то, и в последнем
> никаких псевдонимов типа cp/mv/rm нет.Ну вот в Гугле не посчитали нужным их разделять
Поочередно кинул три файла Гимпа в формате xcf с какими-то своими каляками.
1) wav 19%, tiff 9%, psd 9%, vba 5%, hlp 5%
2) tar 21%, pebin 9%, mp3 6%, psd 6%, tiff 5%
3) wav 24%, hlp 16%, tiff 13%, jpeg 3%, psd 3%
> Поочередно кинул три файла Гимпа в формате xcfТак это и не удивительно.
Они скорее всего и не обучали сетку на каком-то маргинальном формате, который используется только в одной васяно-софтине.
Попробуйте на чем-то нормальном, напр. на файлах photoshop :)
Вот и всё, что нужно знать о "нейронках". :)
А теперь давай выкладывай свои каляки...
Вряд ли они в проде используют прям тоже самое.
Раст победил! Даже гугл отказался от go ради Раста! Только бездари не умеют в Раст. Где нужно думать головой, а не жо...й.
Жду, когда выпустят новую программу dir, которая отображает список файлов и директорий. Естественно нужно ,чтобы эта программа была обязательно на искусственном интеллекте и обучалась на типичных домашних каталогах пользователей.
Это будет клиент, который будет в Майкрософт отправлять ваши файлы, анализировать и сообщать клиенту, директория это или файл )))
"The client and the bindings are already open source, and more is coming soon!" Не понял, этой штуке что ли стабильный канал интернета нужен будет для работы?!
> Задействование методов глубокого машинного обученияА что, бывают ещё методы "мелкого" машинного обучения?))
> А что, бывают ещё методы "мелкого" машинного обучения?))Ну если сделаете "сетку" с малых количеством слоев, то будет не глубокое.
>> А что, бывают ещё методы "мелкого" машинного обучения?))
> Ну если сделаете "сетку" с малых количеством слоев, то будет не глубокое.А с какой величины заканчивается мелкое и начинается глубокое?))
Мне вот "глубокое" по ___й, а вам по колено будет :)
xgboost, например, рабочая лошадка всего нехайпового машоба.
> xgboost, например, рабочая лошадка всего нехайпового машоба.Это всё замечательно, но спрашивал я не о том и намекал вовсе на другое)) На случай, если кто не догадался - употребление прилагательных в техническом описании верный признак того, что вам пытаются в очередной раз что-то впарить. Есть просто машинное обучение. На самом деле оно конечно не обучение, а просто формирование базы данных с машиночитаемыми правилами под контролем операторов, но поскольку термин уже устоялся, то пусть будет машинное обучение. И если мы говорим о технических вещах, то уместно техническое же описание например модели. С конкретными параметрами. Если вы употребляете прилагательные, вроде "глубокое", то вслед за этим должна идти расшифровка, что под этим подразумевается - т.е. описание ваших критериев "глубокого" и "неглубокого". Без таковой расшифровки текст автоматически превращается в рекламу (чем данная новость и является). Т.е. в попытку всучить окружающим то, что им скорее всего не очень нужно, или вещи, характеристики которой не соответствуют заявленным.
В общем, будь бдителен, анон! Не ведись на рекламные разводки корпораций и любых других мутных личностей, которые пытаются на тебе нажиться.
> но поскольку термин уже устоялся, то пусть будет машинное обучение"Глубокое обучение" - это тоже давно устоявшийся термин в области машинного обучения.
> Если вы употребляете прилагательные, вроде "глубокое", то вслед за этим должна идти расшифровка, что под этим подразумевается
Нет, не должна, ибо если у человека не хватает ума загуглить информацию по интересующего его термину, то понять этот термин ума у него тем более не хватит. Ты это сейчас прекрасно подтвердил.
Причем, ЧСХ, к буквально второму предложению новости, где "языки программирования, методы сжатия, установочные пакеты, исполняемый код, виды разметки" у тебя подобных претензий нет: эти все термины "расшифровывать" не надо, ведь их опеннетный ProfessorNavigator понимает, а "машинное обучение" - нет.
Аноним прав, термин "глубокое" машинное обучение - это не более чем маркетинг )1) Искусственный интеллект (ИИ) — общая область.
2) Машинное обучение (ML) — подраздел ИИ.
3) Глубокое обучение (DL) — подраздел ML.Вся суть которого сводится к простой мысли, никакой аноним сам не сможет создать, и тем более обучить, сеть такой сложности. Поэтому должен нести бабло нам )))
> Вся суть которого сводится к простой мысли, никакой аноним сам не сможет создать, и тем более обучитьНет, к такой сути он никогда не сводился. Эту чушь придумали воины против ИИ и коварных корпораций. А твой "аноним" с Опеннета даже байесовский классификатор не осилит написать, лол.
> никакой аноним сам не сможет создать, и тем более обучить, сеть такой сложности
Не смеши меня. Есть целая тьма фреймворков, из которых любой васян с минимальными знаниями в ML и Python может клепать свои нейросети под личные нужды. На Гитхабе их тысячи. Про обучение тем более смешно: куча людей (в т.ч. буквально школьников) без упомянутых знаний ML/Python тренируют по пошаговым инструкциями готовые нейронки локально (в т.ч. для генерации и продажи rule 69 контента).
>Про обучение тем более смешно: куча людей (в т.ч. буквально школьников) без упомянутых знаний ML/Python тренируют по пошаговым инструкциями готовые нейронки локально (в т.ч. для генерации и продажи rule 69 контента).Эта "куча людей" - это детки миллионеров с аккаунтами на инстаграме, тик-токе и фейсбуке, посещёнными пространствами, куда вход строго по биометрии (напр. аэропорты и порты, где частные самолёты и яхты запаркованы), и окружением из таких же членов элиты. Как сынки миллионеров они яро лояльны действующим режимам, плотно под присмотром гебни, и никакие не анонимы в принципе. Тренируют они их не на своих компах, на арендованных кластерах AWS или Asure. В общем не Мойша, а Рабинович, не в покер, а в преферанс, не три
рубля, а полтинник, не выиграл, а проиграл.
"В Google система (magika) используется для классификации файлов в сервисах Gmail, Drive ..."Подсматривать нехорошо
Нехорошо. Но это если всем об этом рассказывать.
Но есть и плюс: можно создать нужный тебе "профиль" в гугле просто загружая нужную инфу.
Читаем условия пользования гуглоящиком.
> На MacBook Pro (M4) производительность движка позволяет обрабатывать около 1000 файлов в секунду.Это данные для блондинок? Может стоит написать параметры железа на тестах и тестовые данные дать, чтобы можно было желающим прогнать не на макпукпро? Не серьезно.
> Изначально проект развивался на языке Python, но при подготовке релиза 1.0 движок для определения типов контента был переписан на языке Rust, что позволило добиться более высокой производительности, сохранив должный уровень защищённости кода.Ловко сформулировано:
> сохранив должный уровень защищённости кода
То есть код на питоне безопаснее? Тут не спорим.
> что позволило добиться более высокой производительности
Какой? К сожалению никто не ответит, да и зачем манагерам лишать себя премии за ненужные переписывания. Такого ведь никогда не было. Ведь правда?
> Какой? К сожалению никто не ответитПрям в новости написано:
"После загрузки модели время формирования вывода составляет 5 мс при тестировании на одном ядре CPU"
"На MacBook Pro (M4) производительность движка позволяет обрабатывать около 1000 файлов в секунду"Вот paper с описанием в том числе производительности
VI. EVALUATION B. Speed
securityresearch.google/magika/2025_icse_magika.pdf> да и зачем манагерам лишать себя премии за ненужные переписывания.
Если вы реально думаете что питон был быстрее... ну что ж, кого только на опеннете нет.
> на одном ядре CPUНа одном ядре какого процессора?
Предположу, что какого-то серверного, скорее всего или Амл, или Интел. Но почему это важно?
Это в макбуке то?
> Но почему это важно?- Машина едет 300 км/ч.
- Какая и сколько стоит?
- Почему это важно?
>> Какой? К сожалению никто не ответит
> Прям в новости написано:
> "После загрузки модели время формирования вывода составляет 5 мс при тестировании на
> одном ядре CPU"Какой CPU? Почему только CPU учитываеся? Почему тест только на одном, если их больше одного?
> Вот paper с описанием в том числе производительности
> VI. EVALUATION B. Speed
> securityresearch.google/magika/2025_icse_magika.pdfКак локально тесты запустить, чтобы проверить?
>> да и зачем манагерам лишать себя премии за ненужные переписывания.
> Если вы реально думаете что питон был быстрее... ну что ж, кого
> только на опеннете нет.Питон остался. Раст для прокидывания параметров о чем явно в новости написано. Какая разница на чем это делать? На сколько быстрее? Где статистика? Верите наслово?
> ну что ж, кого только на опеннете нет.
>Какой CPU? Почему только CPU учитываеся? Почему тест только на одном, если их больше одного?А вы зачем спрашиваете?
>Как локально тесты запустить, чтобы проверить?Откройте оригинальную новость (на английском). Это не так сложно, как вы, наверное, думаете. А когда откроете, увидете ссылку на скачивание. Используйте её для того, чтобы скачать программу и начать ваше тестирование.
>>Как локально тесты запустить, чтобы проверить?
> Откройте оригинальную новость (на английском). Это не так сложно, как вы, наверное,
> думаете. А когда откроете, увидете ссылку на скачивание. Используйте её для
> того, чтобы скачать программу и начать ваше тестирование.Толсто. Тестовые данные то там есть?
>> Используйте её для того, чтобы скачать программу и начать ваше тестирование.
> Толсто. Тестовые данные то там есть?Выходит, у тебя нет даже минимального набора файлов, на котором ты мог бы использовать эту софтину на своем конкретном железе - но ты ринулся срывать с сабжа покровы? Опеннетная классика...
>>> Используйте её для того, чтобы скачать программу и начать ваше тестирование.
>> Толсто. Тестовые данные то там есть?
> Выходит, у тебя нет даже минимального набора файлов, на котором ты мог
> бы использовать эту софтину на своем конкретном железе - но ты
> ринулся срывать с сабжа покровы? Опеннетная классика...Выходит ты не читаешь сообщения, а сразу на них отвечаешь. Опеннетная классика...
Речь шла про мутные заявления о скорости в новости без указания специфики железа. Это ни разу не техническое обсуждение.
Ты прав нас просто пытаются обмануть.
Правильно, всегда надо знать, что за файл перед тобой.
ИИ: "Но это неточно".
сейчас использую из golang: https://github.com/gabriel-vasile/mimetype
довольно таки не плохо
Написано на Rust. Значит не взлетит. Вообще не понимаю, чего они так за этот недоязык цепляются? Есть же C, там где его возможностей не хватает(что бывает не часто) - C++, лучшее решение из существующих на рынке, для высокопроизводительных приложений.Мало того, тут даже их сказки о "безопасности" Ржавчины не прокатят. Приложение собирается с C-шной либой, а потому оно ничуть не безопасней, чем обычное C-шное.
> Написано на Rust. Значит не взлетит.Уже взлетело.
> C
> C++
> лучшее решение из существующих на рынке, для высокопроизводительных приложенийТо-то бенчмарки для суперкомпьютеров и научный софт для них же написан на Фортране.
> Приложение собирается с C-шной либой, а потому оно ничуть не безопасней, чем обычное C-шное.
Что, ложка Сишки портит всю бочку Раста? Бедный воин так воевал против Раста, что дескредитировал Сишку. 😂
Кстати, о каком конкретно приложении и сишной либе ты говоришь?
Конечно там же можно выйти за границу буфера.
подсунул EML файл, пожатый lz4.внутри такое. эта шляпа с уверенностью 93% сказала что EML (kgam)
˫^D^@<F8>0Received: from
Wed, 29 Jan
2025 11:53:10 +0300
<ED>^@^S<F0>^L[fe80::d58e:521d:b38f:170f]<FD>^@/
9^@^_C%14]^O^A<90>mapi id
<BF>^@^S0<C0>^@ESC0<C1>^@^
> подсунул EML файл
> сказала что EML
> шляпаГениальная логика. А что она должна была сказать?
>А что она должна была сказатьчем не нравится очевидное - lz4?
Ха-ха, zst не распознает. А обычный file - прекрасно распознал.
> ... Модель обучена с использованием фреймворка Keras на 100 ....Вот именно что Херас на 100.
Я не знаю, да и не хочу знать, какую грибную Магию там на чем писали и когда именно какие версии в прод выкатывали, но гугол драйв, нехороший, имеет свойство добавлять расширения файлам при скачивании свои.
закачивали example.properties а скачали example.properties.txtпотому что оно так решило, тип файла, ё@#&!
если погуглить, этому поведеню уже много лет, воспроизводиться как получиться, но присутствует точно.