Bytedog: российская нейросеть нового поколения для поиска вирусов

В России разработали интеллектуальную систему нового поколения для поиска вредоносного кода. Нейросеть ByteDog, созданная компанией Positive Technologies, показывает в среднем на 20% более высокую точность обнаружения вирусов по сравнению с традиционными моделями машинного обучения, применяемыми в кибербезопасности.

Главное отличие ByteDog в том, что ей не требуется предварительная подготовка данных. Если ранее специалисты вынуждены были "разбирать" файлы на составные части - выделять опкоды, фрагменты кода, структуру импортируемых модулей и другие признаки, по которым модель затем училась находить вредоносное ПО, - то новая нейросеть работает напрямую с исходным содержимым файла. Она анализирует его сразу в виде последовательности байтов, без ручной разметки и сложной предобработки.

Такая архитектура делает ByteDog первой в своём классе системой в России и Европе: ИИ ориентирован не на текст или изображения, как многие популярные модели, а на бинарные данные. Разработчики использовали архитектуру типа "трансформер", которая лежит в основе современных больших языковых моделей, но перенастроили её под задачу анализа машинных кодов и исполняемых файлов.

Одной из ключевых инженерных проблем стала длина анализируемых данных. Языковые модели обычно ограничены контекстом порядка десятков или сотен тысяч токенов, тогда как размер реальных файлов легко достигает миллионов байт. Поместить такие объёмы целиком в модель нельзя, поэтому ByteDog обучили работать по-другому: она делит файл на фрагменты, проводит анализ по частям, а затем агрегирует полученные результаты в целостную оценку. В итоге система способна проверять документ полностью, не теряя общий контекст.

Важный практический плюс ByteDog - отсутствие необходимости в графических ускорителях на этапе применения модели. Обучение, естественно, требует мощной инфраструктуры, но готовая нейросеть спроектирована так, чтобы работать на обычных процессорах. Это открывает возможность интеграции ИИ непосредственно на конечные устройства: персональные компьютеры, корпоративные рабочие станции и даже смартфоны. Для бизнеса это означает, что продвинутый анализ кода можно перенести ближе к пользователю, не полагаясь только на облачные сервисы.

Отдельное внимание разработчики уделили способности ИИ выявлять неизвестные ранее угрозы. Классические сигнатурные антивирусы и многие ML-модели хорошо работают с уже изученными образцами вредоносного ПО, но зачастую "слепнут", когда сталкиваются с новым, ранее не описанным семейством вирусов. ByteDog же учится распознавать скрытые закономерности в структуре байтов и поведенческих паттернах, что позволяет ей замечать подозрительные объекты, даже если конкретная вредоносная программа ещё ни разу не попадала в базы.

Практический пример: сотруднику компании приходит файл, маскирующийся под обычный счёт или договор. Традиционному антивирусу нужно распаковать архив, разобрать внутреннюю структуру, проанализировать макросы или исполняемый код. ByteDog пропускает эти шаги и рассматривает объект как "сырую" последовательность байтов. За счёт обучения на огромном массиве реальных киберинцидентов модель научилась замечать характерные аномалии даже в сложной обфускации и многоуровневой маскировке.

Обучение и тестирование новой нейросети заняли около года и проводились на данных реальных атак и инцидентов информационной безопасности. При сравнении с классическими моделями машинного обучения для поиска вредоносного кода ByteDog продемонстрировала не только более высокую точность - преимущество в среднем составило около 20%, - но и сопоставимую или лучшую скорость анализа. Для систем защиты это критично: обнаружение угрозы должно происходить ещё до того, как пользователь успеет открыть файл или программа начнёт выполняться.

В планах компании - интегрировать ByteDog во все ключевые продукты и сервисы по обнаружению киберугроз. Нейросеть может стать "мозгом" для систем защиты рабочих станций, шлюзов электронной почты, систем мониторинга трафика и аналитических платформ, которые расследуют инциденты постфактум. Ожидается, что благодаря единому ИИ-ядру удастся повысить качество обнаружения атак на всех уровнях инфраструктуры - от конечной точки до центра мониторинга безопасности.

Развитие таких систем меняет сам подход к антивирусной защите. Традиционно индустрия опиралась на базы сигнатур и поведенческие правила, которые создаются аналитиками вручную. Теперь акцент смещается в сторону моделей, которые способны "самостоятельно" находить закономерности и обновлять своё понимание вредоносной активности по мере поступления новых данных. В долгосрочной перспективе это может сократить время реакции на появление новых семейств вредоносного ПО: вместо недель и месяцев на анализ и разработку сигнатур достаточно будет переобучить модель на свежих инцидентах.

Для российских компаний и госструктур появление локальной ИИ-системы такого уровня даёт ещё одно преимущество - технологический суверенитет в сфере кибербезопасности. Критически важные инструменты обнаружения атак не завязаны на зарубежные решения и могут развиваться с учётом местной специфики: используемого ПО, характерных для региона сценариев атак, требований регуляторов. Это особенно важно на фоне роста кибершпионажа и таргетированных атак на инфраструктуру.

ByteDog также иллюстрирует более широкий тренд: слияние классического антивируса и современных нейросетей. Если раньше ИИ в кибербезопасности часто ограничивался вспомогательными функциями - фильтрацией спама, приоритизацией инцидентов, - то теперь он становится главным инструментом анализа низкоуровневых данных. Это повышает порог входа для киберпреступников: приходится не просто менять сигнатуры, а усложнять саму логику вредоносных программ, чтобы запутать обученную модель.

Отдельного внимания заслуживает тот факт, что ByteDog работает именно с байтовыми последовательностями, а не с высоким уровнем представления кода. Это значит, что система менее уязвима к некоторым трюкам злоумышленников: смене языка программирования, перестановке блоков кода, переупаковке файлов и другим видам модификаций, которые традиционно помогают обойти сигнатурные проверки. Модель учится видеть общие шаблоны, свойственные вредоносным программам, даже если они зашифрованы или упакованы.

Для конечного пользователя преимущества такого подхода могут проявиться в более раннем и точном предупреждении об угрозах. Снижается риск ложноположительных срабатываний, когда безопасные файлы ошибочно помечаются как опасные, и одновременно повышается вероятность "поймать" сложные целевые атаки. В корпоративном сегменте это напрямую конвертируется в снижение простоев, потерь данных и затрат на ликвидацию последствий инцидентов.

Можно ожидать, что в ближайшие годы подобные ИИ-модели будут всё активнее внедряться не только в антивирусы, но и в смежные области: анализ сетевого трафика, обнаружение аномалий в поведении пользователей, защиту облачной инфраструктуры. Опыт ByteDog показывает, что архитектуры, изначально созданные для обработки человеческого языка, эффективно адаптируются и к задачам понимания "языка машин" - бинарного кода и сетевых протоколов. Для рынка кибербезопасности это означает переход к более интеллектуальным и проактивным системам защиты, которые учатся вместе с атакующими и способны противостоять всё более изощрённым угрозам.

Прокрутить вверх