Искусственный интеллект сегодня интегрируют повсюду: смартфоны с ИИ обещают предугадывать наши желания, холодильники сами заказывают еду, а умные кофеварки скоро начнут анализировать настроение хозяина перед варкой капучино. Но за всеобщим увлечением встаёт прагматичный вопрос: может ли ИИ реально помочь в задачах цифровой криминалистики — а именно, при переборе паролей? Идея звучит интригующе: использовать мощные языковые модели для генерации наборов правил и шаблонов, в первую очередь атакуя наиболее вероятные комбинации. Однако на практике всё оказывается куда сложнее.
Одним из самых известных проектов, применяющих генеративный ИИ к задаче подбора паролей, стала модель PassGAN, построенная на архитектуре GAN и обученная на утечках паролей. Исследователи утверждали, что использование сгенерированных моделью паролей в связке с Hashcat позволяет повысить эффективность атак на 51-73 % по сравнению с привычными атаками по словарю. Однако при попытках воспроизвести эти результаты в реальных условиях оказалось, что фактическая эффективность подхода составляет около 24 % — при этом значительная доля угаданных паролей просто совпадала с теми, что уже присутствовали в обучающем наборе. Последовавшая за этим волна критики остудила энтузиазм и во многом подорвала доверие к технологии.
Отметим, что на основе PassGAN были созданы и другие GAN-модели, такие как rPassGAN и другие вариации, в синтетических тестах демонстрировали преимущество (примерно на 10-15 %) над изначальной PassGAN, но всё равно уступали классическим подходам, основанным на таргетированных атаках, учитывающих особенности конкретного пользователя или группы пользователей.
Проект PassBERT, представленный на конференции USENIX в 2023 году, использует архитектуру трансформеров для анализа и генерации паролей на основе закономерностей. Авторы разработали несколько вариантов модели — от обобщённых до таргетированных, которые могут учитывать дополнительные параметры, включая метаданные. В тестовых сценариях такие модели действительно показали прирост эффективности — до 21 % по сравнению с классическими атаками. Однако даже сами исследователи подчёркивают: подобный успех возможен контролируемых условиях тестовой среды; в реальности структура паролей пользователя может не соответствовать паттернам, извлечённым из корпуса утечек.
Наряду с PassGAN и PassBERT существуют и другие решения, в которых пытаются применить ИИ для ускорения перебора паролей, однако и эти подходы пока не показали значимого прорыва в реальных условиях. Подобные решения часто страдают от переобучения на «мусорных» данных — например, одноразовых токенов или сессионных ключей, попавших в утечки. Кроме того, за редкими исключениями модели не способны учитывать индивидуальный контекст пользователя — а без этого предложенные моделью шаблоны становятся статичными, мало отличаясь от шаблонов, предлагаемых разработчиками классических инструментов для перебора паролей, в которых ИИ не используется.
Одна из главных причин, по которой современные модели ИИ плохие помощники в конструировании парольных атак в реальных условиях, кроется в тех данных, на которых они обучаются. Вспомним, к примеру, недавнюю утечку — нашумевшую компиляцию из 16 миллиардов записей. Фактически, эта и подобные базы — просто неотсортированные массивы данных, собранные без какой-либо системы или фильтрации. В них перемешаны осмысленные пользовательские пароли и пароли, сгенерированные менеджерами паролей (такие пароли используются для защиты ровно одной учётной записи и совершенно бесполезны в контексте обучающей выборки), сессионные токены, случайные строки, технические идентификаторы и другие данные, не имеющие никакой связи с повседневным поведением человека. LLM, воспринимая всё это как равнозначные примеры, начинают воспроизводить паттерны, которые не только бесполезны, но часто вредны для работы в реальных условиях.
Отдельной проблемой становится различие контекстов: в подборе паролей для онлайн-сервисов модель может угадывать типичные конструкции, которые пользователю не нужно ни запоминать, ни вводить его с клавиатуры, так как они автоматически подставляются браузером. Однако при работе с защищёнными файлами или дисками всё меняется — пользователь вынужден запоминать пароль и вводить его вручную. Такие пароли часто проще, эмоциональнее и ближе к личной биографии: это могут быть имена, даты, фразы, ассоциации, известные только самому владельцу. ИИ, обученный на миллионах строк из утечек, не способен предсказать такие индивидуальные ходы даже в теории.
Наконец, ещё одну сложность создаёт сам объём утечек, а точнее — их глобальный характер. Базы паролей собираются по всему миру и объединяют пароли, которые в разное время использовали люди из разных языковых и культурных сред. Но поведение китайского пользователя в 2015 году и российского в 2021-м будет различаться не только по символам, но и по логике мышления. Без учёта метаданных, без локального контекста и без понимания привычек конкретного человека даже самая мощная языковая модель, обученная на таких данных, становится бесполезной. Она умеет находить закономерности, но не сможет ни понять, ни предсказать пароль, который выбирает конкретный человек с конкретной биографией.
Несмотря на текущие ограничения, у ИИ всё же есть потенциал стать мощным инструментом в арсенале цифровой криминалистики — но только при условии качественного переосмысления подхода. Вместо универсальных моделей, обученных на глобальных утечках и создающих усреднённые словари, смотреть нужно скорее в сторону персонализированных атак, учитывающих контекст. Такая модель могла бы принимать на вход не только набор уже известных паролей пользователя, но и сопутствующие метаданные: имя, дату рождения, имена близких, названия файлов, страну проживания, город, названия местных достопримечательностей и улиц, известные привычки, язык интерфейса, временные рамки создания файла и прочее, возможно — расширяя запрос, дополняя и дописывая необходимое на основе уже имеющихся данных.
На этой основе ИИ создавал бы адаптивные шаблоны и правила мутации, специфичные именно для данного случая. Речь идёт о точечных, обусловленных контекстом предположениях, максимально приближённых к реальной логике конкретного пользователя. Если подобная система будет реализована, это может радикально изменить методы подбора паролей — сократив время атаки до часов, а объёмы перебора до обозримых величин. Такой подход откроет совершенно новую главу в цифровой криминалистике: уже не статистическую, а интеллектуально-интерпретативную. Однако на сегодняшний день эта задача остаётся нерешённой — её реализация слишком сложна и ресурсоёмка для индивидуальных лабораторий и разработчиков.
В сухом остатке следующее. Несмотря на впечатляющие заголовки и амбициозные заявления разработчиков, большие языковые модели пока не продемонстрировали реального прорыва в деле перебора паролей. Да, в синтетических тестах и лабораторных условиях результаты могут выглядеть впечатляюще — но при ближайшем рассмотрении и попытках использования в реальных, а не синтетических условиях ИИ, прямо скажем, не впечатляет. Обучение на неструктурированных, разнородных утечках, различия между онлайновыми и локальными паролями, а главное — отсутствие персонализации, делают текущие решения на основе LLM скорее полем для исследований, чем практическим помощником в практике цифровой криминалистики. Пока что ИИ в деле перебора паролей — больше интересная идея, чем рабочая технология. Возможно и даже вероятно, что со временем ситуация изменится, но на сегодняшний день ответ на вопрос «может ли ИИ помочь во взломе паролей?» остаётся скорее отрицательным.
Производительное решение для восстановление паролей к десяткам форматов файлов, документов, ключей и сертификатов. Аппаратное ускорение с использованием потребительских видеокарт и лёгкое масштабирование до 10,000 рабочих станций делают решение Элкомсофт оптимальным для исследовательских лабораторий и государственных агентств.
Официальная страница Elcomsoft Distributed Password Recovery »