Скандальные утечки: есть ли польза в миллиардах паролей?

23 июня, 2025, Oleg Afonin
Рубрика: «Разное»

В новостях снова бьют тревогу: в сеть «утекли» 16 миллиардов паролей, включая доступы к Apple, Google и другим крупным сервисам. Волна публикаций моментально вызвала панику; посыпались дежурные советы срочно сменить пароль. Однако уже через пару дней профильные источники уточнили: «утечка» — это всего лишь агрегат старых баз, логов инфостилеров и множества дубликатов. По сути, давно известные данные просто собрали «до кучи». У специалистов, занимающихся подбором паролей к зашифрованным документам и контейнерам, закономерно возникает вопрос: можно ли использовать такие «мегасборники» с реальной пользой в лабораторной практике? Краткий ответ — скорее нет, чем да. Но в перспективе ситуация может измениться.

Откуда «16 миллиардов»?

20 июня 2025 года Forbes опубликовал громкий материал о том, что в сеть «утекли» 16 миллиардов паролей — якобы включая учётные данные к Apple, Google, Facebook и другим крупным сервисам. Заголовок звучал максимально тревожно, как и сопроводительный текст: «проверьте свои аккаунты», «немедленно меняйте пароли», «никто не в безопасности». На первый взгляд — масштабная катастрофа, сопоставимая с крупнейшими инцидентами в истории информационной безопасности.

Однако уже через пару дней стали появляться трезвые разборы. BleepingComputer и CyberNews изучили источники и быстро уточнили: «утечка» не имеет отношения к новым взломам. Вся база представляет собой агрегат — гигантскую компиляцию из старых публичных сливов, логов, собранных троянами-инфостилерами, и дубликатов. Это не единая база с каким-то внутренним смыслом, а просто большой объём неотсортированных данных, собранный в одном архиве.

Формально 16 миллиардов записей действительно есть — но это не 16 миллиардов актуальных паролей, а общее количество строк в базе. Какого-либо верифицированного подтверждения актуальности данных нет, и даже попытки разложить содержимое по сервисам наталкиваются на хаотичность структуры. За громкими заголовками — всё та же старая информация, перепакованная и поданная в новом формате.

Что внутри?

База содержит логины и пароли, куки, строки автозаполнения браузера, а также случайные обрывки текста из буфера обмена. Попадаются данные системных учётных записей, сетевые пароли, даже ключи к Wi-Fi. Многие записи — устаревшие, часть не содержит паролей вовсе, а значительная доля представляет собой части автозаполнения или бессмысленные строки. По «прямому назначению» базу использовать нельзя: большая часть данных устарела, часть — мусор, некоторая доля — сессионные ключи и одноразовые пароли. В криминалистической практике такие сборники имеют довольно низкую ценность сами по себе; применять их «в лоб» для подбора паролей к документам или контейнерам бессмысленно.

Словари: когда миф сталкивается с реальностью

В контексте подбора паролей до сих пор жив устойчивый миф: чем больше словарь — тем выше шансы на успех. На практике всё наоборот. Наиболее популярны словари класса «топ-100» или «топ-10k», которые действительно показывают заметный результат — но только на самых первых шагах. Простой словарь из тысячи распространённых паролей может дать условные 10-15% вероятности успеха; расширение до 10 тысяч — условные 20%. А вот скачок до миллиона даёт прибавку в лучшем случае на полпроцента, при этом на несколько порядков увеличивает время перебора — время, которое можно потратить с большей пользой. Что уж говорить о многогигабайтных сборниках на сотни миллионов строк, гуляющих по сети — они бесполезны почти полностью.

Причина проста: универсального словаря не существует. Пароли, когда они основаны на словаре, — это отражение повседневных привычек пользователя, языка, местной культуры, профессионального жаргона. Один пользователь защищает ZIP-архив паролем «password123», другой ставит фамилию кота или сетевое имя рабочего компьютера. Более того, широкое распространение менеджеров паролей, которые теперь встроены в каждый браузер, привело к тому, что пароли к архивам документам часто не похожи на те, что человек использует в интернете: они короче, более запоминаемы и сильнее привязаны к контексту.

Поэтому эффективная стратегия — не гоняться за объёмом, а использовать адаптивные словари, созданные на основе собранных у конкретного пользователя артефактов: пароли из браузера, списки файлов, имена пользователей, география, любые «офлайновые» данные — такие, как памятные даты и клички животных. Именно такие словари работают в реальных случаях. А массовые утечки, пусть даже в объёме «16 миллиардов», помогают в подборе паролей к конкретному контейнеру не больше, чем просто случайные комбинации слов.

Комбинации: словарь + мутации

В подборе паролей важен не столько объём словаря (словарь из 16 миллионов вхождений бесполезен чуть более, чем полностью), сколько его качество и то, что с ним делать. Простая комбинация двух слов, взятых из обычного словаря английского (или родного для пользователя) языка, числа и спецсимвола может сработать лучше, чем гигабайты слитых паролей. Здесь на первый план выходят мутации — алгоритмические преобразования слов: добавление цифр, замена букв, удвоения, вставки дат, использование жаргонных терминов и т. д. Вариантов много. Один подход — взять небольшой, качественный словарь, составленный под конкретного пользователя, и прогнать его через агрессивные мутации. Другой — использовать словарь английского (или, опять же, родного для пользователя) языка, но с простыми, «жизненными» модификациями: использование заглавных букв там, где они чаще всего встречаются в реальных паролях, добавление года, символа, стандартных окончаний.

Ресурсы лаборатории — не бесконечны. И по времени, и по вычислительной мощности всегда есть предел. Поэтому лучше всего работает адаптивная стратегия: начать с минимума, со словаря из топ-10000 утёкших паролей, потом переходить к более сложным атакам — и внимательно отслеживать результат, с каждым шагом наращивая объём словаря или глубину мутаций — пока не истечёт отведённое на попытку время. Иногда и простой перебор «слово+год» даёт результат за пару минут, а иногда не помогает ничего.

А есть ли статистика?

Оценить эффективность словарей и мутаций количественно — задача практически невыполнимая. В открытом доступе нет больших коллекций зашифрованных файлов с известными паролями, на которых можно было бы сравнивать стратегии перебора. Даже если собрать тысячу таких документов, они вряд ли отразят разнообразие реальных кейсов: язык, формат, мотивацию пользователя, контекст защиты. В итоге любые оценки вроде «топ-10k даёт 20% успеха», включая наши собственные, — это исключительно эмпирические наблюдения, а не строгая статистика.

Реальную полезность словарей можно понять только через собственную практику. В лабораторных условиях важно фиксировать, какие комбинации словаря и мутаций сработали для конкретного пользователя, сколько времени занял подбор, сколько итераций потребовалось. Такие внутренние заметки постепенно формируют неофициальную, но ценную базу знаний — с учётом специфики задач, оборудования и профиля дел. Статистика здесь не в процентах, а в понимании того, что работает именно у вас.

Заглянем в будущее: LLM вместо гигабайтных словарей

А можно ли натравить на огромные базы вроде тех самых 16 миллиардов паролей какую-нибудь нейросеть?

Представим сценарий: вместо того чтобы использовать сырой массив паролей для прямого перебора, мы «скармливаем» его крупной языковой модели (LLM), обученной находить паттерны и формулировать обобщённые правила. Модель выделяет повторяющиеся структуры, группирует пароли по признакам (например, «имя + год», «две короткие части + спецсимвол», «телефонный номер с заменами») и строит набор кластеров, каждый из которых описывает определённый тип поведения пользователя. Выделив самые популярные кластеры, модель автоматически генерирует набор правил мутаций, которые уже в обычной утилите подбора паролей (без ИИ) можно применить к компактному базовому словарю.

С одной стороны, такая схема кажется вполне реалистичной. Подобный подход снимет необходимость в переборе десятков миллионов строк: достаточно будет небольшой стартовой базы и правил, позволяющих эффективно охватить «похожее». По сути, мы получим адаптивный движок подбора, заранее оптимизированный под самые вероятные группы паролей. Более того, в рамках специализированных моделей PasswordGAN или PassBERT подобный подход уже пытались реализовать. В бенчмарках всё выглядело прекрасно, но при использовании предложенного подхода в реальных лабораториях результат оказался… разочаровывающим. И это неудивительно. В утечках содержится множество «мусорных» данных — таких, как сессионные ключи или уникальные, случайные пароли, сгенерированные в момент регистрации сервисов; обучать LLM на таких данных не только бессмысленно, но и контрпродуктивно. Следующий момент — различия между паролями, которые пользователи используют для защиты онлайновых учётных записей (с учётом того, что такие пароли будут храниться в браузере и подставляться автоматически) — и теми паролями, которые пользователю придётся вводить вручную каждый раз для расшифровки файла или разблокирования диска. Наконец, выяснилось, что глобальный характер утечек, не учитывающий региональных и других особенностей разных групп пользователей, заметно искажает картину, и создаваемые искусственным интеллектом правила не отражают паттернов создания паролей у конкретных пользователей.

Скорее всего, рано или поздно будет создана модель, способная принять на входе как реальные пароли пользователя, так и набор метаданных из дела (таких, как год рождения, имена, возможные памятные даты и так далее) — и уже на их основе создать короткий набор таргетированных правил. На сегодняшний день это — задача скорее для исследовательской группы или крупного проекта, чем для отдельной лаборатории, но идея уже витает в воздухе. И если появится инструмент, способный из списка паролей пользователя или даже из одних метаданных сделать набор из таргетированных правил мутаций — это может стать прорывом в переборе паролей.

Выводы и руководство к действию

Увы, но «серебряной пули» здесь не будет. На практике погоня за объёмом словаря оказывается ловушкой: рост числа слов почти не даёт прироста эффективности, зато ощутимо увеличивает время перебора и требуемые ресурсы. Огромные сливы паролей из интернета, несмотря на внушительный масштаб, плохо приспособлены для задач локального перебора — таких, как расшифровка документов, архивов или контейнеров. Здесь гораздо важнее точечная работа: словарь должен быть тематическим, собранным с учётом контекста конкретного дела, языка, окружения и цифровых следов самого пользователя. Простой пример — извлечение имён, дат, терминов или сленга из пользовательских файлов, переписки или истории браузера. Эффективность также заметно повышается при использовании адаптированных мутаций — тех, что соответствуют региональным привычкам записи паролей, частым заменам символов и прочим особенностям ввода. Важно понимать, что мутации могут быть как распространёнными — например, даты или заглавные буквы, — а есть такие, которые используются только в узких нишах. Второй тип мутаций использовать не стоит за пределами своих ниш. И, наконец, важным элементом становится обратная связь: анализ успешных (и неуспешных) переборов, накопление внутренней статистики, корректировка методик под реальные результаты. Именно такая стратегическая настройка даёт наилучший результат — без гигабайт «мусорных» словарей и слепого перебора.

EDPR, password recovery, passwords