Оборудование лаборатории: на чём хранить данные?

29 ноября, 2024, Oleg Afonin
Рубрика: «Разное»
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Важной частью оборудования в любой лаборатории являются устройства для сбора и хранения данных, которые будут извлекаться из исследуемых устройств и накопителей. Эти устройства можно разделить на две категории: быстрые накопители, используемые для снятия образа данных и его последующего анализа, и ёмкие (как правило – многодисковые) хранилища для долговременного хранения и архивирования данных. К этим двум категориям предъявляются совершенно разные требования.

Важно: при работе с цифровыми данными должны соблюдаться установленные законом требования по организации и обеспечению безопасности персональных данных с использованием криптосредств.

Накопители для промежуточного хранения и анализа данных

Для быстрого извлечения данных и последующей работы с ними рекомендуем использовать максимально скоростные твердотельные накопители. На сегодняшний день ценовой разброс между накопителями SATA и NVME минимален, поэтому имеет смысл использование последних в силу их значительно более высокой скорости. В статье Снятие образа диска: тестируем скорости копирования NVMe мы описали сложности, возникающие при снятии образов данных с быстрых накопителей, и сделали вывод: в качестве целевого (то есть, того, на который будут записываться извлекаемые данные) должен использоваться быстрый накопитель, объём которого (это важно!) превышает объём накопителя, из которого извлекаются данные.

Типы накопителей

К накопителям, использующимся с целью сохранения образа данных и/или последующей работы с данными, предъявляются специфические требования. В первую очередь это объём (должны поместиться как образ извлечённых данных, так и, в зависимости от программы для анализа, их распакованный вариант) и скорость.

Что касается скорости, у твердотельных накопителей с интерфейсом NVME здесь нет конкуренции, однако и NVME-накопители бывают разные; их паспортные характеристики редко соотносятся с реальными требованиями, которые предъявляют к таким накопителям специалисты. Реальная скорость работы твердотельного накопителя зависит от множества параметров; вот лишь основные из них.

Объём накопителя

Как правило, более объёмные накопители имеют и более высокие скорости записи как в силу большего свободного места (а значит, и кэширующего буфера), так и в силу увеличенного параллелизма (то есть, числа каналов, по которым ведутся параллельные операции). Однако встречаются и удивительные исключения. Так, диски Crucial MX500 объёмом 4ТБ работают медленнее, чем диски той же линейки объёмом 2ТБ: в моделях используются совершенно разные платформы, а объём динамической памяти (DRAM) в «старшей» модели был урезан. В результате мы не можем рекомендовать модель Crucial MX500 4TB. Похожая ситуация и с дисками Patriot Viper VP4300 Lite: на фоне замечательной и очень быстрой модели объёмом 2ТБ компания выпустила вариант на 4ТБ, в котором заменила быструю и качественную память TLC на дешёвую и очень медленную (скорость записи после заполнения буфера – всего около 200 МБ/с) разновидность QLC.

Наконец, моделей объёмом более 4 ТБ немного, и подавляющее большинство из них использует память типа QLC – медленную и ненадёжную. Исключений – считанные единицы (к примеру, накопитель Lexar LN790 8TB – чрезвычайно дорогой накопитель, использующий качественную память TLC).

Тип памяти: TLC и QLC

Коротко: современные микросхемы долговременной памяти могут работать в различных режимах. В режиме SLC каждая ячейка может хранить один бит информации, MLC – два бита (к сожалению, производители «испортили» это обозначение, ведь “M” означает “Multi”; по этой причине маркетологи выпускают на рынок «профессиональные» модели, маркированные как “MLC” – и фактически являющиеся TLC или QLC разновидностями).

В режиме TLC в ячейку помещается три, а в режиме QLC – четыре бита информации. Очевидно, что с увеличением плотности растёт и объём накопителя – без дополнительных затрат со стороны производителя. Обратная сторона роста плотности ячеек – резкое (почти на порядок) снижение скорости записи, ресурса (количества циклов перезаписи) и надёжности долговременного хранения данных.

На сегодняшний день накопители MLC (два бита на ячейку) практически не встречаются; большая часть хороших NVME SSD построена на памяти 3D TLC. Однако в компьютерах, которые продаются «в сборе» (особенно – фирменных и особенно – ноутбуках) очень часто попадаются OEM-накопители с памятью QLC. Мы не рекомендуем использовать такие накопители в качестве целевых: за пределами относительно небольшого буфера (его объём может составлять от сотни гигабайт до четверти свободного объёма) запись будет происходить исключительно медленно даже по сравнению с традиционными магнитными дисками. Кроме того, у накопителей QLC серьёзно ограниченный ресурс (количество циклов перезаписи, которые выдерживает память), а у изношенных экземпляров могут возникать проблемы с долговременным хранением данных. В результате не окупается никакая экономия, даже двукратная (хотя подобных скидок не даст на QLC накопители ни один производитель).

Вывод: при выборе NVME-накопителя приобретайте только модели с памятью 3D TLC; моделей с QLC избегайте всеми силами.

Динамическая память (DRAM)

Наличие или отсутствие микросхем динамической памяти (DRAM) может повлиять на стоимость накопителя, однако влияние DRAM на скорость работы SSD зависит от условий, в которых тот используется.

Для чего накопителю динамическая память? Вопреки устоявшемуся мнению, предназначение DRAM-буфера не в том, чтобы кэшировать данные (хотя и эту роль он способен выполнять). В оперативной памяти накопителя хранятся динамические таблицы переадресации, которые устанавливают соответствие между логическими адресами и физическими блоками памяти. Эти соответствия постоянно переназначаются в силу работы алгоритмов распределения износа, сборки мусора и очистки блоков, которые операционная система пометила как свободные командой Trim; возможность быстрого обращения к таблицам существенно ускоряет операции случайного доступа, но слабо влияет на последовательные чтение и запись.

Для встроенных накопителей (то есть, таких, которые подключены напрямую в слот M.2 материнской платы компьютера) наличие микросхемы DRAM увеличит скорость случайного доступа к данным, а её отсутствие – снизит, но не так сильно, как можно было бы ожидать: современные накопители NVME поддерживают технологию HMB (Host Memory Buffer), которая позволяет использовать небольшой объём (десятки МБ) оперативной памяти компьютера для компенсации отсутствия собственной памяти. Технология работает, и за пределами синтетических тестов разницы между качественными накопителями с DRAM и без неё вы, скорее всего, не заметите.

Ситуация меняется при установке накопителя во внешний корпус с протоколом USB. В этом случае у накопителей без DRAM-буфера не будет возможности использовать HMB (эта технология работает только c прямым подключением в слот M.2), и таблицы переадресации будут каждый раз считываться из микросхем NAND. Соответственно, скорость случайного доступа существенно просядет; в то же время скорость операций последовательного чтения и записи практически не изменится.

Вывод: степень полезности DRAM-буфера прямо зависит от сценария использования. Примеры накопителей с DRAM: Samsung 970 Evo Plus, Samsung 980 Pro, Samsung 990 Pro, Kioxia G2, Crucial P5. Примеры накопителей без буфера: Lexar NM790, Samsung 980 (без Pro), Samsung 990 Evo Plus.

Внешние корпуса

Допустимо использовать твердотельные накопители, установленные во внешние корпуса и подключаемые через скоростной порт класса USB3.2 Gen2 (10 Гбит/с) или более скоростные варианты. В последнее время распространение получили модели с поддержкой протоколов USB4 и Thunderbolt 4; их допустимо использовать как со скоростными, так и с менее скоростными портами. Некоторые модели обладают отличным теплоотводом, что позволяет использовать их в качестве расширения стационарной ёмкости компьютера.

В то же время многочисленные модели на чипах RTL9210B, обеспечивающие скорости до 10 Гбит/с, чрезвычайно доступны и экономичны; их нагрев минимален, что позволяет добиться адекватного охлаждения даже в компактных корпусах. Дополнительное преимущество моделей на этом чипе – поддержка как NVME, так и SATA накопителей в форм-факторе M.2 любой размерности.

В целом, накопители для промежуточного хранения и анализа данных должны быть максимально быстрыми и обладать достаточным объёмом. Скорее всего, вам понадобится несколько таких накопителей, каждый из которых удобно установить в собственный внешний корпус.

Цифровой архив: накопители для долговременного хранения информации

К устройствам долговременного хранения информации предъявляются другие требования, одним из которых является надёжность, которую, в свою очередь, обеспечивает избыточность.

Важно: хранение цифровых улик должно осуществляться в соответствии с установленными законом требованиями по организации и обеспечению безопасности персональных данных с использованием криптосредств.

Для надёжного долговременного хранения информации часто используют многодисковые устройства, такие как NAS (Network Attached Storage) или SAN (Storage Area Network). Эти системы предназначены для обеспечения безопасности данных, высокой доступности и масштабируемости. Одним из ключевых аспектов таких систем является обеспечение избыточности, позволяющей защитить данные в случае отказа одного или нескольких накопителей.

Рекомендуем заранее обдумать требуемые объём хранилища и степень его отказоустойчивости. От этого будет зависеть как выбор моделей (в том числе – количества отсеков для дисков), так и числа и объёма накопителей, которые будут установлены в систему. Мы не будем рекомендовать конкретные модели накопителей, однако рекомендуем придерживаться следующих правил.

  1. Запланируйте расширение. Имейте в виду, что проще всего расширить объём хранилища, добавив к нему ещё один диск того же объёма, что и уже установленные. Таким образом, имеет смысл приобретать NAS с избыточным числом отсеков (например, модель на 24 отсека).
  2. Приобретайте диски максимального объёма, который укладывается в бюджет. Объём дисков стоит рассчитывать, исходя из желаемого объёма хранилища (с учётом избыточности) и требований к отказоустойчивости. На сегодняшний день имеет смыл конфигурация из 6 или более дисков по 22 ТБ (доступные объёмы постоянно растут; больше в данном случае – лучше), организованная в массив RAID-6, который впоследствии можно расширить дополнительными дисками по 22 ТБ.
  3. Устанавливайте только диски, рассчитанные для работы в условиях центров по обработке данных. К таким относятся линейки WD Ultrastar, Seagate Exos, Toshiba MG. Выбор конкретного производителя зависит от ваших предпочтений; мы предпочли диски семейства Toshiba MG.
  4. Чтобы выбрать максимально надёжную модель жёстких дисков, рекомендуем изучить статистику отказа дисков на сайте Backblaze. Средний процент отказавших за год накопителей составил у компании 1.89%; соответственно, модели с более высокими показателями отказов являются менее надёжными, и наоборот. Обратите внимание, что процент отказа вычисляется для конкретной модели и отличается даже для разных моделей одного и того же производителя и одной и той же ёмкости в силу различий в конструктивных особенностях.
  5. При анализе статистики (например, за третий квартал 2024) обращайте внимание не только на долю отказов по каждой модели, но и на количество установленных дисков и общее время их работы в компании. Так, компания зафиксировала 2.45% отказов накопителей Toshiba 16TB MG08ACA16TEY, однако средний возраст этих накопителей – 34 месяца. В то же время у модели Toshiba 16TB MG08ACA16TA процент отказов 1.84%, но средний возраст модели ниже – 16.3 месяца. С ростом возраста диска растёт и вероятность его отказа, что иллюстрируют данные по модели Seagate ST12000NM007 с 11.77% отказов (средний возраст 58.4 месяца) – что, тем не менее, практически вдвое выше показателя HGST HUH721212ALN604 (средний возраст 63.7 месяца).

Требования к устройствам долговременного хранения:

  1. Надёжность
    Данные должны оставаться доступными и целостными даже в случае сбоя оборудования или выхода из строя одного или нескольких накопителей.
  2. Масштабируемость
    Возможность расширить объём хранения без ущерба надёжности.
  3. Доступность
    Минимальное время простоя при отказах или восстановлении.
  4. Эффективность
    Оптимальное использование доступного дискового пространства при соблюдении требований к надёжности.

Для обеспечения этих требований используются технологии RAID-массивов; чаще всего используются массивы классов RAID-5 (для небольшого количества дисков со стандартной отказоустройчивостью) или RAID-6 (для многодисковых систем с повышенной отказоустойчивостью).

Отказоустойчивость массивов RAID-5 и RAID-6

RAID-5 представляет собой массив из трёх или более жёстких дисков, в котором данные и контрольные суммы равномерно распределяются между всеми накопителями. В случае выхода из строя одного диска массив остаётся работоспособным, так как данные могут быть восстановлены на основе контрольных сумм.

Преимущества:

  • Экономия пространства: избыточность достигается с использованием одного диска независимо от общего количества дисков.
  • Высокая скорость чтения: параллельный доступ к данным с нескольких дисков.

Недостатки:

  • Уязвимость при двойном отказе: если выходят из строя два диска одновременно, данные будут утеряны.
  • Длительное время восстановления: при восстановлении данных нагрузка на оставшиеся диски возрастает, увеличивая риск дополнительного сбоя с последующей потерей данных.

RAID-5 подходит для систем с умеренными требованиями к надёжности и доступности, в которых используется ограниченное (6 или менее) количество дисков.

RAID-6 допускает без потери данных выход из строя двух накопителей, что требует создания массива из как минимум четырёх дисков.

Преимущества:

  • Более высокая надёжность по сравнению с RAID-5: массив выдерживает два одновременных отказа дисков.
  • Подходит для крупных систем с большим количеством накопителей, где вероятность одновременных отказов выше.

Недостатки:

  • Более высокая стоимость: для создания избыточности используется большее количество дисков.
  • Снижение производительности записи: вычисление и запись двух блоков контрольных сумм требуют больше времени.

RAID-6 предпочтителен для систем с повышенными требованиями к отказоустойчивости.

Шифрование данных и хранение ключей

В этой статье мы не будем подробно останавливаться на организационно-технических методах защиты данных при использовании сетевых хранилищ; отметим лишь тот факт, что многие производители сетевых хранилищ, целевой аудиторией которых являются частные лица и офисы небольших компаний, реализуют шифрование методом «для галочки». Так, в сетевых хранилищах Synology включение шифрование тома (для которого используется стойкое шифрование AES-256 в реализации LUKS) автоматически сохраняет ключ шифрования на системном разделе всех дисков массива. Соответственно, расшифровка таких «защищённых» томов тривиальна, и данная реализация ни в каком приближении не защищает данные. Избежать такого сценарии можно, если использовать выделенное устройство Synology только для удалённого хранения ключей других сетевых хранилищ – что автоматически означает необходимость приобретения ещё одного устройства компании.

Рекомендуем внимательно изучить не только алгоритмы шифрования выбранного вами сетевого хранилища, но и подсистему хранения и управления ключами шифрования. Где хранится ключ? Требуется ли его вводить после перезагрузки устройства или же он подгружается автоматически – и в последнем случае, откуда берётся ключ? (Если с того же устройства, то такая схема ненадёжна).

Некоторые модели многодисковых хранилищ

Возможно, в вашей организации уже установлено то или иное решение по долговременному хранению данных. Как правило, в качестве таких решений выступают многодисковые хранилища, смонтированные в стойку. В то же время в небольших лабораториях могут использоваться и относительно небольшие хранилища, предназначенные, скорее, для офисного использования.

Обычно мы не даём универсальных рекомендаций по выбору производителей или моделей сетевых хранилищ, однако хотим поделиться собственным опытом использования некоторых моделей на 6, 8 и 12 дисков.

Qnap TL-D800C: восьмидисковый корпус с интерфейсом USB3.2 Gen2 (10 гбит/с). Все диски видны и адресуются по отдельности; массив RAID, если в нём есть необходимость, требуется собирать программными средствами. Эта модель отличается от большинства недорогих многодисковых корпусов существенно более надёжным контроллером USB, что позволяет использовать её как для постоянной работы, так и для монтирования в данном корпусе дисков, извлечённых из исследуемых сетевых хранилищ. По собственному опыту использования мы можем рекомендовать эту модель.

Qnap TL-D800S: специфический восьмидисковый корпус с высокой (24 гбит/с) скоростью доступа. Для подключения к компьютеру требуется установить в компьютер карту расширения PCIe (поставляется в комплекте). Длина комплектных кабелей – 1 метр, а кабели большей длины могут не обеспечить стабильной передачи данных. Все диски не только видны и адресуются по отдельности, но и выглядят для операционной системы как локальные диски, подключённые через контроллер PCIe. Модель специфическая; отлично подходит для случаев, когда нужна максимальная скорость доступа к многодисковому массиву – но исключительно для одного компьютера.

Synology DS1621+: модель с шестью отсеками для дисков. Хорошо подходит для организации 6-дискового массива RAID-5, однако возможности расширения ограничены. Подходит для использования в условиях лаборатории; блок питания встроен, достаточно надёжен и обладает активной вентиляцией. 4 гигабитных порта Ethernet, более скоростные (до 10 гигабит) сетевые карты могут быть установлены в слот PCIe. Поддерживается доступ через SMB и iSCSI (эмуляция локального накопителя через сетевое соединение). В нашей лаборатории продемонстрировала долгосрочную стабильность и надёжность.

Synology DS1821+: модель, аналогичная по характеристикам с предыдущей, за исключением восьми дисковых отсеков вместо шести. Хорошо подходит для создания массива RAID-6 из восьми дисков с двойной избыточностью, однако возможности расширения также ограничены. Если планируется использовать меньшее количество дисков, рекомендуем остановиться на этой модели, т. к. свободные слоты позволят в дальнейшем расширить оригинальный массив, установив дополнительные диски. В нашей лаборатории модель также продемонстрировала высокую надёжность.

Synology DS2422+: аппаратная платформа AMD Ryzen Embedded V1500B и 12 отсеками для дисков. У модели с двенадцатью слотами есть ряд существенных отличий по сравнению с двумя предыдущими. Во-первых, не поддерживаются кэширующие NVME-накопители (производитель предлагает использовать с этой целью пару обычных слотов для дисков). Однако самым важным ограничением стала совместимость с жёсткими дисками: модель официально совместима только с дисками с маркировкой Synology (их реальный производитель – Toshiba). Поскольку доступность таких дисков низкая, а цена – кратно выше по сравнению с оригиналами Toshiba, можно сделать вывод о попытке производителя увеличить собственную прибыль за счёт введения искусственных ограничений. Использование «несовместимых» дисков возможно, однако в интерфейсе системы не будет выводиться информация о «здоровье» дисков (данные S.M.A.R.T.); также будет отключена система предупреждений о начинающихся у дисков проблемах.


  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
НАШИ НОВОСТИ