Какие ssd по категории и надежности. На высоких скоростях: испытание накопителей NVMe на выносливость

В рамках материала «Разные SSD: а есть ли разница? », в котором было протестировано несколько моделей SSD и HDD различного класса, мы на примере реальных пользовательских операций продемонстрировали отличия между этими устройствами. С момента публикации прошло почти полтора года – срок по меркам компьютерной индустрии немалый.

Что изменилось за это время? Да практически все. Цены – ушли вниз. Ассортимент – перетрясен производителями почти полностью, по причине снижения цен и необходимости адекватного (новой ценовой политике) сокращения себестоимости. Под понятием «бюджетный класс» теперь подразумевается конфигурации на TLC NAND, а найти в начальных строчках прайс-листов магазинов что-то на основе памяти MLC NAND является самой настоящей проблемой. Класс решений флагманского уровня, тот, которым мы его видели еще года полтора назад – на грани вымирания. Теперь под «флагманским» понимается решение не форм-фактора 2.5" с интерфейсом SATA 6 Гбит/с, а форм-фактора M.2 с интерфейсом PCI-Express 3.0 x4.

Хорошим примером этого может служить череда действий Toshiba OCZ в последние месяцы: OCZ Vector 180 (2.5" SATA) снят с производства, флагманом теперь выступает Toshiba OCZ RD400 (PCI-E 3.0 x4), OCZ Vertex 460A на 19 нм памяти заменен на Vertex 500 (Toshiba OCZ VT500) на более дешевой 15 нм памяти, а под нижним ценовым сегментом теперь понимается не относительно новый Trion 150 (у которого оставлены объемы 480 Гбайт и более), а недавно анонсированный TL100 , в основе которого лежит еще более упрощенная платформа, нежели Phison S10.

Иначе говоря, если раньше производители лавировали в относительно узких рамках одного типа памяти MLC NAND и одного форм-фактора, то в 2016 году простор для их маневров стал больше, а «шаг в массы» интерфейсов PCI-Express 3.0 и NVMe дополнительно расширил ассортимент решений.

Но есть ли разница между ними на практике? Как показывает практический опыт пользователей, ситуация с работой и полноценной загрузкой нынешних мощностей и сегодня довольно унылая. Благодаря нашим постоянным партнерам – магазину Регард и компаниям-производителям, мы вновь проясним ситуацию, сравнив разные модели накопителей между собой.


Обзор и тестирование SSD-накопителя SmartBuy Splash 120 Гбайт (SB120GB-SPLH-25SAT3)

Торговая марка SmartBuy продолжает удивлять. Совсем недавно мы протестировали SmartBuy S11-2280T, аналогов которого вообще нет (это единственное решение на контроллере Phison PS3111-S11), а теперь в ее ассортименте появился еще один оригинальный накопитель, получивший название SmartBuy Splash. И в его основе также лежит экзотичный контроллер – на сей раз Marvell 88NV1120, который среди представленных в отечественной рознице моделей более не встречается.

Немного суровой реальности, пинающей маркетинг, или матчасть тоже надо знать

Гонка за экстремальной скоростью

«Ребята, без обид, но я понимаю, почему Россия в тупике – из-за таких экспертов, как вы».
Реакция пользователя на совет участников форума не пытаться
собирать RAID-массив из двух Samsung SM951 на LGA 1151.

Данную цитату я привел из своего личного опыта общения. Увы, именно так: люди додумываются ваять чудесные конструкции, совершенно не утруждаясь разбором технической сути. Затем различными «шаманскими плясками» пытаются заставить работать этого «Франкенштейна», споря с окружающими и не веря их словам о том, что подобный замысел даже технически (не говоря уже о финансовой стороне вопроса) является глупостью. И заставив-таки эту конструкцию подавать признаки жизни, пользователи с удивлением узнают, что результат не соответствует их ожиданиям и… снова начинают поиск виноватых.

Конкретно тот пользователь пытался собрать RAID-массив «нулевого» уровня из двух твердотельных накопителей с интерфейсом PCI-E 3.0 x4 на материнской плате, основанной на наборе системной логики Intel Z170. Суть в том, что оба SSD он хотел установить в разъемы, подключенные именно к Intel Z170. Изучение блок-диаграммы этого чипсета покажет несбыточность мечты о возможности получения скоростей чтения в районе 4.2 Гбайт/с (суммирование возможностей двух SM951 на линейных операциях).

Дело в том, что сам набор системной логики сообщается с процессором посредством третьей версии шины Direct Media Interface (DMI), которая технически является модифицированным объединением четырех линий PCI-Express 3.0 с соответствующей пропускной способностью около 3.93 Гбайт в секунду. Мало того, часть этой пропускной способности задействуется для потребностей периферии – сетевого контроллера, SATA- и USB-портов и прочего.

Единственный выход в случае LGA 1151 – установка микросхемы-коммутатора типа PLX, которая подключается к CPU и задействует линии от него, но такие платы из-за себестоимости подобного инженерного решения очень дороги. По величинам цифр на ценниках они фактически уже начинают пересекаться с платформой LGA 2011-v3, где подобной проблемы нет просто в силу того, что на ней от процессора отходит больше линий PCI-Express (от 28 до 40, в зависимости от модели ЦП, против 16 у LGA 1151).

Так для чего же производители устанавливают по два (а то и больше) разъема M.2 на системных платах с процессорным разъемом LGA 1151? Ответ прост: подобное отлично подходит для раздельной эксплуатации накопителей, когда обращение идет только к одному SSD, а не всем одновременно; для установки иных плат расширения (уже можно приобрести, например, Wi-Fi-адаптеры). Никто не отменял и факта существования таких SSD, как, например, недавно представленный Intel SSD 600p, модификация которого объемом 128 Гбайт обеспечивает лишь до 770 Мбайт/с на чтении и 450 Мбайт/с – на записи. Что, между прочим, сопоставимо с двухлетней давности Plextor M6e с двумя линиями интерфейса PCI-E (причем еще версии 2.0).

Причем помимо собственно нагрузки существует и так называемый «служебный трафик», который есть всегда, в результате чего реальная пропускная способность оказывается ниже. И, как показывает практика, в реальности на LGA 1151 удается получить не больше 3.4-3.5 Гбайт в секунду, да и те практически в «лабораторных условиях» – при минимизации нагрузки на все остальные элементы системы и аккуратном подборе конфигурации тестовой системы. Наиболее реальными же оказываются и вовсе 3.1-3.2 Гбайт.

Но один вариант для систем LGA 1151 все-таки есть: устанавливать PCI-E SSD так, чтобы они были подключены раздельно к процессору и к набору системной логики. В этом случае будет доступен лишь вариант программной сборки средствами самой операционной системы, но это на самом деле непринципиально по одной простой причине: на материнских платах потребительского класса в принципе нет RAID-контроллеров.

Да, именно так: все операции на «бытовых» системных платах выполняются драйвером на программном уровне с использованием ресурсов центрального процессора. Подобный тип программных массивов даже носит неофициальное название «FakeRAID». Настоящий же RAID-контроллер включает собственный микропроцессор (зачастую с немалым тепловыделением), кэш-память, цепь питания для защиты данных в случае незапланированного отключения питания и еще ряд элементов обвязки.

Суммарная стоимость такого устройства выше, чем у большинства материнских плат, не говоря уже про сам набор системной логики, а потому модели вроде ASRock Z87 Extreme11/ac , где применены LSI SAS 3008 и LSI SAS 3x24R вкупе с флеш-памятью, являются своего рода эксклюзивом.

В погоне за копейкой

Вторая половина 2015 – начало 2016 года ознаменовались тем, что память TLC NAND стала в твердотельных накопителях поистине массовым явлением. Компания Samsung лишилась своей «монополии», причем практически сразу выделилось два дуэта, противостоящих друг другу: память Toshiba с контроллерами Phison и память SK Hynix с контроллерами Silicon Motion.

На первый дуэт ставку сделали более именитые бренды вроде Kingston, Toshiba OCZ, Corsair и ряда других. Второй в решениях более-менее популярных брендов оказался только в ассортименте ADATA, все остальное – множество китайских и малоизвестных у нас (да и не только у нас) компаний.

Недавно состоялся выход на сцену флеш-памяти с вертикальной компоновкой, разработанной концерном Micron и Intel (IMFT), фактически более-менее полноценно присутствует на рынке только один накопитель на ней – Crucial MX300, но, судя по всему, сложившаяся расстановка в целом не поменяется и тут – Toshiba и Western Digital (SanDisk) готовят свою 3D V-NAND.

Несмотря на явное противостояние, эти платформы очень близки как по маркетинговой составляющей, так и по аппаратной идеологии. Накопители на их основе позиционируются на данный момент как решения начального и среднего уровня, а суть работы их фактически идентична.

При том, что TLC NAND обладает меньшей себестоимостью в производстве, она также обладает и своими недостатками. В частности это достаточно медленная память, и на операциях записи уровень ее быстродействия не выдерживает никакой критики. Чтобы такие накопители все же могли предложить достойные показатели, применяется ухищрение: часть массива памяти работает в «ускоренном» режиме записи (иногда его называют «псевдоSLC»).

В итоге современные модели на TLC NAND, за редким исключением, даже будучи небольшого объема (~120-128 Гбайт) несут в своих официальных спецификациях указание скоростей записи примерно 400-550 Мбайт/с – именно благодаря SLC-режиму.

Но объем данных, который накопитель способен записать на такой высокой скорости, обычно невелик и в зависимости от объема SSD может начинаться с приблизительно 2 Гбайт у самых младших модификаций.

Другое дело, что подобное поведение отнюдь не всегда бросается в глаза просто из-за того, что копирование действительно больших объемов данных – ситуация, возникающая не так часто. Не совсем приятно наблюдать скорость копирования чуть ли не на уровне совсем уже старых моделей HDD.

Первая «ступенька» – кэширование Windows. Вторая – SLC-кэш. Нижняя «полка» – реальная скорость работы Zenith R3 120 Гбайт за пределами SLC-кэша.

На самом деле вполне реален еще один сценарий, при котором могут себя проявлять нехватка SLC-буфера и низкая скорость записи вне него: установка игр с большим объемом занимаемого места.

Вообще, твердотельные накопители на TLC NAND наиболее оптимально смотрятся именно в больших объемах: и ресурс чисто за счет объема становится избыточным, и размер SLC-буфера (который обычно задается в процентах от объема SSD) достаточно велик. Да и сам массив памяти набирается таким количеством кристаллов NAND, что скорость записи и вне SLC-буфера вырастает до достойных значений. К примеру, емкость кристаллов планарной TLC NAND производства Toshiba, SK Hynix и Micron сейчас составляет 128 Гбит, несложно подсчитать, что для построения массива 128 Гбайт нужно 8 кристаллов, а массив 512 Гбайт набирается уже 32-мя кристаллами.

Кстати о ресурсе. Это еще один краеугольный камень знания матчасти. На самом деле, вопреки распространенному мнению, ресурс выражается не только численным показателем (сколько именно данных может быть записано на накопитель до первых сбоев), но еще и сохранностью этих данных. Как сохраняются данные во флеш-памяти? Хранятся они в ячейках в виде заряда, и существует такой физический процесс, как «перетекание заряда» в соседние ячейки. В конце концов ячейка памяти просто перестает корректно считываться. И чем сильнее изношены ячейки памяти, тем активнее и быстрее протекает этот процесс. Только что записанные данные могут отлично читаться, а вот через некоторое время уже начинаются проблемы.

Для решения этой задачи инженерами активно разрабатываются новые алгоритмы коррекции ошибок, но это лишь отодвигает планку, когда считанное из ячейки памяти становится недешифруемым, иначе говоря, «мусором». В какой-то момент микропрограмма контроллера может принять решение о перезаписи трудночитаемых данных для «освежения» заряда, но «благодаря» алгоритмам «выравнивания износа» с большой долей вероятности новые ячейки, куда данные будут перенесены, окажутся ничуть не лучше. И в какой-то момент по мере износа процесс потери ячейками заряда станет просто лавинообразным.

Ключевое здесь: время. Именно в этом кроется ошибочность подавляющего большинства тестов на износ, которые проводятся различными изданиями и отдельными энтузиастами: только что записанные данные могут читаться отлично, но через некоторое время (неделю, две, три) может оказаться иное, особенно если массив памяти уже изношен. И в этом основная сложность: полноценный правильный тест будет длиться слишком долго. Не говоря уже про классику статистики, понятие «репрезентативность выборки»: как правило, тестируется один-два образца, а не разные из нескольких партий. Иначе говоря, можно наткнуться как на экземпляры с флеш-памятью из неудачной партии, так и на накопители, в которые попала отменно удачная партия флеш-памяти. Ещё раз подчеркнём, что под понятием «время» имеется в виду действительно заметный срок, а не несколько дней (как поднимали панику некоторые интернет-ресурсы). Вопрос сроков рассмотрен в этом материале .

Да и сам тип памяти – это еще не приговор. На самом деле немалое влияние на ресурс накопителя оказывают специфические особенности отдельных контроллеров и платформ в целом. Наиболее известный пример из последних – контроллер Silicon Motion SM2246XT. У него есть такое свойство: он хорошо ведет себя только в том случае, если на накопителе есть хотя бы 10% свободного места, иначе резко увеличивается WA (Write amplification, причем у отдельных образцов мне доводилось наблюдать WA ~1300-1500) и накопитель в прямом смысле умирает через несколько месяцев эксплуатации. И от того, что в паре с этим контроллером используется MLC NAND (TLC не поддерживается SM2246XT), легче не становится. Зато нелюбимые многими контроллеры SandForce, благодаря реализованной в них компрессии данных, в некоторых условиях (например, при офисной работе) могут обеспечить себе двукратное превосходство в ресурсе по сравнению с другими контроллерами с той же флеш-памятью.

Именно поэтому тесты на износ в том виде, в каком их сейчас проводят, являются не абсолютной истиной, а лишь косвенным показателем возможностей накопителей и не более. Хотя за неимением лучшего приходиться довольствоваться и этим.

Безопасно ли хранить файлы на SSD?

Начнём с предыстории. SSD-накопители вышли на сцену в тот момент, когда компания Intel представила новую архитектуру процессоров Nehalem и одновременно объявила о том, что "узким местом" в новых ПК отныне являются не процессоры, а жёсткие диски, производительность которых, в самом деле, практически не прогрессировала. На форуме для разработчиков (IDF, Intel Developer Forum) 2008 года в Сан-Франциско компания Intel показала первые твердотельные диски и указало на те причины, вследствие которых обычные жёсткие диски снижают производительность системы с новым процессором Core i7. Три года спустя многочисленные тесты серийных SSD подтвердили, что твердотельные накопители действительно раскрывают потенциал новых процессоров, существенно повышая производительность системы.

Но производительность - далеко не единственный показатель для устройства хранения данных. Когда дело доходит до ваших данных, даже самый быстрый накопитель в мире ничего не стоит, если вы не можете быть уверены в том, что он может надёжно хранить информацию.

Данная тема ещё более актуальна сейчас, в связи с массовым переходом к техпроцессу 25 нм. Более тонкий техпроцесс предполагает снижение стоимости производства NAND-памяти, поэтому тенденция закономерна, и даже на 25 нм ячейках процесс не остановится.

За последние два года Intel дважды переходила на более тонкий техпроцесс NAND-памяти для SSD-накопителей: с 34 нм на 25 нм и с 25 нм на 20 нм

Вместе с тем, инженерам всё труднее преодолевать проблемы с памятью, произведённой по технологии 25 нм. Но нынешние покупатели всё ещё могут рассчитывать на лучшую производительность и надёжность новых твердотельных накопителей, по сравнению с предыдущим поколением. Снижение количества циклов перезаписи ячеек, обусловленное переходом на более тонкий техпроцесс, приходится как-то компенсировать.

Тип SSD Гарантированное число циклов перезаписи Общее количество записанных Тбайт (по формуле JEDEC) Ресурс накопителя (10 Гбайт/день, WA = 1,75)
25 нм, 80 Гбайт 3000 68,5 Тбайт 18,7 лет
25 нм, 160 Гбайт 3000 137,1 Тбайт 37,5 лет
34 нм, 80 Гбайт 5000 114,2 Тбайт 31,3 лет
34 нм, 160 Гбайт 5000 228,5 Тбайт 62,6 лет

Таким образом, не нужно переживать по поводу количества циклов перезаписи, которые способен выдержать ваш SSD. Для предыдущего поколения твердотельных накопителей, где применялась NAND-память, изготовленная по 34-нм техпроцессу, гарантированное число циклов перезаписи составляло 5000. Иными словами, вы можете записывать и стирать ячейку NAND 5000 раз до тех пор, пока она не начнёт терять способность сохранять данные. Исходя из того, что среднестатистический пользователь пишет, максимум, 10 Гбайт в день, потребуется примерно 31 год, чтобы диск пришёл в негодность.

Для нового поколения SSD с 25-нм памятью продолжительность жизни диска составляет около 18 лет. Конечно, здесь мы очень упрощаем реальное положение вещей. Такие специфические для SSD проблемы, как усиление записи (write amplification), сжатие данных и сборка мусора могут влиять на реальный результат. Тем не менее, понятно, что нет веских причин сразу после покупки SSD-диска начинать отсчитывать часы до того момента, когда ему придёт конец.

С другой стороны, мы точно знаем, что некоторые SSD-накопители уже пришли в негодность. В этом легко убедиться, изучив данный вопрос на форумах или в отзывах интернет-магазинов. Но проблема в данном случае заключается не в исчерпании ресурса ячеек. Как правило, к выходу диска из строя приводит ошибка прошивки. Нам известны случаи, когда производители настоятельно рекомендуют подвергнуть новый диск перепрошивке, что способствует повышению надёжности, а иногда и заметному улучшению производительности накопителя.

Ещё одна причина выхода из строя SSD связана с электронной начинкой. Конденсатор или чип памяти могут прийти в негодность, что приводит к поломке диска. Конечно, мы ожидаем меньшего количества подобных проблем, по сравнению с обычными HDD, имеющими движущиеся детали, которые неизбежно выходят из строя по истечении определённого времени.

Но правда ли, что отсутствие движущихся деталей делает твердотельный накопитель надёжнее диска на магнитных пластинах? Этот вопрос волнует всё большее число компьютерных энтузиастов и IT-специалистов. Именно он заставил нас проанализировать реальную надёжность SSD, чтобы отделить факты от беллетристики.

Что мы знаем о накопителях?

SSD - относительно новая технология (во всяком случае, по сравнению с жёсткими дисками, возраст которых приближается к 60 годам). Таким образом, нам предстоит сравнить новый тип накопителей с технологией, проверенной временем.

Но что мы реально знаем о надёжности обычных жёстких дисков? На этот вопрос проливают свет два важных академических исследования.

В 2007 году компания Google обнародовала исследование надёжности 100 000 дисков потребительского уровня с интерфейсом PATA и SATA, применявшихся в дата-центрах Google.

Примерно в то же время доктор Бианка Шредер (Bianca Schroeder) совместно с экспертом доктором Гартом Гибсоном (Garth Gibson) провели расчёт частоты замены более 100 000 накопителей, которые применялись в одной из крупнейших национальных лабораторий США.

Разница между этими двумя исследованиями лишь в том, что во втором случае в исследовании участвовали накопители с интерфейсом SCSI и Fibre Channel, а не только PATA и SATA.

Тем, кто хочет более детально ознакомиться с результатами академических изысканий, мы советуем прочитать хотя бы второй - в 2007 году этот аналитический отчет был признан лучшим на конференции File and Storage Technologies (FAST ’07) в США. Если чтение подобных источников не входит в ваши планы, мы приводим здесь ключевые моменты, непосредственно затрагивающие интересующий нас вопрос.

Средняя наработка до отказа (MTTF)

Если речь идёт об измерении надёжности накопителя, можно вспомнить о таких двух показателях, как средняя наработка на отказ (MTBF - Mean Time Between Failures), под которой понимается среднее время между отказами, а также средняя наработка до отказа (MTTF - Mean Time To Failure), ключевым отличием которой является допущение, что после отказа система не может быть восстановлена.

Вот что пишет на этот счет Википедия:

В английском языке используется термин MTBF (Mean Time Between Failures) - среднее время между отказами или наработка на отказ, а также MTTF (Mean Time To Failure) - средняя наработка до отказа. Следует заметить, однако, что публикуемые величины MTBF/MTTF часто основываются на результатах ускоренных испытаний - в течение ограниченного времени, позволяющего выявить преимущественно долю производственного брака. В таком случае, заявленное значение MTBF говорит не столько собственно о надёжности, и тем более не о долговечности, сколько о проценте забракованных изделий. Например, MTBF порядка 1 млн/ч для жёсткого диска, очевидно, не означает 114 лет непрерывной безотказной работы - и не только потому, что эксперимент такой продолжительности не мог быть проведён, но и потому, что сам производитель назначает ресурс (срок службы) не более 5-10 лет и гарантийный срок 1-5 лет.

Рассмотрим в качестве примера накопитель Seagate Barracuda 7200.7, который имеет заявленный показатель наработки на отказ 600 000 часов.

В любой крупной выборке накопителей половина этих дисков выйдет из строя в первые 600 000 часов работы. Так как статистика отказов HDD в крупной выборке распределена относительно равномерно, следует ожидать, например, что каждый час будет выходить из строя один диск. При таком значении MTBF можно расчитать частоту отказов за год (Annualized Failure Rate, AFR), которая составит 1,44%.

Но исследования Google и доктора Бианки Шредер выявили совсем иные показатели. Дело в том, что число вышедших из строя накопителей не всегда соответствует количеству дисков, которые подлежали замене. Вот почему Шредер измеряла не рейтинг отказов (AFR), а интенсивность замены накопителей (Annualized Replacement Rate - ARR). Рейтинг ARR основывается на реальном количестве накопителей, заменённых согласно данным сервисных журналов:

В то время, как значение AFR по даташитам варьируются от 0,58% до 0,88%, наблюдаемые показатели замены дисков ARR составляют от 0,5% до 13,5%. Таким образом, наблюдаемый показатель ARR, в зависимости от конфигурации накопителей и их типа, может быть до 15 раз выше, чем значения AFR в соответствии с даташитами.

Производители жёстких дисков определяют число отказов иначе, чем это делаем мы, а потому не удивляет, что данные, которые они приводят, не соответствуют реальной надёжности накопителей. Обычно рейтинг MTBF определяется на основе ускоренного тестирования, информации о возврате винчестеров или с помощью тестирования отобранных дисков. Данные о возврате накопителей - весьма сомнительная информация. Как утверждает Google, "мы сталкивались... с ситуациями, когда тест накопителей давал "зелёный свет" дискам, которые неизбежно отказывали на практике".

Статистика отказов HDD по времени

Большинство пользователей считает, что график кривой отказа HDD имеет форму ванной. Вначале мы ожидаем, что многие диски выходят из строя вследствие так называемой "детской болезни", то есть различного рода заводских недоработок и непосредственно процесса "обкатки". Затем, по завершении начального периода, процент отказа дисков должен быть минимален. Наконец, в конце предполагаемого срока службы, кривая отказа HDD неотвратимо ползёт вверх, так как детали накопителя имеют определённый ресурс. Подобный ход мысли, который представляется вполне логичным, отражён на следующем графике.

Но этот график не соотвествует реальному положению вещей. Исследования Google и доктора Бианки Шредер показали, что отказы HDD с течением времени стабильно увеличиваются.

Надёжность дисков Enterprise-класса

При сравнении двух исследований можно представить, что показатель 1 000 000 MTBF для диска Cheetah намного ближе к заявленным в даташите MTBF 300 000 часов. Это означает, что накопители "потребительского" и Enterprise-класса имеют примерно одинаковый процент ежегодного выхода из строя, особенно когда сравниваются диски примерно равного объёма. Как утверждает директор по техническому планированию компании NetApp Вал Берцовичи (Val Bercovici), "... то, как дисковые массивы справляются с соответствующими отказами жёстких дисков, продолжает создавать в восприятии потребителя точку зрения, что более дорогие диски должны быть более надёжными. Одна из грязных тайн данной индустрии заключается в том, что большинство дисков Enterprise-класса состоит из тех же компонентов, что и накопители потребительского класса. Тем не менее, их внешние интерфейсы (FC, SCSI, SAS и SATA) и, что более важно, специфические особенности firmware, оказывает наибольшее влияние на поведение дисков потребительского и Enterprise-класса в реальных условиях" .

Безопасность данных и RAID

Исследование Шредер охватывает диски Enterprise-класса, задействованные в больших RAID-массивах одной из крупнейших лабораторий по высокопроизводительным вычислениям. Как правило, мы ждём, что хранение данных в RAID-конфигурациях обеспечивает более высокий уровень безопасности, но отчёт Шредер обнаружил нечто удивительное.

Распределение времени между заменами диска показывает снижение частоты отказов, что означает, что ожидаемый промежуток времени до очередной замены диска постепенно увеличивается с тех пор, как был заменён предыдущий диск.

Таким образом, отказ одного накопителя в массиве повышает вероятность отказа другого накопителя. Чем больше времени прошло с последней замены диска, тем больше времени пройдёт до замены другого. Конечно, это имеет последствия с точки зрения реконструкции RAID-массива. После первого отказа в четыре раза возрастает вероятность того, что вы столкнётесь с очередным выходом диска из строя в течение того же часа. В пределах 10 часов вероятность отказа диска увеличивается только в два раза.

Температура


Ещё один неожиданный вывод можно сделать из отчёта Google. Исследователи брали показатели температуры SMART (Self-Monitoring, Analysis and Reporting Technology) – технологии, которую поддерживает большинство жёстких дисков. И обнаружили, что более высокая температура накопителя никак не коррелирует с более высокой частотой отказов. Судя по всему, температура оказывает воздействие на надёжность старых накопителей, но и в этом случае эффект не столь значителен.

Технология SMART - действительно умна?

SMART по-английски означает "умный", но действительно ли данная технология контроля состояния винчестера справляется со своей функцией? Если ответить кратко, то нет. Технология SMART создавалась для того, чтобы сообщать об ошибках диска достаточно рано для того, чтобы вы могли осуществить резервное копирование данных. Однако, согласно отчёту Google, более трети вышедших из строя накопителей не включили режим тревоги SMART.

Данный факт особо не удивляет, так как многие специалисты годами подозревали нечто подобное. В действительности, технология SMART оптимизирована на обнаружение механических неполадок, в то время как основную часть функциональности жёсткого диска обеспечивает электронная начинка. Вот почему некорректная работа HDD и неожиданные проблемы, вроде внезапного отключения питания, остаются незаметными для SMART до тех пор, пока не возникают ошибки, связанные с целостностью данных. Если вы рассчитываете на то, что SMART сообщит вам о грядущем выходе диска из строя, всё равно необходимо обеспечить дополнительный уровень защиты, если вы хотите быть уверены в сохранности данных.

Теперь посмотрим, как в противостоянии с жёсткими дисками ведут себя SSD-накопители.

Кратко о надёжности SSD

К сожалению, ни один из производителей жёстких дисков не публикует данные о возврате, но это же относится и к производителям SSD. Тем не менее, в декабре 2010 сайт Hardware.fr представил отчёт по частоте отказов HDD, полученный от родительской компании LDLC, являющийся одним из лидеров компьютерного ритейла во Франции. На сайте имелся следующий комментарий относительно того, как они рассчитывали данный показатель:

Частота возврата охватывает накопители, проданные между 1 октября 2009 и 1 апреля 2010, возвраты которых состоялись до октября 2010, то есть период эксплуатации составлял от 6 месяцев до года. Статистика по производителям основана на минимальной выборке от 500 экземпляров, а по моделям - на минимальной выборке от 100 экземпляров.

Как можно понять, речь идёт не об интенсивности отказов, а о количестве возвратов. Возможно, языковой барьер ответственен за то, как интерпретировали данный факт англоязычные IT-издания. Такие сайты, как Mac Observer и ZDNet недостаточно корректно обозначили эти данные как "частоту отказов", вероятно, основываясь на автоматическом переводе Google.

Модели дисков Статистика возвратов
Hitachi Deskstar 7K1000.B 5,76%
Hitachi Deskstar 7K1000.C 5,20%
Seagate Barracuda 7200.11 3,68%
Samsung SpinPoint F1 3,37%
Seagate Barracuda 7200.12 2,51%
WD Caviar Green WD10EARS 2,37%
Seagate Barracuda LP 2,10%
Samsung SpinPoint F3 1,57%
WD Caviar Green WD10EADS 1,55%
WD Caviar Black WD1001FALS 1,35%
Maxtor DiamondMax 23 1,24%
WD Caviar Black WD2001FASS 9,71%
Hitachi Deskstar 7K2000 6,87%
WD Caviar Green WD20EARS 4,83%
Seagate Barracuda LP 4,35%
Samsung EcoGreen F3 4,17%
WD Caviar Green WD20EADS 2,90%
SSD-диски
Intel 0,59%
Corsair 2,17%
Crucial 2,25%
Kingston 2,39%
OCZ 2,93%

Жёсткие диски объёмом 1 Тбайт
Модели дисков Статистика возвратов
Samsung SpinPoint F1 5,20%
WD Caviar Green (WD10EADS) 4,80%
Hitachi Deskstar 7K1000.C 4,40%
Seagate Barracuda LP 4,10%
WD Caviar RE3 WD1002FBYS 2,90%
Seagate Barracuda 7200.12 2,20%
WD Caviar Black WD1002FAEX 1,50%
Samsung SpinPoint F3 1,40%
WD Caviar Black WD1001FALS 1,30%
WD Caviar Blue WD10EALS 1,30%
WD Caviar Green WD10EARS 1,20%
Жёсткие диски объёмом 2 Тбайт
Hitachi Deskstar 7K2000 5,70%
WD Caviar Green WD20EADS 3,70%
Seagate Barracuda LP 3,70%
WD Caviar Black WD2001FALS 3,00%
WD Caviar Green WD20EARS 2,60%
WD Caviar RE4-GP WD2002FYPS 1,60%
Samsung EcoGreen F3 1,40%
SSD-диски
Intel 0,30%
Kingston 1,20%
Crucial 1,90%
Corsair 2,70%
OCZ 3,50%

Отказ диска подразумевает, что устройство больше не функционирует. Но возврат может предполагать множество причин. Это создаёт определённую проблему, ведь у нас нет никакой дополнительной информации по причинам возврата дисков: они могли быть мертвы ещё при поступлении в магазин, сломаться в течении срока эксплуатации или всего лишь имела место некая несовместимость с железом, помешавшая покупателю использовать накопитель.

Продажи между 10.1.2009 и 4.1.2010, возвраты до 10.1.2010
Top-3 лидеров возврата SSD Статистика возвратов Top-3 лидеров возврата HDD Статистика возвратов
OCZ Vertex 2 90 Гбайт 2,80% 8,62%
OCZ Agility 2 120 Гбайт 2,66% Samsung SpinPoint F1 1 Tбайт 4,48%
OCZ Agility 2 90 Гбайт 1,83% Hitachi Deskstar 7K2000 3,41%
Продажи между 4.1.2010 и 10.1.2010, возвраты до 4.1.2011
OCZ Agility 2 120 Гбайт 6,70% Seagate Barracuda 7200.11 160 Гбайт 16,00%
OCZ Agility 2 60 Гбайт 3,70% Hitachi Deskstar 7K2000 2 Tбайт 4,20%
OCZ Agility 2 40 Гбайт 3,60% WD Caviar Black WD2001FASS 4,00%

Эта информация лишь преумножает количество вопросов. Если основная часть продаж осуществлялась через интернет-магазин, то существенное влияние на статистику отказов могла оказать плохая упаковка или повреждения в ходе доставки. Более того, мы также не имеем никакой возможности выяснить, как покупатели использовали эти диски. Существенный разброс в частоте отказов лишь подчёркивает данную проблему. Например, число возвратов для Seagate Barracuda LP увеличилось с 2,1% до 4,1%, в то время как для Western Digital Caviar Green WD10EARS она упала с 2,4% до 1,2%.

Так или иначе, эти данные действительно ничего не говорят нам о надёжности. Но для чего, в таком случае, они вообще нужны? Вывод заключается лишь в том, что во Франции большинство покупателей были более чем удовлетворены покупкой Intel SSD и не возвращали их, в отличие от накопителей других брендов. Удовлетворение потребителя – тема интересная, но она намного менее интересна, чем реальная частота отказов. Так что продолжим наш анализ.

Отзывы дата-центров

Стоимость за гигабайт продолжает оставаться барьером, мешающим даже крупным организациям использовать тысячи SSD одновременно. Но даже с учётом того, что мы не имеем доступа к полноценным массивам твердотельных накопителей, не означает, что мы не можем осветить вопрос надёжности SSD в реальных условиях, основываясь на опыте небольших организаций. Мы решили связаться с нашими знакомыми, работающими в сфере IT, и получили довольно интересные отзывы нескольких дата-центров.

NoSupportLinuxHosting.com: меньше 100 SSD


Зеркалирование загрузочного раздела на основе двух SSD-дисков Intel X25-V

Хостинг "No Support Linux" не приводит точное число установленных накопителей, но компания сообщает, что использует "немалое количество" SSD. Мы знаем, что они применяют менее сотни твердотельных дисков, которые задействованы следующим образом:

  • Intel X25-V объёмом 40 Гбайт используются как зеркалируемые загрузочные диски для тонких серверов и серверов хранения данных ZFS;
  • Intel X25-M объёмом 160 Гбайт используются в качестве кэша L2ARC в серверах ZFS;
  • Intel X25-E объёмом 32 Гбайт используются как зеркалируемые ZIL-тома в серверах ZFS.

Все эти диски используются не менее одного года, а некоторым из них недавно исполнилось два года. С учётом сказанного необходимо отметить, что компания не сталкивалась ни с одним фактом выхода из строя SSD-накопителя.

Когда мы спросили, какие преимущества даёт применение твердотельных дисков в серверах, мы получили следующий ответ:

В сочетании с ZFS и гибридными системами хранения, применение SSD-накопителей позволяет получить существенный прирост производительности, по сравнению с традиционными дисками на магнитных пластинах. Мы по-прежнему используем жёсткие диски в качестве основного хранилища, так что мы можем сохранить их преимущество в цене, одновременно извлекая преимущество от SSD по скорости. Рано или поздно, мы планируем полностью перевести наши сервера SAN на SSD-накопители. Но в течение 2011 году мы будем придерживаться гибридной системы хранения, используя ZFS.

InterServer.net

InterServer использует твердотельные диски лишь на серверах баз данных. В частности, на серверах с процессором Xeon используются накопители Intel X25-E (SSDSA2SH032G1GN), что позволяет извлечь максимальный результат от высокой пропускной способности накопителя. О каких значениях производительности здесь идёт речь? InterServer говорит нам о достижении 4514 запросов в секунду для сервера MySQL. На старом сервере Xeon, оснащённом IDE-винчестерами, количество запросов MySQL в секунду составляет 200-300. Нам известно, что твердотельные диски применяются в InterServer с 2009 года и с тех пор не было ни одного выхода диска из строя.

Итак, компания InterServer сообщила нам следующую информацию в контексте использования SSD:

Intel SSD - день и ночь в отношении надёжности, когда речь заходит о сравнении с некоторыми другими накопителями. Например, диски SuperTalent SSD имеют весьма высокий показатель отказов, включая модели FTM32GL25H, FTM32G225H и FTM32GX25H. По нашим оценкам, около двух третей этих дисков вышли из строя с начала эксплуатации. Причём, после выхода из строя информацию с этих дисков практически нельзя было восстановить. То есть накопитель просто исчезал из системы и его больше невозможно было прочитать. Жёсткие диски "умирают" более благородно и в большинстве случаев информацию с них легко восстановить. Но мы не можем сравнить их с Intel SSD, так как до сих пор ещё не сталкивались с выходом из строя последних.

Steadfast Networks: более 100 SSD

Steadfast Networks применяет около 150 SSD Intel, что делает данную компанию несколько более крупным пользователем SSD, чем две предыдущие. Применяются модели линейки X25-E (32 Гбайт и 64 Гбайт) и X25-M (80 Гбайт и 160 Гбайт). В меньшем количестве представлены накопители Intel X25-V40 объёмом Гбайт, а также установленные клиентами компании твердотельные диски других марок, такие как OCZ Vertex 2, SuperTalent и MTron Pro. Независимо от марки, все эти SSD применяются только в серверах баз данных либо в качестве кэша.


Steadfast Networks - почти 150 SSD в работе

За два года использования твердотельных накопителей Steadfast Networks лишь дважды имела опыт отказа дисков, потребовавших их замены, причём оба случая привели к необходимости восстановления данных с SSD. Возможность восстановления данных с вышедшего из строя твердотельного диска зависит от взаимодействия между контроллером и firmware. Сценарий, описанный представителем InterServer относительно дисков SuperTalent, является худшим из возможных - данные вообще не удалось восстановить. Но этот случай не является общим правилом для SSD.

Имея большую выборку, мы, наконец, нашли случаи отказов SSD. Но по сравнению с накопителями на магнитных пластинах их процент по-прежнему достаточно низок. Тем не менее, президент компании Steadfast Networks Карл Циммерман (Karl Zimmerman) считает, что это всё же занижает преимущества SSD и поясняет это следующим образом:

Просто мы получаем заметно более высокую производительность операций ввода/вывода [при использовании SSD] по меньшей цене, чем могли бы получить то же самое, используя обычные жёсткие диски. У нас много клиентов, которым нужна большая производительность I/O, чем могут дать четыре SAS-диска со скоростью вращения шпинделя 15 000 об/мин в конфигурации RAID 10, не говоря уже о том, что сам по себе подобный апгрейд требует перехода на сервера с большим шасси, поддерживающим более четырёх дисков, оснащённые крупной платой RAID и т. д. Другим конфигурациям необходимо больше 16 дисков со скоростью шпинделя 15 000 об/мин, чтобы обеспечить требуемый уровень производительности операций I/O. Переход на один SSD (или пары штук в RAID-конфигурации) значительно упрощает конфигурацию сервера и, в целом, делает её ощутимо дешевле. Достаточно сказать лишь о том, что обычно достаточно одного SSD, чтобы заменить не меньше четырёх жёстких дисков, причём показатель AFR для четырёх HDD составляет около 20%, в то время как для одного SSD он равен 1,6%.

Softlayer: около 5000 SSD!


Softlayer: свыше 1000 SSD!

Люди из Softlayer - наши давние друзья, а ещё они создали крупнейшую в мире хостинг-компанию. Так что, о хранении данных они знают немало. Используя около 5000 SSD-накопителей, они предоставили нам впечатляющий объём данных для анализа. Вот отчёт, предоставленный компанией Softlayer.

Накопитель Число дисков в компании Рейтинг AFR Текущий срок жизни диска
Intel 64 GB X25-E (SLC) 3586 2,19% 2
Intel 32 GB X25-E (SLC) 1340 1,28% 2
Intel 160 GB X25-M (MLC) 11 0% менее 1
HDD-накопители 117 989 см. отчет Шредер

Опыт Softlayer в отношении частоты отказов дисков SAS и SATA соотвествует отчёту Google, о которым мы говорили в начале данной статьи. Проще говоря, частота выхода из строя жёстких дисков прямо пропорциональна возрасту накопителя и на практике результаты очень близки к тому, что доказали исследования Google и Шрёдер. В первом году жизни процент отказов накопителей (AFR) составляет 0,5-1% и постепенно возрастает до 5-7% к пятому году жизни.

Частота выхода из строя жёстких дисков не удивляет, но показатель выхода из строя твердотельных накопителей оказался достаточно близок к результатам AFR по HDD. Конечно, SSD-диски эксплуатируются пока всего два года и нужно подождать, пока пройдёт 3-4 года с начала эксплуатации, чтобы узнать, сохранится или нет в отношении к SSD-дискам тенденция увеличения частоты отказов, характерная для магнитных накопителей.

Softlayer использует почти полностью SSD-накопители на основе SLC-памяти, чтобы избежать проблем с износом ячеек при многократных операциях перезаписи. Если основываться на сценариях использования компанией накопителей, то мы знаем, что ни один из дисков не вышел из строя по причине износа ячеек. Но многие из отказавших SSD вышли из строя без соответствующего предупреждения SMART. Это именно то, о чём мы уже неоднократно слышали от сотрудников дата-центров. Как отмечали специалисты компании InterServer, жёсткие диски имеют склонность выходить из строя более "благородно". SSD зачастую "умирают" внезапно, независимо от причины поломки, что отмечают многие конечные пользователи по всему миру. Опыт Softlayer более разнообразный, по сравнению с InterServer: некоторые накопители удалось восстановить, а другие - нет. Ни один из 11 накопителей Intel серии X25-M в Softlayer не вышел из строя, но дисков этой линейки слишком мало, чтобы на основе этого делать какие-либо выводы, да и эксплуатируются они менее года.

Так ли важна надёжность накопителя?

Несмотря на то, что твердотельные диски на SLC-памяти занимают всего лишь часть рынка SSD, мы получили намного больше информации по данному типу накопителей, чем по моделям, в которых используется более дешёвая память типа MLC. Даже с учётом того, что выборка накопителей в нашем обзоре составляет 1/20 от количества жёстких дисков в предыдущих обзорах, имеющаяся информация позволяет считать, что твердотельные диски на SLC-памяти нельзя назвать более надёжными, чем жёсткие диски с интерфейсом SAS и SATA.

Если вы потребитель, данный факт позволяет сделать важные выводы. Производители SSD пытаются акцентировать внимание на двух основных преимуществах данной технологии: лучшей производительности и надёжности. Однако, если хранить данные на SSD не более безопасно, чем на обычном жёстком диске, то производительность становится единственной реальной причиной для приобретения твердотельного диска.

Мы не утверждаем здесь, что производительность SSD не важна (или не впечатляет). Тем не менее, сама по себе технология SSD в данный момент имеет узкую специфику. Если бы вы собрались противопоставить твердотельные накопители против жёстких дисков по скоростным характеристикам, то обнаружили бы интересный факт: по производительности SSD-накопитель бюджетного класса превосходит HDD примерно на 85%. Твердотельный диск класса Hi-End обеспечивает преимущество над жёстким диском на 88%, что также не слишком впечатляет.

Эта достаточно тонкая разница объясняет, почему такие компании, как Intel, акцентируют внимание именно на надёжности твердотельных накопителей. На недавней презентации новой линейки SSD 320 компания Intel вновь попыталась обыграть этот мотив, используя информацию по возвратам дисков с сайта Hardware.fr в качестве доказательства надёжности своих изделий. Несомненно, именно отличная репутация SSD-накопителей Intel является ответом на вопрос, почему у нас так много информации по твердотельным дискам данной марки. Но данные Hardware.fr, которые приводит Intel, похоже, не соотвествуют реальному положению вещей.

Производительность SSD-накопителей будет лишь расти, в то время как наиболее продвинутые производители будут снижать стоимость таких дисков. Вместе с тем, это означает, что производителям придётся искать иные способы дифференцировать свои изделия.

До тех пор, пока в новых SSD - даже hi-end класса - продолжают выявляться явные баги с прошивками и прочие недоработки, потребители, заинтересованные, в первую очередь, в надёжности хранения данных, будут рассматривать технологию SSD как недостаточно зрелую. Поэтому мы полагаем, что на сегодняшний день именно надёжность должна стать основной мишенью эволюции SSD.

Intel дал потребителям серьёзный запас уверенности, несколько месяцев назад подняв срок фирменной гарантии для новой линейки SSD 320 с трёх до пяти лет. Конкурирующие модели SSD mainstream-класса, основанные на контроллерах SandForse первого и второго поколения, а также контроллере Marvell с интерфейсом SATA 6 Гбит/с, продолжают продаваться с трёхлетней гарантией. Накопители Enterprise-класса также, в основном, поставляются с пятилетней гарантией. Понятно, что это стимулирует вендоров продавать системы, оснащённые более надёжными накопителями, чтобы снизить расходы на гарантийное обслуживание в течение трёх или пяти лет. Но, конечно, трудно закрыть глаза на "детские болезни" технологии SSD, вроде необходимости обновления прошивки, которые, по большому счёту, затрагивают и производительность твердотельных накопителей.

Пояснения к вопросу о надёжности

Жёсткие диски и накопители на основе NAND-памяти иногда выходят из строя и это связано с различными факторами, обусловленными их уникальной архитектурой и конструкцией. Когда мы говорим о надёжности жёстких дисков, на ум приходит тот факт, что они основаны на механических деталях, часть из которых во время работы диска находится в движении. И хотя конструктивно жёсткие диски соответствуют очень строгим допускам, тем не менее, каждая деталь имеет определённый срок службы.

Мы также знаем, что SSD-накопители лишены подобных проблем. Их "твердотельная" природа в принципе исключает риск повреждения считывающей головки или выхода из строя шпинделя.

Но хранение данных на SSD неотъемлемо связано с виртуализацией, так как здесь нельзя физически разметить статическое LBA-пространство, как на жёстком диске. Поэтому возникают другие факторы, определяющие надёжность накопителя. Прошивка - это самый существенный из них, мы видим воздействие данного фактора всякий раз, когда слышим о неполадках в работе SSD.

За последние три года все баги в SSD-накопителях Intel всегда решались обновлением прошивки. Проблемы Crucial с управлением энергосбережением модели m4 были решены выходом новой прошивки. И мы видели, что самый известный партнёр SandForce, - компания OCZ - ответила на многочисленные жалобы потребителей выходом сразу нескольких прошивок. Фактически, случай SandForce наиболее показателен. Поскольку производители SSD-дисков могут использовать различные прошивки в качестве средства дифференциации моделей, диски на основе контроллеров SandForce от разных производителей, очевидно, могут иметь различные баги, свойственные конкретной прошивке. Данный факт, несомненно, только усложняет задачу повышения надёжности твердотельных накопителей.

Если оставить специфику SSD в стороне, то теперь нам необходимо определить надёжность дисков различных производителей. Проблема здесь заключается в том, что способы, при помощи которых каждый вендор, реселлер или потребитель измеряет данный показатель, несколько различается, что делает объективное сравнение практически невозможным.

В частности, мы были очень впечатлены презентацией SSD-накопителей Intel на IDF 2011, где акцентировалось внимание на надёжности. Но в дискуссии с компанией ZT Systems, данные которой приводила Intel, мы выяснили, что в приводимом рейтинге AFR 0,26% не учитывается количество накопителей и речь идёт лишь об "подтверждённых" ошибках. На самом деле, если вы - IT-менеджер, то для вас важна и частота "незарегистрированных" ошибок. Речь идёт о ситуациях, когда вы отсылаете дефектное изделие продавцу, а он отвечает, что с диском всё в порядке. Это не означает, что диск свободен от неполадок, так как причина могла заключаться в конкретной конфигурации либо иных прикладных факторах. На самом деле, существует немало реальных примеров такого рода.

"Незарегистрированные" ошибки, как правило, случаются в 2-3 раза чаще, чем "утверждённые". На самом деле, компания ZT System приводит другие данные по частоте "неутверждённых" ошибок - 0,43% для 155 000 накопителей Intel X25-M. Но мы снова сталкиваемся с тем фактом, что эти данные не отсортированы по сроку службы накопителей, так как диски рассматриваются в группах. Согласно техническому директору ZT System Кейси Черетани (Casey Cerretani), конечная величина в данный момент лишь рассчитывается, но примерно мы можем говорить о показателе AFR 0,7% в первый год эксплуатации. Конечно, этот показатель по-прежнему ничего не значит с точки зрения надёжности в долгосрочной перспективе, что является одной из главных проблем при оценке надёжности твердотельных накопителей в сравнении с HDD.

Основной вывод состоит в том, что теперь мы знаем, какое влияние различные методы оценки надёжности накопителей оказывают на конечный результат. Более того, лишь время покажет, насколько надёжность SSD-накопителей превосходит соответствующий показатель для HDD. Зато теперь вы точно знаете, что сейчас какой-либо однозначный вывод сделать невозможно, так как очень много исходных данных вызывают сомнения.

В качестве заключения

Наш отчёт по дата-центрам охватывает только частоту выхода из строя SSD Intel, так как накопители именно этого производителя в настоящий момент пользуются наибольшим доверием у крупных предприятий. Учитывая проблемы с определением надёжности SSD, мы преднамеренно не ставим задачу найти самого надёжного производителя, но сотрудники отдела маркетинга Intel, судя по всему, не зря получают свою зарплату.

В исследовании Google отмечается следующее: "Известно, что частота отказов в значительной мере зависит от модели, производителя и возраста диска. Наши данные не противоречат этому факту. Но большинство отмечаемых со временем сбоев связаны именно с возрастом диска".

Опыт, о котором мы узнали от дата-центров, применим ко всем SSD. Один из директоров предприятий сообщил нам, что считает цену OCZ Vertex 2 замечательной, но их надёжность - ужасной. В конце прошлого года его компания запускала некую новую систему, по случаю чего было закуплено около 200 накопителей Vertex 2, 20 из которых не работали по прибытию. И это не первый человек, который рассказывает нечто подобное.

Что на практике это значит для SSD?

Давайте взглянем на всё изложенное здесь в некой рациональной перспективе. Вот что мы узнали о надёжности жёстких дисков из исследований Google и Шрёдер:

  1. MTBF ничего не говорит о надёжности;
  2. Ежегодная частота отказов (AFR) выше, чем заявляет производитель;
  3. Диски не имеют тенденцию выходить из строя в первый год эксплуатации. Частота отказов постепенно увеличивается с возрастом диска;
  4. SMART не является надёжной системой, определяющей скорый выход диска из строя;
  5. Частота отказов "потребительских" дисков и накопителей "enterprise"-класса очень близка;
  6. Отказ одного диска в массиве увеличивает риск подобного поведения других дисков;
  7. Температура почти не оказывает влияния на надёжность накопителя.

Благодаря Softlayer с их парком SSD в 5000 штук, мы знаем, что первые четыре утверждения также применимы к SSD. Как мы видели в обоих исследованиях HDD, существенно влияние на их надёжность оказывает контроллер, прошивка и интерфейс (SAS против SATA). Для SSD-дисков основными факторами также являются контроллер и прошивка, причём их роль даже выше. Если правда, что износ ячеек из-за многократных операций перезаписи не играет никакой роли в статистике отказов SSD-накопителей и качество применяемой в "потребительских" дисках MCL-памяти сравнимо с SLC, напрашивается вывод, что твердотельные диски Enterprise-класса, в целом, не надёжнее "потребительских".

Меньше дисков - выше надёжность

Конечно, для систем хранения данных корпоративного класса важна не только надёжность, но и производительность. Чтобы достичь высокой производительности операций ввода/вывода, IT-специалистам приходится создавать RAID-массивы на основе жёстких дисков со скоростью шпинделя 15 000 об/мин. Нередко апгрейд для увеличения количества операций I/O приводит к покупке нового сервера, оснащённого более мощной RAID-платой и позволяющего установить больше накопителей. Учитывая превосходные характеристики I/O для твердотельных дисков, в случае их использования можно было бы ограничиться намного более скромной конфигурацией сервера, не говоря об экономии энергии и снижении температуры.

Здесь есть ещё один интересный момент.

Частота выхода из строя отдельных дисков для большого массива будет выше: по данным исследования Шредер, после отказа одного диска в массиве возрастает вероятность выхода из строя других дисков. Кроме того, существенно выше будет вероятность отказа одного из дисков в массиве, так как здесь начинает играть роль математический фактор.

В данном случае мы не поднимаем тему сохранности данных, что зависит от уровня RAID и других факторов. Понятно, что с точки зрения сохранности данных один SSD не заменит два зеркалируемых HDD, несмотря на то, что вероятность выхода из строя для него будет ниже, чем для одного из дисков в системе. Однако, если речь идёт о крупной RAID-системе, то достаточно очевидно, что надёжнее иметь конфигурацию на четырёх SSD-дисках, чем сравнимую по скорости систему на 16 HDD.

Сам факт использования SSD не снимает необходимости избыточности данных для RAID либо резервного копирования. Но вместо того, чтобы создавать громоздкие RAID-конфигурации на HDD, можно ограничиться значительно более простым решением на основе твердотельных дисков. Как пишет Робин Харрис на сайте StorageMojo: "Забудьте RAID, просто копируйте данные три раза" .

Избыточность хранения данных на SSD не приводит к высокой стоимости. Если вы работаете в среднем и крупном бизнесе, вам нужно лишь скопировать информацию с производительного SSD-диска на HDD, который служит для резервного копирования.

Идея получить более высокую производительность, потратив меньше денег, не нова. SSD-диски в самом деле позволяют получить чрезвычайно высокое количество операций ввода/вывода, высокую надёжность и обеспечить избыточность хранения данных - причём цена такого решения будет ниже, чем в случае громоздкой RAID-конфигурации. Вместе с тем, массив на HDD может превосходить свой аналог на SSD в плане объёма дискового пространства. На сегодняшний день, цена за гигабайт для твердотельных дисков всё ещё слишком высока и к вопросу размещения данных на SSD следует подойти с умом, ведь хранить на них все данные вряд ли получится.

О том же для десктопов

Всё вышесказанное относится к серверам. Возложим ответственность за принятие решения о переходе или не переходе на SSD на сотрудников дата-центров.

Если же разговор заходит о десктопных системах, то мы не имеем оснований предполагать, что SSD надёжнее жёстких дисков. Так или иначе, недавние события с отзывами SSD-дисков и багами в прошивках достаточно ярко показали, что ограниченное число циклов перезаписи ячеек NAND на данный момент является далеко не основным недостатком технологии.

В конце концов, любой накопитель представляет собой электронное устройство, независимо от того, есть ли там движущихся детали или нет. И тот факт, что твердотельные диски не имеют таких деталей, в полной мере не говорит об их надёжности.

Мы задали вопрос специалистам из CMRR (Center for Magnetic Recording Research) - научного центра, располагающего исчерпывающей информацией о системах хранения данных на магнитных носителях.

Доктор Гордон Хьюз (Gordon Hughes), один из основных разработчиков технологий SMART и Secure Erase, отмечает, что и HDD, и SSD в своей эволюции расширяют границы соответствующих технологий. И когда это происходит, не ставится цели создать самые надёжные накопители в мире.

Как отмечает доктор Стив Свансон (Steve Swanson), исследующий NAND-память: "Не похоже на то, чтобы производители делали свои диски столь надёжными, как они могут делать. Они делают диски настолько надёжными, насколько это целесообразно с точки зрения финансовых затрат" . Рынок определяет стоимость компонентов накопителя и она не может быть выше определённой величины.

Так, например, производители NAND-памяти продолжают выпуск 50-нм чипов, обладающих более высоким ресурсом циклов перезаписи, чем 34-нм и 25-нм чипы. Но стоимость $7-8 за гигабайт не позволит использовать такие модули в накопителях, ориентированных на массовый рынок.

Возможно, самое большое раздражение вызывает тот факт, что каждый вендор продаёт жёсткие диски и SSD, не представляя объективных данных об их надёжности, хотя все они определенно знают об истинном положении вещей, продавая миллионы устройств в год (по данным IDC, в 2009 году продано 11 миллионов SSD) и фиксируя каждый возврат.

Несомненно, частота поломок зависит от многих факторов, часть из которых находится вне компетенции производителя (качество доставки, специфика эксплуатации накопителя). Но при благоприятном стечении обстоятельств HDD достигают 3% AFR на пятый год эксплуатации, что вполне сравнимо с аналогичным показателем для SSD. Не удивительно, что специалисты из CMRR говорят о том, что на сегодня SSD не обеспечивают более высокую надёжность, по сравнению с жёсткими дисками.

Надёжность накопителей - чувствительная тема и мы потратили немало времени, общаясь с вендорами и ритейлерами, стремясь провести собственное исследование SSD, предназначенных для массового рынка. И единственный вывод, который можно сделать прямо сейчас, заключается в том, что к любой информации от производителя SSD необходимо относиться с определённой долей скептицизма.

Стоит отметить, что SSD Intel на сегодняшний день пользуются максимальным доверием у потребителей и информация от дета-центров неизменно основывается на SLC-накопителях этой марки как "золотом стандарте" для SSD. Но согласно доктору Хьюзу, нет никаких оснований полагать, что продукты Intel более надёжны, чем лучшие модели HDD. У нас нет возможности исследовать интенсивность отказов SSD, находящихся в эксплуатации более двух лет, поэтому вполне возможно, что эта статистика изменится в ту или иную сторону.

Стоит ли сейчас воздерживаться от покупки SSD? Если вы защищаете свои данные регулярно делая резервные копии файлов, то нет никаких причин избегать использования твердотельных накопителей. Например, мы применяем SSD на всех наших тестовых платформах и в большинстве рабочих станций.

Цель данного обзора состояла в том, чтобы определиться, действительно ли SSD так надёжны, что о резервном копировании хранимой на них информации можно забыть как о пережитке прошлого. Теперь мы знаем ответ на этот вопрос.

Надёжность жёстких дисков хорошо изучена в массивных исследованиях и это не удивительно, так как этот тип накопителей используется уже очень давно. Со временем мы, несомненно, узнаем значительно больше о надёжности SSD.

Какой SSD лучше выбрать и установить на него систему? Этим вопросом задаётся, наверно, каждый, кто решил ускорить ноутбук или компьютер. Вопрос возникает ввиду недостаточной осведомлённости касательно надёжности твердотельных накопителей . В интернете полно информации о том, что количество циклов записи на SSD мало, предвещается быстрый выход из строя активно использующихся дисков и т.п. Сегодня мы выберем из шести устройств хранения данных самый надёжный вариант: проведём тест SSD дисков разных производителей на надёжность и определим предельное количество «прокачиваемой» через них информации.

На эшафоте побывают объёмом от 240 до 256 ГБ от самых известных производителей. С учётом падения стоимости (в USD) вполне можно позволить себе накопитель на 256 гигов, на который можно установить операционную систему и самые используемые программы или игры, на загрузку которых с классических HDD тратится внушительное время. Можно в несколько раз и в целом увеличить скорость работы с данными, если установить твердотельный накопитель на микросхемах быстрой flash-памяти. Итак, тест надёжности SSD пройдут 6 дисков: «Intel 335 Series», «Corsair Neutron GTX», «Kingston HyperX 3K» (Comp), «Kingston HyperX 3K» (noComp), «Samsung 840 Series», «Samsung 840 Pro». Мы взяли 2 устройства «Kingston HyperX 3K» для проверки того, как влияет отключение встроенной компрессии данных перед их записью в память на максимально допустимый сохраняемый объём информации.

Проверка SSD дисков будет проводиться специальной программой для выполнения тестирования по чтению-записи данных. Её название – «Anvil"s Storage Utilities», использованная версия – 1.0.51 RC6. Страждущим заранее объявим, что все твердотельные накопители успешно преодолели предусмотренный производителем показатель наработки на отказ. Это уже говорит как минимум о том, что именитые производители отнюдь не пытаются ввести потребителя в заблуждение, указывая завышенные характеристики для выпускаемых ими устройств хранения данных.

Первым в очереди на тестирование надёжности стоит SSD диск «Intel 335 Series ». Судя по примененной утилите, он выдержал запись в свои микросхемы памяти 750 TB данных. Отметим, что устройство «пошло в отказ» не по причине большого количества сбойных секторов, а из-за банального счётчика, который встроен в прошивку накопителя. Состояние памяти на момент выхода из строя было вполне приличным. После того, как запись на SSD стала невозможной устройство перешло в режим Read-Only, позволяя получить доступ к сохранённым данным, но после перезагрузки компьютера диск совсем пропал из системы и не инициализировался в BIOS.

После этого проводилось тестирование SSD диска «Corsair Neutron GTX ». На него удалось сохранить больше петабайта данных (1100 ТБ) при наличии в итоге 3-х сбойных секторов. Однако при записи следующих 100 ТБ количество сбойных секторов приблизилось к 3.5 тысячам, и после перезагрузки системы твердотельный накопитель превратился в «кирпич». Очень неплохое устройство по объёму «прокачиваемой» информации, но рекомендуется внимательно следить за ростом количества замещённых секторов.


Далее было проведено тестирование дисков «Kingston HyperX 3K » . Как уже говорилось – у одного из них была программно отключена функция компрессии данных перед записью в память. В итоге SSD с компрессией пережил больше, чем 2 петабайта данных! Две тысячи терабайт через твердотельный накопитель объёмом 256 ГБ! Это ли не вполне достаточная для системного диска надёжность , позволяющая устанавливать на него и весь прикладной софт? Повреждённые сектора начали образовываться после прохождения порога в 900 ТБ, их количество в итоге выросло до 45. После отказа записывать данные и перезагрузки системы перед нами лежал «кирпич»… Диску с отключенной компрессией удалось записать в свои недра всего порядка 725 ТБ. Сбойные сектора стали образовываться после 600 ТБ записанной информации.


Проводя тестирование SSD дисков «Samsung 840 » мы выявили ещё одного явного лидера по надёжности . Устройство «Samsung 840 Series» смогло пропустить через свои микросхемы памяти около 900 ТБ данных, после чего «окирпичилось». Т.о. «не Pro» версия занимает 3-е место в рейтинге надёжности имеющихся систем хранения данных. На очереди SSD накопитель «Samsung 840 Pro » , который приятно удивил пределом в 2,4 петабайта (~2400 ТБ) . Счётчик «Reallocated Sectors» начал увеличиваться примерно на отметке в 700 терабайт и равномерно рос до значения ~7300 единиц до кончины накопителя, который отказал после записи предельных для протестированных SSD дисков двух с половиной петабайт данных.

Скорость SSD на чтение и запись проверялась той же утилитой «Anvil"s Storage Utilities». Результаты Вы можете увидеть на приведённых ниже графиках, отображающих скоростные характеристики чтения/записи случайных блоков размером в 4 МБ и 4 КБ. Завершающим графиком является результат замера средней скорости записи случайных блоков произвольного размера. Проигрыш «Samsung 840 Pro», вполне возможно, является следствием сильно мудрёного алгоритма по распределению информации по блокам памяти, который и позволил сохранить «ясность ума» до покорённых диском значений.

Надёжность SSD: находятся ли ваши данные в безопасности?

Подсистема хранения данных в наши дни является основным «узким местом» компьютера. Именно поэтому столько надежд сегодня связано с SSD, которые могут эффективно умножить производительность накопителей. Если вы установите твёрдотельный накопитель даже в дешёвый нетбук, то его отзывчивость увеличится намного сильнее, чем если бы вы удвоили его оперативную память.

IMFP: переход флэш-памяти NAND.

С учётом сказанного, производительность – это далеко ещё не всё. Именно по этой причине мир SSD фокусируется сегодня не столько на том, насколько быстрыми могут быть эти накопители, сколько на их надёжности. Тема надёжности в последнее время стала ещё более важной, в свете перехода с 3x-нм флэш-памяти NAND на флэш-память, производимую по 25-нм техпроцессу. Мы уже не раз общались со специалистами Intel в области SSD, и тема надёжности всплывала постоянно: 25-нм техпроцесс привёл к появлению вызовов, достойно ответить на которые оказалось намного сложнее, чем в случае 34-нм техпроцесса. Но все трудности удалось обойти, так что Intel по-прежнему предлагает лучшую производительность и надёжность по сравнению с продуктами предыдущего поколения. В общем, на меньшем количестве циклов программирования/стирания, которые неразрывно связаны с памятью NAND, производимой по меньшему техпроцессу, сегодня явно акцентируют слишком много внимания.

Честно говоря, вопрос количества циклов программирования/стирания (PE), которые может выдержать SSD, не так должен вас беспокоить. Предыдущие поколения SSD потребительского уровня, которые использовали 3x-нм MLC NAND, обычно были заявлены с 5000 циклов. Это означает, что вы можете записать и стереть данные 5000 раз, прежде чем ячейки NAND начнут терять возможность хранить данные. В случае 80-Гбайт накопителя вам придётся записать 114 Тбайт, прежде чем вы столкнётесь с эффектами износа ячеек. Учитывая, что средний пользователь настольного ПК записывает в день, максимум, 10 Гбайт информации, то ему придётся работать с накопителем примерно 31 год, прежде чем ячейки будут изношены. В случае 25-нм флэш-памяти NAND этот срок уменьшается до 18 лет. Конечно, мы упрощаем сложные расчёты износостойкости накопителей. Нужно учитывать такие проблемы, как усиление записи (WA), сжатие данных и сборку «мусора», которые по-своему влияют на прогнозы износа. Но, в целом, вам незачем следить за количеством циклов программирования/стирания у ячеек накопителя.

Конечно, мы знаем, что SSD выходят из строя, особенно это заметно в различных форумах и отзывах на сайтах популярных производителей, но связано это не с износом ячеек. На первом месте стоят проблемы с «сырой» прошивкой. В зависимости от того, какие данные вы записываете и как вы их записываете, у SSD может «слететь крыша», и накопитель уже не сможет считать данные. Когда происходят подобные печальные события, то фоновые задачи, подобные сборке мусора, перестают выполняться, и вскоре накопитель уже не может считывать или записывать данные вообще. Другие сбои, подобные сгоревшему конденсатору, не такие «изящные», но результат будет таким же – «мёртвый» SSD. Технически любой компонент – электрический или механический – с долей вероятности может выйти из строя в любой момент, да и со временем все компоненты изнашиваются. Но приводит ли отсутствие движущихся частей к более высокой надёжности? Можно ли сказать, что хранить данные на SSD не так опасно, как на жёстком диске?

Поскольку вопрос надёжности сегодня стоит как никогда остро, то мы решили глубже его исследовать, чтобы дать расширенный ответ, прежде чем вы купите себе SSD. В нашей статье мы рассмотрим все аспекты надёжности SSD, а также отделим факты от домыслов.

Что мы знаем о накопителях?

SSD – относительно новая технология (по крайней мере, если сравнивать с жёсткими дисками, которым исполнилось почти 60 лет). Вполне понятно, что мы должны сравнивать SSD с проверенной временем технологией. Но что мы знаем о старых добрых жёстких дисках? Здесь нам хотелось бы привести данные двух важных исследований.

2. Вместе с тем доктор Бианка Шредер (Dr. Bianca Schroeder) и эксперт доктор Гарт Гибсон (Dr. Garth Gibson) рассчитали частоту замены более 100 000 накопителей, которые использовались в одной из крупнейших национальных лабораторий США. Разница в том, что в лаборатории также использовались и жёсткие диски корпоративного класса с интерфейсами SCSI, SATA и FC.

Если вы не читали указанных документов раньше, то мы настоятельно рекомендуем с ними ознакомиться, ниже приведены краткие заключения по ним.

Уровень наработки на отказ (MTTF)

Помните, как рассчитывается показатель MTBF? Что подразумевается под временем безотказной работы? Возьмём в качестве примера жёсткий диск Seagate Barracuda 7200.7. Для него заявлено время наработки на отказ 600 000 часов. Таким образом, в крупном массиве подобных винчестеров, половина жёстких дисков должна выйти из строя за первые 600 000 часов работы. Если сбои будут распределены равномерно, то мы должны получить, например, один вышедший из строя жёсткий диск за час. Мы можем перевести это значение в ежегодную частоту отказов (annualized failure rate, (AFR) 1,44%. Но Google или доктор Шредер обнаружили совсем другое. Обратите внимание, что отказ не всегда соответствует замене жёсткого диска. Именно поэтому доктор Шредер измерял ежегодную частоту замены (annualized replacement rate, ARR). Она основывалась на количестве заменённых жёстких дисков в соответствие с сервисными журналами.

По спецификациям значение AFR указывалось между 0,58% и 0,88%, но полученное значение ежегодной частоты замены ARR составило от 0,5% до целых 13,5%. Таким образом, в зависимости от типа HDD и массива, значение ARR могло быть вплоть до 15 раз выше, чем значение AFR по спецификациям.

Производители жёстких дисков определяют сбои совсем по-другому, чем мы. Поэтому неудивительно, что их оценки надёжности оказываются чересчур оптимистичными. Как правило, значение MTBF высчитывается на основе ускоренных циклов тестирования, информации о возврате винчестеров или на основе результата краткосрочных тестов крупного массива накопителей. Конечно, информация о возвратах, полученная от производителя, продолжает оставаться довольно подозрительной. Как указывает Google, «мы сталкивались… с ситуациями, когда тестер накопителей постоянно давал «зелёный свет» модели, которая неизбежно отказывала на практике».

Выход из строя жёстких дисков со временем

Большинство пользователей считают, что кривая выхода из строя жёстких дисков напоминает ванную (см. первую иллюстрацию). То есть поначалу мы должны получить выход из строя значительного количества жёстких дисков из-за так называемой «детской смертности». Затем, после начального периода, уровень выхода из строя жёстких дисков должен быть низким. А в конце расчётного срока службы, по мере изнашивания накопителей, кривая выхода из строя должна резко поползти вверх. Но данное предположение не подтвердилось в обоих исследованиях. В целом, как обнаружили исследователи, частота сбоя жёстких дисков стабильно увеличивается со временем (см. вторую иллюстрацию).

Надёжность накопителей корпоративного класса

Если сравнивать два исследования, то 1 000 000 часов MTBF у накопителя Cheetah оказывается намного ближе к MTBF 300 000 часов. То есть у «корпоративных» и «потребительских» жёстких дисков мы получаем примерно одинаковый ежегодный выход из строя AFR, особенно если сравнивать схожие ёмкости. По информации, директора по технической стратегии NetApp (самый быстро растущий производитель систем хранения), «…то, как массивы накопителей справляются с соответствующими сбоями жёстких дисков, извечно продолжает убеждать потребителей, что более дорогие жёсткие диски работают более надёжно. Один из тщательно оберегаемых «грязных» секретов индустрии заключается в том, что большинство корпоративных и потребительских жёстких дисков состоят, по большей части, из одинаковых компонентов. Но их внешние интерфейсы (FC, SCSI, SAS и SATA) и, что более важно, приоритеты и цели при разработке дизайна прошивки, играют наиболее важную роль в определении поведения корпоративных или потребительских жёстких дисков в реальных условиях».

Безопасность данных и RAID

Исследование доктора Шредера охватывает использование корпоративных жёстких дисков в крупных массивах RAID в одной из крупнейших лабораторий по высокопроизводительным вычислениям. Как правило, мы ожидаем, что данные будут безопасность храниться в правильно подобранных режимах RAID, но результаты исследования оказались удивительными.

Распределение времени между заменами дисков показывает снижение интенсивности отказов, то есть предполагаемое время до замены следующего диска увеличивается вместе со временем, которое прошло с момента последней замены диска.

Это означает, что сбой одного накопителя в массиве повышает вероятность сбоя другого накопителя. Чем больше времени пройдёт с момента последнего сбоя, тем больше времени должно пройти до следующего. Конечно, всё это приводит к последствиям по реконструкции массива RAID. После первого сбоя вероятность того, что ещё один жёсткий диск выйдет из строя в пределах часа увеличивается в четыре раза. В течение же 10 часов вероятность последующего сбоя увеличивается только в два раза.

Температура

Из документа Google мы получили весьма странное заключение. Исследователи брали измерения температуры SMART, технологии мониторинга, которая встроена в большинство жёстких дисков, и обнаружили, что более высокая температура не коррелирует с более высокой частотой отказов. Температура оказывает определённое влияние на старые накопители, но оно не такое значительное.

Насколько умна SMART?

Если дать краткий ответ, то SMART не умна. Технология SMART была предназначена для сообщения об ошибках на раннем этапе, чтобы пользователь мог заблаговременно зарезервировать свои данные, но, по информации Google, более трети сбойных жёстких дисков не включали тревогу SMART. В принципе, это неудивительно, поскольку многие специалисты говорили об этом многие годы. Технология SMART оптимизирована на обнаружение механических сбоев, но большую часть жёсткого диска составляет электроника. Именно поэтому проблемы с поведением HDD и различные ситуации, подобные сбою электропитания, остаются незамеченными, пока не возникают проблемы с целостностью данных. Если вы надеетесь, что SMART предскажет вам сбой, то вам всё равно необходимо добавить ещё один уровень избыточности для гарантии защиты данных.

Теперь давайте перейдём к тому, как SSD показывают себя по сравнению с жёсткими дисками.

Взгляд на надёжность SSD

К сожалению, ни один производитель жёстких дисков не публикует данных о возврате, то же самое касается и производителей SSD. Но в декабре 2010 сайт Hardware.fr представил информацию о частоте сбоев SSD, полученную от своей родительской компании LDLC, являющейся одной из ведущих розничных сетей во Франции. На сайте были даны следующие пояснения по поводу расчёта представленных показателей.

Частота возврата касается продуктов, проданных между 1 октября 2009 и первым апрелем 2010, возвраты были осуществлены до октября 2010, то есть после периода эксплуатации от 6 месяцев до года. Статистика по производителям бралась при условии минимальных продаж в 500 экземпляров, а по моделям – при минимальной продаже ста экземпляров.

Обратим внимание, что представлена статистика частоты возврата, а не частоты сбоев.

Продажа между 1 октября 2009 и 1 апрелем 2010, возвраты осуществлены до 1 октября 2010
Жёсткие диски 1 Тбайт Частота возврата Жёсткие диски 2 Тбайт Частота возврата SSD Частота возврата
Hitachi Deskstar 7K1000.B 5,76% WD Caviar Black WD2001FASS 9,71% Intel 0,59%
Hitachi Deskstar 7K1000.C 5,20% Hitachi Deskstar 7K2000 6,87% Corsair 2,17%
Seagate Barracuda 7200.11 3,68% WD Caviar Green WD20EARS 4,83% Crucial 2,25%
Samsung SpinPoint F1 3,37% Seagate Barracuda LP 4,35% Kingston 2,39%
Seagate Barracuda 7200.12 2,51% Samsung EcoGreen F3 4,17% OCZ 2,93%
WD Caviar Green WD10EARS 2,37% WD Caviar Green WD20EADS 2.90% - -
Seagate Barracuda LP 2,10% - - - -
Samsung SpinPoint F3 1,57% - - - -
WD Caviar Green WD10EADS 1,55% - - - -
WD Caviar Black WD1001FALS 1,35% - - - -
Maxtor DiamondMax 23 1,24% - - - -
Жёсткие диски 1 Тбайт Частота возврата Жёсткие диски 2 Тбайт Частота возврата SSD Частота возврата
Samsung SpinPoint F1 5,2% Hitachi Deskstar 7K2000 5,7% Intel 0,3%
WD Caviar Green (WD10EADS) 4,8% WD Caviar Green WD20EADS 3,7% Kingston 1,2%
Hitachi Deskstar 7K1000.C 4,4% Seagate Barracuda LP 3,7% Crucial 1,9%
Seagate Barracuda LP 4,1% WD Caviar Black WD2001FALS 3,0% Corsair 2,7%
WD Caviar RE3 WD1002FBYS 2,9% WD Caviar Green WD20EARS 2,6% OCZ 3,5%
Seagate Barracuda 7200.12 2,2% WD Caviar RE4-GP WD2002FYPS 1,6% - -
WD Caviar Black WD1002FAEX 1,5% Samsung EcoGreen F3 1,4% - -
Samsung SpinPoint F3 1,4% - - - -
WD Caviar Black WD1001FALS 1,3% - - - -
WD Caviar Blue WD10EALS 1,3% - - - -
WD Caviar Green WD10EARS 1,2% - - - -

Ещё раз отметим, что сбой накопителя означает выход из строя. Но возврат потребитель может выполнять по различным причинам. И с этим возникают проблемы, поскольку у нас нет дополнительной информации по возвращенным накопителям – получил ли потребитель их уже «мёртвыми», или они вышли из строя со временем, либо возврат был произведён по причине несовместимости продукта.

Продажа между 1 октября 2009 и 1 апреля 2010, возвраты осуществлены до 1 октября 2010
Три ведущие позиции SSD Частота возврата Три ведущие позиции HDD Частота возврата
OCZ Vertex 2 90 Гбайт 2,8% 8,62%
OCZ Agility 2 120 Гбайт 2,66% Samsung SpinPoint F1 1 Тбайт 4,48%
OCZ Agility 2 90 Гбайт 1,83% Hitachi Deskstar 7K2000 3,41%
Продажа между 1 апреля 2010 и 1 октября 2010, возвраты осуществлены до 1 апреля 2011
Три ведущие позиции SSD Частота возврата Три ведущие позиции HDD Частота возврата
OCZ Agility 2 120 Гбайт 6,7% Seagate Barracuda 7200.11 160 Гбайт 16,0%
OCZ Agility 2 60 Гбайт 3,7% Hitachi Deskstar 7K2000 2 Тбайт 4,2%
OCZ Agility 2 40 Гбайт 3,6% WD Caviar Black WD2001FASS 4,0%

Приобретались ли SSD Intel оптом? Представленная информация приводит к новым вопросам. Если большую часть продаж жёстких дисков составляет Интернет, то плохая упаковка и порча во время доставки могут заметно сказаться на частоте возврата. Более того, не мешает провести нормализацию по сценариям, в которых потребители используют жёсткие диски. И существенный разброс возвратов жёстких дисков только подчёркивает эту проблему. Например, частота возврата Seagate Barracuda LP увеличилась с 2,1% до 4,1%, а для Western Digital Caviar Green WD10EARS она упала с 2,4% до 1,2%.

Вместе с тем, приведённые данные не позволяют судить о надёжности. Какие же выводы можно по ним сделать? О том, что во Франции больше клиентов оказались удовлетворены покупкой SSD Intel, чем приобретением накопителя другого производителя. Удовлетворение потребителя – тема интересная, но она имеет мало отношения к частоте сбоев. Поэтому идём дальше.

Статистика дата-центров: меньше 100 SSD

Цены за гигабайт продолжают оставаться основным барьером, не позволяющим даже крупным организациям использовать тысячи SSD одновременно. Но даже то, что у нас не было доступа к массивным инфраструктурам, отнюдь не означает, что мы не сможем сделать выводов по поводу надёжности SSD в реальных условиях на основе менее крупных структур. Мы попытались связаться со всеми нашими знакомыми в сфере ИТ и смогли получить интересную информацию от некоторых дата-центров.

NoSupportLinuxHosting.com

Загрузочный том на «зеркале» из двух X25-V.

Компания «No Support Linux Hosting» не сообщила нам о количестве установленных накопителей, но представитель компании сказал, что она «использует немалое количество» SSD. Мы знаем, что компания использует меньше 100 SSD, и они распределены по следующим сценариям:

  • 40-Гбайт X25-V используются в «зеркале» в качестве загрузочных томов для blade-серверов и серверов ZFS.
  • 160-Гбайт X25-M используются в качестве накопителей для кэширования (L2ARC) в серверах ZFS.
  • 32-Гбайт X25-E используются в «зеркале» в качестве томов ZIL в серверах ZFS.

Все эти накопители использовались не меньше одного года, а некоторые из них отметили свой второй год рождения. И на данный момент компания не столкнулась ни с одним сбоем SSD. Когда мы спросили «Дают ли SSD преимущества, которые нельзя получить на обычных механических жёстких дисках?» компания ответила, что «с ZFS и гибридными системами хранения накопители SSD дают существенный прирост производительности по сравнению с вращающимися пластинами. Мы по-прежнему используем вращающиеся пластины для основного хранилища, поэтому мы смогли сохранить преимущество HDD по цене, и вместе с тем смогли получить преимущества SSD по скорости. Рано или поздно мы планируем перевести все наши SAN на системы хранения, использующие только SSD. Но для 2011 года мы будем придерживаться гибридного хранилища с помощью ZFS.»

InterServer.net

Компания InterServer использует в своих серверах баз данных только SSD. В частности, компания оснащает свои серверы Xeon накопителями Intel X25-E (SSDSA2SH032G1GN), чтобы в полной мере задействовать преимущества по высокой пропускной способности данных. Но какой прирост производительности это даёт? InterServer сообщила нам о получении в среднем 4514,405 запросов MySQL в секунду. На старой системе Xeon, оснащённой накопителями IDE, можно было получить примерно 200-300 запросов MySQL в секунду. Мы знаем, что эти накопители используются компанией с 2009 года, и пока что сбоев не было зафиксировано.

InterServer сообщила нам следующую информацию по поводу использования SSD.

«Intel SSD как небо и земля отличаются по частоте сбоев от некоторых других накопителей. Например, у SSD SuperTalent мы получили очень высокую частоту сбоев, включая модели FTM32GL25H, FTM32G225H и FTM32GX25H. По нашим подсчётам, 2/3 этих накопителей вышли из строя после начала эксплуатации. Причём они выходили из строя так, что информацию считать уже не получалось. То есть накопитель просто полностью исчезал и больше не появлялся. Вращающиеся пластины умирают более «благородно», восстановить с них информацию намного легче. Я не могу сравнить данную статистику с накопителями Intel, поскольку мы пока не сталкивались с их сбоями».

Steadfast Networks: более 100 SSD

Steadfast Networks использует около 150 SSD Intel, то есть опирается на более крупную базу накопителей, чем две предыдущие компании. В Steadfast Networks используются модели X25-E (32 Гбайт и 64 Гбайт) и X25-M (80 Гбайт и 160 Гбайт). В меньшей степени компания задействует 40-Гбайт X25-V, да и некоторые клиенты использовали/запросили накопители OCZ Vertex 2, SuperTalent и MTron Pro. Независимо от марки, все SSD используются только в серверах баз данных или в качестве кэша.

На протяжении двух лет компания столкнулась только с двумя случаями, потребовавшими замены накопителей. Восстановление данных с вышедшего из строя SSD зависит от взаимодействия между контроллером и прошивкой. Опыт InterServer с накопителями SuperTalent является сценарием худшего случая, когда данные восстановить не получилось. Но специалисты Steadfast Networks сообщили нам, что смогли восстановить все данные с SSD Intel.

С более крупным массивом SSD мы, наконец, столкнулись с выходом накопителей из строя. Но по сравнению с жёсткими дисками частота выхода из строя намного ниже. Но президент Steadfast Networks Карл Зиммерман (Karl Zimmerman) считает, что это всё равно преуменьшает преимущества SSD. Он дал следующее объяснение.

«Мы просто получаем существенно более высокую производительность ввода/вывода [с SSD] по меньшей цене, чем мы можем достичь со стандартными жёсткими дисками. Многим нашим клиентам требуется большая производительность ввода/вывода, чем могут дать 4x накопителя SAS на 15 000 об/мин в массиве RAID 10, и данный апгрейд приводит к переходу на сервер с большим шасси, поддерживающим более 4 накопителей, крупной карте RAID и так далее. Другим конфигурациям требуется больше 16 жёстких дисков на 15 000 об/мин, чтобы получить требуемый уровень операций ввода/вывода. Переход на один SSD (или на пару SSD в RAID) значительно упрощает конфигурацию, да и удешевляет в целом.

Всё это дополняется тем, что вам, как правило, нужно использовать 1 SSD для замены 4+ стандартных жёстких дисков в среднем, при этом вы получите частоту сбоя AFR у жёстких дисков 20% и выше, а у SSD она составляет 1,6%.

Softlayer: около 5000 SSD!

В Softlayer у нас работает много друзей, при этом они организовали самую крупную компанию по web-хостингу в мире. Поэтому о накопителях они знают немало. В компании используется почти 5000 SSD, так что мы получили более впечатляющий массив данных для анализа. Вот, что сообщила нам Softlayer.

Компания получила схожую частоту выхода из строя накопителей SAS и SATA, что и в исследовании Google. Если не вдаваться в детали, то частота выхода из строя увеличивается пропорционально возрасту накопителя, и на практике она довольно близка к результатам двух исследований, которые мы привели раньше. В первый год частота выхода из строя AFR составляет 0,5-1%, она увеличивается до 5-7% в пятый год.

Частота сбоя жёстких дисков нас не удивила, но частота AFR для SSD шокировала. Если судить по числам, то частота сбоя SSD близка к жёстким дискам. Конечно, накопители эксплуатируются всего два года. Нам нужно подождать, пока SSD не завершат третий и четвёртый год своей эксплуатации, после чего мы посмотрим, будет ли разница.

Softlayer почти полностью использует SSD на основе SLC-памяти из-за опасений с износом при выполнении операций записи. Если верить сценариям использования компании, то ни один из сбоев не был связан с износом ячеек памяти при записи, но многие SSD вышли из строя без раннего предупреждения SMART. Мы уже неоднократно слышали об этом от разных дата-центров. Как указали специалисты InterServer, жёсткие диски «умирают» более «благородно». SSD часто «умирают» внезапно, возможно из-за некорректной работы прошивки. Опыт Softlayer более разнообразный, некоторые накопители восстановить удалось, другие нет. Ни один из 11 накопителей X25-M у компании не вышел из строя, но количество образцов мизерное. Да и в работе они находятся с июня 2010.

Так ли важна надёжность?

Несмотря на то, что SLC-накопители составляют всего часть рынка NAND, мы собрали намного больше данных по SLC-накопителям SSD, чем по моделям с MLC-технологией. Конечно, наш набор исследуемых накопителей составляет 1/20 от набора предыдущих исследований жёстких дисков, но по имеющейся информации SLC-накопители SSD нельзя назвать более надёжными, чем жёсткие диски SATA и SAS. Если флэш-память SLC является самой лучшей из NAND, тогда SSD с MLC-памятью должны демонстрировать более высокую частоту выхода из строя.

Если вы являетесь потребителем, то подобный факт наверняка вызовет замешательство. Производители SSD пытаются подчеркнуть, что они предоставляют два существенных преимущества: производительность и надёжность. Но если данные на SSD хранить не безопаснее, чем на жёстком диске, то основной причиной выбора твёрдотельных накопителей является производительность.

Мы не утверждаем, что производительность не важна (или не впечатляет), но большинство SSD находятся в узком разбросе по производительности. Например, если вы отобразите на графике скорость жёстких дисков по сравнению с SSD, то low-end SSD работают примерно на 85% быстрее, чем жёсткие диски. А high-end SSD дают только 88% преимущество по производительности в среднем.

Именно поэтому Intel пытается всех убедить, что предлагает самые надёжные SSD. Недавно на пресс-конференции по поводу выхода SSD 320 компания попыталась акцентировать эту точку зрения. Конечно, репутация Intel повлияла на то, что мы получили столь много информации по поводу SSD этой компании, но результаты эксплуатации, похоже, не соответствуют тому, что мы слышим от Intel.

Производительность SSD будет продолжать увеличиваться, а цены будут одновременно с этим снижаться. Такова природа новой технологии. Однако это также означает, что производителям SSD потребуется найти другие способы дифференциации своих продуктов. Сегодня мы как раз начинаем это видеть. По мере того, как относительный зазор по производительности между SSD начинает сужаться, надёжность становится всё более важной.

Заключение

Конечно, получилось так, что наш опрос дата-центров охватывает только частоту выхода из строя SSD Intel, поскольку накопители именно этого производителя используются сегодня в большинстве крупных компаний. Маркетинг Intel работает на самом деле, поскольку компанию считают одной из самых надёжных марок. Мы не подразумеваем этим, что другие марки более или менее надёжны. Исследователи Google по поводу жёстких дисков написали следующее: «частоту сбоев тесно связывают с моделями накопителей, производителями и возрастом. Наши исследования этому не противоречат. Но большинство результатов, связанных с возрастом накопителя, связаны именно с возрастом».

По информации, представленной нам дата-центрами, то же самое верно и для SSD. Один из управляющих крупной компании сообщил, что OCZ даёт замечательные цены, но по его информации у накопителя Vertex 2 ужасная надёжность. Примерно два месяца назад компания заказала новое оборудование, но после вскрытия коробки оказалось, что из 200 накопителей Vertex 2 Pro примерно 20 были уже «мёртвыми». Да и один из дата-центров сообщил нам, что регулярно сбрасывает клиентские серверы с накопителями Vertex 2.

Что это значит для SSD?

Но позвольте оценить всё с перспективы. Вот, что мы узнали о жёстких дисках из двух приведённых исследований.

  • Заявленное время наработки на отказ MTBF ничего не говорит о надёжности.
  • Ежегодная частота выхода из строя (AFR) в несколько раз выше, чем заявляют производители.
  • Для накопителей не характерна заметная тенденция выходить из строя после года использования. Частота выхода из строя стабильно повышается вместе с возрастом жёстких дисков.
  • SMART не является надёжной системой оповещения о грядущих сбоях жёсткого диска.
  • Частота выхода из строя «корпоративных» и «потребительских» жёстких дисков примерно одинаковая.
  • Выход из строя одного накопителя в массиве повышает вероятность выхода из строя другого накопителя.
  • Температура оказывает пренебрежимо малое или незначительное влияние на частоту сбоев.

Благодаря Softlayer мы знаем, что первые четыре пункта также относятся и к SSD. Помните, что разница между корпоративными и потребительскими жёсткими дисками, влияющая на частоту сбоев, кроется в контроллере, прошивке и интерфейсе (SAS против SATA). Что касается SSD, то разница сужается до контроллера и прошивки. Если качество производства MLC-памяти NAND такое же, как и SLC-памяти, то корпоративные SSD не надёжнее потребительских SSD (помните, что износ при записи/программировании не имеет ничего общего со случайными сбоями накопителей).

Конечно, корпоративный рынок интересует не только надёжность. Свою роль играет и производительность. Чтобы получить высокую производительность ввода/вывода с жёсткими дисками, нужно использовать не меньше четырёх накопителей SAS на 15 000 об/мин в RAID 10. Если такого уровня всё равно мало, то придётся выполнить апгрейд на более крупный сервер с большим количеством накопителей и более ёмкой картой RAID. Если производительность вас интересует больше, чем ёмкость, то выбор нескольких SSD в RAID упрощает конфигурацию, её развёртывание и поддержка обходятся дешевле. Поскольку вы используете один SSD для замены нескольких жёстких дисков, то частота сбоя каждого жёсткого диска влияет на эффективную частоту сбоя. И с этой точки зрения намного лучше использовать четыре SSD для замены шестнадцати жёстких дисков. Конечно, конфигурация из одного SSD не даёт избыточности хранения данных. Но, как указано в исследовании доктора Шредера, сбой жёсткого диска в массиве RAID увеличивает вероятность ещё одного сбоя. Для профессионалов ИТ, внедряющих SSD, наши новости прольются как бальзам на душу. Как написал Робин Харрис (Robin Harris) на StorageMojo , «Забудьте о RAID, просто копируйте данные три раза». Избыточность хранения данных c SSD не приводит к дополнительным расходам. Скажем, в ИТ-инфраструктуре информация с одного SSD будет постоянно копироваться на несколько жёстких дисков. А идея траты меньшего количества денег на получение существенного прироста производительности должна быть очень привлекательной. Собственно, в этом нет ничего нового. Google уже многие годы использует подобный подход (дешёвой избыточности) со своими серверами на жёстких дисках, но перенос данной концепции на SSD приводит к очень высокой пропускной способности ввода/вывода, высокой надёжности и избыточности данных – всё это при дешёвом и простом способе дублирования файлов подобно кластеру.

К сожалению, всё это касается профессионалов в области ИТ. Что касается потребителей, то не стоит доверять SSD больше, чем вы доверяете жёсткому диску. В конце концов, электрическая деталь остаётся электрической, независимо от того, движется она или нет. (Конечно, мы не имеем в виду, что вы будете трясти жёсткий диск во время работы.) Данные от Softlayer подтверждают нашу точку зрения, поскольку у более ёмкой модели X25-E частота выхода из строя выше (у неё используется больше чипов памяти). Возможно, именно по этой причине мы не были шокированы тем, что SSD имеют схожую частоту выхода из строя, что и накопители с вращающимися пластинами. Конечно, у нас нет полных данных для SSD старше двух лет, поэтому, возможно, в будущем ситуация изменится, но пока мы эти данные не получим, лучше следовать давно известной пословице «бережёного Бог бережёт».

Самое обидное во всём этом исследовании заключается в том, что мы не должны сами собирать все эти данные. Производители знают об истинной надёжности своих продуктов, поскольку они выпускают миллионы SSD в год (IDC: 11 млн. SSD в 2009) и отслеживают возвраты. Если SSD Intel на MLC-памяти являются «золотым стандартом», то лучшие SSD кажутся не более надёжными, чем лучшие жёсткие диски. Получается, что худшие SSD такие же надёжные, что и худшие жёсткие диски?

В заключении мы оставляем открытым приглашение Intel, OCZ, Micron, Crucial, Kingston, Corsair, Mushkin, SandForce и Marvell, чтобы предоставить нам информацию о частоте выхода из строя своих продуктов, либо опубликовать список крупных клиентов, у которых можно будет получить дополнительную информацию.

Примечание. Мы выражаем благодарность компании Softlayer и всем дата-центрам, предоставившим нам данные. Всё это позволило оценить надёжность SSD.

Современные SSD-накопители достаточно надежные, а с учетом того, что цена за 1 ГБ (в долларах) постепенно падает, то использовать SSD во многих случаях даже более рационально, чем работа с HDD. Но какой SSD выбрать?

Полтора года назад журналист Tech Report решил провести эксперимент по выявлению наиболее надежных SSD. Он взял шесть моделей накопителей: Corsair Neutron GTX, Intel 335 Series, Kingston HyperX 3K, Samsung 840, Samsung 840 Pro, и поставил все шесть на цикличный процесс чтения/записи. Объем памяти каждого накопителя составлял 240-256 ГБ, в зависимости от модели.

Сразу стоит сказать, что все шесть моделей успешно выдержали заявленную производителем нагрузку. Более того, большинство моделей выдержало больше циклов чтения-записи, чем это заявлено разработчиками.

Тем не менее, 4 из 6 моделей сдались перед достижением объема в 1 ПБ «прокачанной» через диск информации. Зато 2 модели из тех, что участвовали в этом аттракционе «железной смерти» (Kingston и Samsung 840 Pro) выдержали даже 2 ПБ, и только потом отказали. Конечно, выборка из 6 SSD не может служить показателем работы для всех SSD без исключения, но определенная репрезентативность у этой выборки все же есть. Процедура цикличного чтения-записи тоже не идеальный показатель, ведь накопители могут выходить из строя по самым разным причинам. Но результаты теста очень интересны.

Один из выводов: производители достаточно деликатно подходят к вопросу выбора лимита работы своих накопителей - как уже говорилось выше, все SSD выдержали положенный лимит объема записанной информации.

Что касается самих моделей, то первым вышел из строя Intel 335 Series . У SSD этой модели есть одна особенность - они прекращают работу, как только появляются сбойные сектора. Сразу после этого накопитель входит в режим чтения, а затем и вовсе превращается в «кирпич». Если бы не инструкция «остановись при сбое», возможно, SSD проработал бы и дольше. Проблемы начались с диском уже после прохождения отметки в 700 ТБ. Информация на диске оставалась читаемой до момента перезагрузки, после чего диск превратился в кусок железа.

Samsung 840 Series успешно дошел до отметки в 800 ТБ, но начал показывать большое количество ошибок, начиная с 900 ТБ, и отказал без всяких предупреждений, не дойдя до петабайта.

Следующим отказал Kingston HyperX 3K - у модели тоже есть инструкция прекращать работу при появлении ряда сбойных секторов. К концу работы устройство начало выдавать уведомления о проблемах, позволяя понять, что конец близко. После отметки в 728 ТБ накопитель перешел в режим чтения, и после перезагрузки перестал отвечать.

Corsair Neutron GTX стал следующей жертвой, пройдя отметку в 1.1 ПБ. Но у накопителя уже насчитывались тысячи сбойных секторов, устройство начало выдавать большое количество предупреждений о проблемах. Даже спустя ещее 100 ТБ диск позволят записывать данные. Но после очередного ребута устройство перестало даже определяться системой.

Осталось всего две модели Kingston и Samsung 840 Pro, которые героически продолжали работать, достигнув отметки даже в 2 ПБ.

Kingston Hyper X использует сжатие данных по возможности, но тестировщик стал записывать несжимаемые данные для чистоты теста. Для этого использовалась программа Anvil"s Storage Utilities, служащая для выполнения тестов по чтению-записи данных.

Диск показал хорошие результаты, хотя на промежутке между 900 ТБ и 1 ПБ уже возникли неисправимые ошибки, плюс поврежденные сектора. Ошибок было всего две, но это все равно проблема. После того, как диск отказал на 2.1 ПБ, он перестал определяться системой после ребута.

Последним павшим железным солдатом в этой битве стал Samsung 840 Pro



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: