Ремонт серверной материнской платы

Содержание

Ремонт материнских плат
Цены на ремонт (в стоимость входит всё – диагностика, тестирование, запчасти)*. Рекомендуем приносить в ремонт материнскую плату в сборе с процессором и памятью. Это даст Вам возможность заодно бесплатно протестировать работоспособность CPU и RAM.
День из жизни новоприбывшего сервера: как мы проверяем и восстанавливаем железо
Допустим, вы решили продать сервер
Серверное ТО
Свето-цифровая диагностика
И вот пришел заказ именно на этот сервер
Вместо заключения
Похожие публикации
Как получить много сервера за мало денег: варианты земные и облачные
Самые популярные модели refurbished-серверов
Старый новый рынок или как восстановленные серверы покорили США и Европу
Комментарии 31

Ремонт материнских плат

Материнская плата (от англ. motherboard, сокращенно MB, встречается название mainboard — главная плата)- основа любого компьютера или ноутбука. Физически представляет собой многослойную печатную плату на которой устанавливаются основные компоненты компьютерной системы — процессор, память, видеокарта, различные контроллеры и др. Содержит разъёмы для подключения переферийных устройств, а также подключения дополнительных контроллеров, для которых обычно используются шины USB, PCI и PCI-Express. Многие современные материнские платы поддерживают беспроводные устройства, использующие протоколы IrDA, Bluetooth, Wi-Fi.

Наиболее значимой частью материнской платы является чипсет, представляющий из себя набор микросхем системной логики. Как правило, состоит из двух микросхем — Memory Controller Hub или северный мост (англ. Northbridge) и I/O Controller Hub или южный мост (англ. southbridge). Встречаются менее распространенные решения с объединенными мостами в одном чипе. Северный мост (быстрая микросхема), обеспечивает взамодействие процессора с памятью и графической системой. Имеются готовые решения с интегрированной в северной мост видеоподсистемой. Южный мост (медленная микросхема), обеспечивает взаимодействие между процессором и жестким диском, картами PCI, интерфейсами IDE, SATA, USB и др. Именно северный и южный мосты, в основном, определяют характеристики материнской платы и поддерживаемые ею устройства.

Мы производим ремонт материнских плат любых моделей, производителей и назначения, включая ноутбучные, серверные и промышленные. Использование профессионального опыта, оборудования и современных материалов позволяет нам производить весь спектр работ по ремонту материнских плат — от микропайки SMD компонентов до реболлинга BGA чипов. Перечень работ включает в себя множество наименований, наиболее распространённые:

Замена, перепайка (реболлинг) северных и южных мостов
Замена, перепайка любых BGA и SMD компонентов материнской платы
Перепрошивка, замена микросхем BIOS, установка панели
Восстановление повреждённых токоведущих дорожек
Ремонт цепей питания процессора, памяти, AGP, PCI, PCI-E и др.
Замена, перепайка сокетов, слотов AGP, PCI-E, слотов памяти, др. слотов расширения
Замена разъёмов питания, IDE, SATA, PS/2, USB, COM, LPT, LAN и пр.

Цены на ремонт (в стоимость входит всё – диагностика, тестирование, запчасти)*.
Рекомендуем приносить в ремонт материнскую плату в сборе с процессором и памятью. Это даст Вам возможность заодно бесплатно протестировать работоспособность CPU и RAM.

Наименование работ	Стоимость (руб.)
Ремонт материнских плат
Ремонт серверных материнских плат	от 1000
Ремонт материнских плат последних моделей	1500-9500
Ремонт материнских плат промышленного назначения	договорная
Прошивка BIOS (без пайки/с пайкой, вкл. установку панели и замену микросхемы)	от 500
Диагностика без ремонта	500-1000
Срочный ремонт любого изделия	+50%

* кроме ЮМ, СМ, контроллеров

Некоторые советы по ремонту материнских плат

1. Перед включением материнской платы необходимо произвести ее предварительный осмотр. В особенности это касается области питания CPU, так как при неисправностях VRM CPU существует риск выгорания процессора. Если поврежден один из транзисторов Q3B3, Q3B2, Q3B1, Q2B2, Q2B3, Q2B1, Q1B1, Q1B3, микросхем U2B1, U3B1, ADP3168, то такую плату включать нельзя. При подозрениях на неработоспособность этих элементов необходимо замерить сопротивления между управляющими ножками транзисторов и землей. Эти сопротивления у верхних транзисторов (их левые ножки) должны быть одинаковыми, так же, как и у всех нижних транзисторов (правые ножки) сопротивления должны быть одинаковыми (здесь и далее верхом будет называться сторона платы, ближняя к внешним разъемам COM, USB и т.д.; низом – сторона разъемов IDE; право – сторона CPU). При неисправностях VRM вышеуказанные сопротивления имеют явные отклонения и обычно имеют очень малые значения. Надо отметить, что неисправности VRM на материнских платах Intel встречаются довольно редко.
Если VRM исправны, можно произвести установку CPU, POST-карты и включение платы. Тестирование необходимо производить с процессором Celeron D или Prescott. Следует отметить, что на некоторых старых ревизиях материнских плат Intel присутствует вражеский блокирующий резистор, который не дает запускать мать с Prescott или Celeron D. На D865PERL он располагается чуть выше разъема J4B1 (12V питание CPU), на 5 мм выше надписи C4B2, и представляет собой одиноко стоящее 0-омное сопротивление, связывающее землю с одной из ножек CPU. Эту «вражину» необходимо сразу удалить. В таких платах, как правило, помимо этого еще зашита старая версия BIOS, не дающая использовать Celeron D, поэтому весьма полезно обновить BIOS (см. далее).

2. Можно производить включение блока питания. Блок питания включается только при установленном CPU. Если материнская плата включает блок питания, то проверяется наличие следующих величин:
— напряжения на 3.3V STDBY;
— напряжения на ножках кварца XY7H2 32kHz;
— сопротивления между 3.3V блока питания (оранжевый провод и землей) при выдернутом из мамы блоке питания, снятом CPU и RAM.
Необходимо проверить, не греются ли какие-либо элементы, особенно Super I/O (U1J1) и южный мост. Возможно, плата включится при выдернутом штырьке питания 12В CPU (J4B1). Проверить, включается ли плата принудительно путем замыкания зеленого и черного проводов блока питания, если включается опять проверить, не греются ли вышеуказанные элементы.

3. Если материнская плата при включении не выводит никаких кодов на POST карту или находится в RESET, необходимо проверить наличие:
— напряжения питания CPU (нижний вывод катушек L3B1, L1B1);
— напряжения на нижнем выводе Q6E4 (

2.4V);
— напряжения на левом выводе Q6E2 (

1.5V);
— напряжения на правом выводе Q5B5, если таковой имеется;
— напряжения на подложке U9B3;
— напряжения на верхнем выводе L6H1 (

2.6V);
— напряжения на нижнем выводе любого из 56-омных резисторных сборок под разъемами DDR;
— напряжения на кнопке RESET (один провод сидит на земле, интересует напряжение на втором выводе);
— напряжения на ножках кварца XY7H2 32kHz;
— напряжения на 15-ом сверху правом контакте любого PCI разъема;
— постоянного напряжения на ногах 43, 44 генератора (должно быть одинаковым).
Проверить, не греются какие-либо элементы, особенно Super I/O, южный мост, LAN (U6A1), BIOS (U7J1).
А также на выключенной плате:
— сопротивления между 3.3V STDBY (подложка регулятора U9B3) и землей;
— сопротивления между левой ножкой Q6E2 и землей;
— сопротивления между 3.3V блока питания (оранжевый провод и землей) при выдернутом из мамы блоке питания, снятом CPU и RAM.

4. Далее произвести осмотр платы, особенно в области проводников, соединяющих северный мост с CPU и северный мост с южным мостом. Не замкнуты ли между собой контакты в разъемах PCI, DDR. Произвести переустановку CPU, проверить на запуск при сильно прижатом CPU, прижатых углах южного моста, сильно прижатом BIOS, при каких-либо легких изгибах платы.

5. Далее необходимо проверить, видит ли материнская плата память (в обоих каналах). Без памяти она должна пищать, с памятью — идти дальше. На неисправность памяти указывает код D3, D4 (проверять оба банка). При неисправностях памяти нужно:
— замерить напряжение на верхнем выводе L6H1 (

2.6V);
— замерить напряжение на нижнем выводе любой из 56-омных резисторных сборок под разъемами DDR;
При выключенной плате:
— замерить сопротивление между верхним правым контактом AGP (A1) и 12В блока питания (желтый провод) — должно быть 0 ом; если 12В не доходит до контакта A1, то при вставленной видеокарте обычно код D3; также необходимо проверить целостность разъема AGP;
— замерить сопротивление между ножками 91 и 92 (обычно подписано) разъема DDR и землей;
— визуально проверить целостность проводников от северного моста к неисправному банку памяти, а также целостность резисторных сборок и самих разъемов DDR.

6. Если материнская плата не видит видеокарт AGP, необходимо проверить наличие:
— напряжения на контакте A1 AGP (правый верхний);
— напряжения на нижних контактах разъема AGP;
— напряжения на левом выводе Q6E2 (

1.5V);
— сопротивления между левой ножкой Q6E2 и землей (при выключенной плате);
— проверить целостность разъема AGP, присутствие всех ножек;
— проверить целостность проводников от AGP к сев. мосту.
Возможно, видеокарта увидится, если слегка отогнуть ее верхний или нижний угол или переткнуть карту несколько раз (часто бывает).

7. Во всех остальных случаях, если материнская плата исполняет какие-либо коды, но не доходит до загрузки операционной системы, необходимо попытаться прошить BIOS. BIOS также необходимо прошивать и у рабочих плат, чем достигается гарантированная уверенность в дальнейшем отсутствии глюков со стороны BIOS. Особенно четкими признаками необходимости прошивки BIOS являются коды 03 (значит зашит старый BIOS, не понимающий вставленного CPU) и E9 (BIOS checksum error). Код E9 возникает особенно часто из-за отсутствующего или плохого контакта в джампере J7H2 BIOS CONFIG, при этом происходит обращение к FDD.
Прошивка BIOS осуществляется очень просто. На чистую отформатированную дискету записывается файл с образом BIOS данной платы (расширение .BIO), дискета вставляется в FDD, снимается джампер BIOS CONFIG, включается плата, все действия по перезаписи BIOS плата выполняет сама и затем выключается. Сие действие непродолжительно и сопровождается магическими звуками. Клавиатура, видеокарта при этом не используется. Рекомендуется использовать для прошивки BIOS v19, т.к. он гарантированно рабочий, с более современными версиями возможны «заморочки».
Вообще, полезно взять за правило — при любом ремонте материнской платы прошивать BIOS.

8. Далее осуществляется загрузка операционной системы, тестирование периферийных устройств, проверка на стабильность работы. Проверку на стабильность необходимо осуществить, выполнив несколько циклов теста 3Dmark2001. Материнские платы D865PERL очень редко глючат. Если произошла загрузка операционной системы, то >99% вероятность, что все будет работать стабильно. Частыми причинами разного рода глюков могут быть вздутие электролитов питания CPU, а также перегрев CPU из-за характерного для Intel крепежа кулера CPU. Крепеж кулера может со временем разбалтываться и “ходить” в мамке, не обеспечивая должной жесткости (легко проконтролировать руками), при этом кулер притянется к крепежу, а они вдвоем оттянутся от CPU, в результате чего кулер останется относительно холодным, а CPU раскалиться и будет вести себя непредсказуемо. Температуру CPU можно попробовать рукой с обратной стороны платы (под CPU), либо в BIOS (пункт Hardware monitoring). Если происходит перегрев, необходимо, использовать новую термопасту и заменить крепеж кулера.
Для плат, в которых присутствовал какой-либо мелкий дефект, и его удалось устранить (например, BIOS checksum error), возможно проведение меньшего количества тестов 3Dmark. И наоборот, для плат с сомнительным поведением желательно количество тестов увеличить.
Если все же глюки происходят, то необходимо отключить в BIOS возможно большее количество устройств (USB, звук, LPT и тд) и попытаться прогнать тесты без них – возможно глюков не будет. Если это не помогло, то необходимо, для себя, отметить частоту появления сбоев, спонтанность (в одном и том же месте или при разных обстоятельствах) и дополнительно проверить:
— напряжение питания CPU (нижний вывод катушек L3B1, L1B1);
— напряжение на левом выводе Q6E2 (

1.5V);
— напряжение на верхнем выводе L6H1 (

2.6V);
А также на выключенной плате:
— сопротивление между левой ножкой Q6E2 и землей.

9. Тестирование платы также включает в себя проверку следующих устройств:
a) батарейки — не сбрасывается ли CMOS после отключения блока питания из сети на 5-10 сек. Если такое происходит – замерить напряжение батарейки, при необходимости заменить или подогнуть контакты;
б) обоих банков DDR (см. ранее);
в) PS2 клавиатуры и мыши;
г) USB (достаточно только подключение USB устройства и определение его в Windows). Возможный дефект – отключено в BIOS;
д) LAN (достаточно только определение LAN в Windows и «детект» подключения сетевого кабеля). Возможный дефект – отключено в BIOS;
е) звукового выхода на 2 канала стерео. Если звука нет в одном или двух каналах, то проверить, не отключен ли AC97 кодек в BIOS, «детектится» ли кодек вообще в Windows, присутствуют ли 2 джампера на разъеме J7A1. Слышны ли щелчки в колонках при дотрагивании до этих джамперов?
ж) fireware (достаточно только определение в Windows);
з) FDD (тестируется одновременно с прошивкой BIOS);
и) SATA (достаточно только правильное определение HDD);
к) обоих IDE. С некоторыми HDD иногда происходит печальная вещь — они напрочь отказываются детектиться. Причем это довольно случайный процесс, и простой сброс CMOS при этом не помогает. Необходимо зайти в BIOS, пункт Drive configuration, изменить там режим работы HDD каналов c Enchanced на Legacy и выбрать любые три канала, которые будут использоваться. После перезагрузки HDD определится;
л) PCI шины (можно не тестировать, если происходит правильное определение LAN или fireware, так как они абоненты PCI шины, а также, если происходит стандартная правильная работа POST карты).

Авторы: О. Мищенко, Iterov aka Terg
Опубликовано: 30.11.07

Источник

День из жизни новоприбывшего сервера: как мы проверяем и восстанавливаем железо

В этой статье хочу немного рассказать о внутренней кухне Сервер Молл и о том, как происходит тестирование и восстановление серверов. Постараюсь наглядно показать отличие обыкновенного «б/у» сервера от Refurbished и расскажу о процессе превращения немного “уставшего” железа в практически новое.

Для изучения дивного внутреннего мира отдела предпродажной подготовки Сервер Молл я пообщался с одним из инженеров, который поделился профессиональной смекалкой и опытом. Андрей как раз занимался новоприбывшим IBM System X 3650 M4, так что экскурсия получилась с практическим уклоном.

Допустим, вы решили продать сервер

Сделать это может не только организация, но и физическое лицо, обратившись в Сервер Молл (СМ) за оценкой. На Хабре уже была подробная статья о процессе покупки, поэтому расскажу о том, что происходит дальше.

По полученным в ходе телефонной беседы сведениям специалисты принимают решение о целесообразности покупки, обычно положительное. Все же, приобретение какого-нибудь ProLiant второго поколения вряд ли окажется полезным, поэтому первичная оценка перспектив железа довольно важна. Если все хорошо, то специально обученный экспедитор приезжает к продавцу, проводит визуальный осмотр сервера, проверяет явные ошибки в работе и забирает железо с собой. Покупка серверов проводится компанией по всей России.

Осмотр позволяет примерно оценить затраты на восстановление сервера: тот же крупный скол на корпусе запросто может быть вызван падением, с последующим возникновением плавающих ошибок из-за микротрещин в текстолите материнской платы. Серверы роняют вообще не часто, но зато очень метко. Сам был свидетелем перевозки тройки машин DL380 в багажнике седана, из которого одну из железок неловко извлекли. Визуально у сервера лишь отвалилось ухо и помялся уголок, но при старте мы получили ошибки по системе охлаждения и периодические перезагрузки.

Еще при осмотре сервер включают, смотрят на индикаторы самодиагностики и ошибки консоли. Если ничего критичного, то совершается сделка и машина передается далее по инстанциям.

Изначально, наши инженеры поинтересовались статистикой наработки на отказ основных узлов, чтобы не бороться с тем, что нужно просто заменить. Основным показателем надежности считается MTBF (Mean Time Between Failures), то есть время, в течение которого не будет сбоев. Для каждого компонента цифра разная, и официальных данных обо всех компонентах так просто не получить.

Но для ориентира можно использовать отчеты некоторых OEM производителей, чье железо используется в любом брендовом сервере. Например, у SSD intel 520, MTBF составляет 1 200 000 часов. Разумеется, это не значит, что диск проработает 136 лет, так как эта характеристика статистическая и выводится при тестировании большой партии. Удобнее для понимания показатель AFR (Annual Failure Rate), выводимый из MTBF по формуле AFR = 1-exp(-8760/MTBF).

Для нашего примера вероятность сбоя диска SSD в первый год составит приблизительно 0.007, т.е 0,7%. Для менее точного расчета используют формулу 8760/MTBF. Уже написано довольно много статей на тему расчета этого показателя, так что любопытствующие могут обратиться к опубликованным материалам.

Серверное ТО

Все новоприбывшие серверы проходят обязательный цикл тестирования и очистки. Кроме того, восстанавливаются серьезные физические дефекты, вроде погнутых монтажных «ушей».

Совсем косметические вещи, вроде царапин на металле и потертостей, остаются как есть. К слову, металл серверных систем покрыт на заводе специальным антистатическим лаком, восстановить который не так просто. Состав самого вещества точно не известен – почти как приправа в KFC, – поэтому приносим эстетику в жертву защите от статики.

При повреждении так называемых «ушей», за которые сервер удобно выдвигать из стойки, их обычно меняют на новые. В случае с пластиковыми деталями HP они просто меняются на новые, как и петли блоков питания. Монтажные салазки просто заказываются заново. При значительных повреждениях самого корпуса (глубокие и сложные вмятины, например), он просто в сборе меняется на новый.

Повреждений металлических креплений IBM за весь опыт инженеров Сервер Молл не встречалось ни разу. Видимо, широко известная «неубиваемость» систем этого производителя проявляется даже в мелочах.

Показатель самого корпуса составляет 5 000 000 часов;
Дисковая корзина и IMPI-модули отработают 700 000 часов;
Светодиоды рассчитаны на 2 000 000 часов.

Однажды поступил запрос на продажу сервера, который охлаждался табачным дымом несколько лет. Он просто стоял в серверной, забор воздуха в которую производился из соседней курилки. Ароматы продуктов горения табакосодержащей продукции ощущались уже на подходе к пациенту. Модель была актуальной, поэтому решили рискнуть. Вы когда-нибудь отмывали ровный слой табачной смолы? А инженеры Сервер Молл отмывали – один даже курить бросил. Правда, железо в продажу все же не пошло и использовалось для внутренних нужд.

После осмотра инженер снимает крышку корпуса и запускает машину, чтобы послушать звуковой фон вентиляторов, блоков питания и дисков. Некоторые кулеры не выдают никаких ошибок в систему диагностики, но их звук не оставляет никакой веры в дальнейшее будущее подшипников. Такие кулеры просто меняем на новые. Показатель MTBF для систем охлаждения Intel составляет всего 100 000 часов, поэтому замена вентиляторов на новые – обычное явление.

Не менее популярный звук – писк конденсаторов системы питания, которая до последнего светится зеленым в мониторинге. В относительно свежих серверах используются блоки питания с твердотельными конденсаторами, но модели с электролитическими элементами все еще актуальны и поэтому требуют внимательной диагностики.

Время наработки на отказ современных блоков питания может составлять 967 300 часов, если верить данным OEM-производителя Intel. В случае свистов и подозрений на неполадки весь БП меняется на новый, потому что любые работы по пайке нецелесообразны экономически и чреваты для будущего покупателя.

Свето-цифровая диагностика

Большинство современных серверов оснащены системами самодиагностики. Это могут быть LED-индикаторы на передней панели, отдельные модули с перечнем и статусом всех компонентов, просто указатель на наличие какой-либо ошибки. В любом случае, серьезные проблемы с компонентами видны сразу.

Вариант от IBM называется Light Path и представляет собой выдвижную панель с индикаторами и пояснениями;

Dell в большинстве серверов использует LCD-панель для базовой настройки и отображения ошибок с кратким описанием;

Встречаются и упрощенные индикаторы:

HPE предлагает самодиагностику Systems Insight Display LED, панель которой похожа на вариант IBM.

После беглого взгляда на индикаторы начинается долгая программная проверка с использованием штатных диагностических инструментов:

Все эти программы запускаются локально или при помощи средств IMM, DRAC, iLO. Если диагностика не «вшита» в управляющий контроллер сервера, то просто загружаемся с фирменного диагностического диска от производителя. Полная диагностика занимает 2 – 3 часа и находит большинство проблем с памятью, процессором, диагностическим контроллером, вентиляторами, блоками питания и дисковыми контроллерами. Жесткие диски в процессе не участвуют, так как при продаже практически всегда ставятся новые.

Традиционно слабым местом системных плат являлись электролитические конденсаторы. Они вздувались, перегревались, взрывались и приводили к полной неработоспособности. При максимальном температурном режиме MTTF таких элементов составлял до 8 000 часов, что чревато внеплановым ремонтом уже через пару лет эксплуатации. Поэтому в современных серверных системах используются твердотельные конденсаторы, которых хватит на несколько «жизней» сервера. Общий MTBF материнской платы на примере Intel S1200V3RPM это подтверждает и составляет 371 523 часа.

После вдумчивой проверки сервер полностью разбирается до состояния «голый корпус и комплектующие на столе», после чего все компоненты тщательно чистятся и промываются спиртом. Спирт не вредит токопроводящим дорожкам, элементной базе и лаку материнской платы, а потому широко используется для придания платам первозданного вида. Во избежание накладных расходов и в качестве меры борьбы с пьянством, спирт используется изопропиловый.

Пристальное внимание уделяется разъемам материнской платы. В частности, инженер рассматривает через увеличительное стекло сокет процессора на предмет загнутых пинов, ведь даже одна испорченная ножка может вызвать самые непредсказуемые последствия. Не остаются без внимания слоты PCI и оперативной памяти, проверяются линки сетевых портов. В качестве «вишенки на торт» меняем батарейку BIOS, на всякий случай.

После купания сервер передают на склад, где со всех комплектующих считываются штрих-коды для внутренней складской базы. Потом железо ждет на полке своего покупателя вместе с логами тестирования и гарантийным листом, куда занесены серийные номера всех комплектующих.

И вот пришел заказ именно на этот сервер

Редко когда заказчик выбирает конфигурацию «как есть» и не хочет ничего добавить. Поэтому заказанное железо доукомплектовывают новыми дисками, процессорами, блоками питания определенной мощности, памятью и необходимыми контроллерами. После этого сервер снова передают инженерам по тестированию для предпродажной проверки.

Из инструментов используется встроенное диагностическое ПО производителя сервера и пара утилит с внешнего диска. Предпродажная проверка занимает около десяти часов и проводится в стрессовом режиме:

Процессоры и память работают на максимуме своих возможностей;
Блоки питания отдают всю мощность, даже если их несколько;
Под нагрузкой выявляется большинство бракованных жестких дисков;
Вся элементная база сервера работает так, как вряд ли будет работать в повседневной эксплуатации.

На этом этапе, кстати, обнаруживаются «тонкие» изъяны блоков питания. Так что одной их проверкой на свист в Сервер Молл не ограничиваются. На этом же этапе возможна безусловная замена блока питания на новый, если заказчик решил приобрести сервер с одним блоком питания, несмотря на перспективы использования отказоустойчивых вариантов.

Новые жесткие диски не тестируются только тогда, когда заказчик по своим соображениям просит прислать их не распакованными.

Для полноценной проверки всех сетевых интерфейсов машина грузится с внешнего диска в специально подготовленной среде на базе Windows 2012R2. Сервер подключается к локальной сети и инженер последовательно запускает копирование одного большого файла и множества мелких. Если потери пакетов превышает 1% – сетевая карта подлежит диагностике и замене.

С помощью Memtest дополнительно тестируется память на всех системах, кроме IBM. Дело в том, что проверки Memtest на машинах IBM практически всегда находят несуществующие ошибки на одном из слотов. Такая вот техническая особенность.

При сбое любого из компонентов сервера все тестирование начинается заново, что позволяет избежать возможных проблем с совместимостью замененных комплектующих.

Один раз всплыла любопытная проблема с контроллером RAID в сервере Dell: все тесты были пройдены успешно, но после перезагрузки BIOS начал показывать ошибки уже довольно редкого контроллера H710. Из-за поисков равноценной замены отгрузку сервера пришлось задержать на один день, который был компенсирован заменой на более современный адаптер H330 с вдвое большей пропускной способностью.

Итого, на каждый сервер уходит около 16 часов:

2 – 3 часа первичное тестирование;
3 часа на чистку и купание;
10 часов отнимает предпродажное тестирование.

В комплекте с прошедшим все испытания железом покупатель получает флеш-накопитель с журналом тестирования, инструкцию к серверу, полезные ссылки и оффлайн-версию статьи о распространенных ошибках именно этого производителя.

Отдельного упоминания заслуживает подготовка сервера к отправке. Упаковка разработана самостоятельно и, по отзывам, превосходит качеством оригинальную. Сервер запаивают в пленку с силикагелем (поглотителем влаги), оборачивают вспененным полиэтиленом, упаковывают в прочный картон и отправляют заказчику.

Вместо заключения

На восстановленные вышеописанным образом машины Сервер Молл дает собственную гарантию 3 года. Причем, в стандартный набор услуг входит как замена отказавших компонентов в течении пары дней, так и полная замена всего сервера при критических неполадках. Подробнее о гарантийной поддержке и ее отличиях от фирменных предложений HP, IBM и Dell вы можете узнать в одной из прошлых статей.

К слову, за время существования компании полная замена потребовалась только один раз. Глюк оказался невоспроизводимым и в присутствии инженеров Сервер Молл все работало как часы. Вот она, админская аура в действии!

Комментарии 31

Из инструментов используется встроенное диагностическое ПО производителя сервера и пара утилит с внешнего диска.

Про «замену сервера полностью» — сказку оценил, но вы, по-моему, несколько не по адресу, тут все-таки технический ресурс. Я про все гарантийные случаи, а не про некую мифическую «замену сервера». Если вы говорите, что у вас один гарантийный случай за все время существования — то либо вы существуете месяц-два, либо вы невероятно удачливая компания. Про процент RMA по _новым_ серверам у тех же IBM / Dell / HP я вполне в курсе. У вас он какой?

Про «внутреннюю железячную диагностику» — тут вопрос не в «доверяете — не доверяете», а в том, что «внутреннее диагностическое ПО производителя» толком нагрузочно ничего не тестирует, оно вообще для других целей создано. Нагрузочные тесты IBM / Dell / HP / кто угодно проводят несколько другими способами, которые кому попало не раздаются. И, как мне кажется, про это вы тоже в курсе, раз уж запускаете как минимум Memtest. Запускаете, кстати, как я понял, все вручную (косвенно на это еще указывает отдавание заказчику флешки с логами)?

Окей, процент RMA вы рассказывать стесняетесь, по крайней мере публично 🙂 Вообще, если хотите — можем в личное общение уйти. Мне действительно любопытно еще кое-какие вещи узнать — например, сколько времени оператора уходит на тестирование сервера.

Тесты производятся все же не на самосборном железе

Пардон, а на чем же еще? Вы именно что меняете все целиком — разбираете все, а потом собираете обратно из компонентов. Памяти ставите столько, сколько заказали, диски — как заказали, контроллер — если заказали и т.д. и т.п. Процессор, соответственно, всю систему охлаждения заново устанавливаете. Все эти шаги подвержены человеческим ошибкам — собственно, зачастую с ними и есть проблемы. И ради этого обычно все и тестируется.

Немного статистики:
-Около 1200 серверов продано.
-Произведена 1 полная замена сервера.
-9 раз меняли планки памяти.
-3 раза умер вентилятор.
-1 раз умер парный блок питания и контроллер RAID.

По дискам информации нет.

Пардон, а на чем же еще? Вы именно что меняете все целиком — разбираете все, а потом собираете обратно из компонентов.

Компоненты ставятся все те же и подключаются аналогично. Руки с заземляющими браслетами, все как обычно. Разборкой-чисткой занимается не абы кто, а инженер с соответствующей подготовкой. Разумеется, вероятность повреждения все равно сохраняется – для этого и проводятся тесты, а не просто выдается доукомплектованный сервер.

Если вы знаете что-то интересное о внутренних этапах проверки железа на конвейере – расскажите плиз. Думаю, всем будет интересно.

Да это печальная байка, произрастающая из конца 90-х, когда делегация от одной из относительно крупных тогда российских компьютерных фирм съездила в тур по китайским OEM-заводам, увидела там R&D-департаменты с термокамерами и вибростендами, а потом вернулась домой и, увидев печальную статистику по RMA дома, решила, что «нам нужно тестировать». Взяв за основу великую мысль о том, что нужно «тестировать под нагрузкой на температуру и вибрации», люди натурально заказали в каких-то НИИ несколько дорогущих промышленных термокамер и вибростендов. Ну, и закатили с большой помпой презентацию и пресс-конференцию, водили всех партнеров и журналистов, рассказывали-показывали — мол, вот, у нас все по-серьезному теперь, как у больших. Ни у кого другого таких стендов нет. Все, мол, на коленке собирают, а у нас вот реально проверенное тяжкими испытаниями железо. И, собственно, и правда начали жарить и трясти собираемые компьютеры.

Первыми через месяц-полтора взвыли сейлзы, т.к. оказалось, что все сроки поставок катастрофически затягиваются. Потом взвыли закупщики — перепробовав почти все комплектующие, что есть на рынке, оказалось, что такие тесты убивают приличный их процент прямо в процессе теста, практически вне зависимости от производителя. Техдиректор пошел на уступки — от тех самых «жарить и трясти» по 10-12 часов остались символические полчаса, процесс как-то худо-бедно восстановился.

А через полгода взвыл RMA-отдел, т.к. рекламаций по этим машинам было чуть ли не каждая вторая, если не первая.

Но мысль о том, что нужно тестировать «в термокамерах» и «на вибростендах» ходит до сих пор.

Вы когда-нибудь отмывали ровный слой табачной смолы?

А почему фоток нет? Знаете, скольким людям надо помочь бросить курить… а фотки лёгких уже почти не помогают).

Давайте немного математики. Предположим что есть некая компания, у которой есть некое приложение, которое жрёт оперативной памяти не меряно, а с учетом SaaS модели еще и процессор иногда нужен под несколько систем клиентов. Волей случая компания арендует сервера в селектеле. Открываем прайс молла и прайс селектела.
Для примера возьмем младшую модель с SSD дисками
Intel Xeon E3-1230v5 3.4 ГГц (4 ядра) 32 ГБ DDR4 2 × 240 ГБ SSD 10.000р в месяц. Итого 120 тысяч в год.
Берем примерный аналог
Intel Xeon X5675 (6C 12M Cache, 3.06 GHz) dl360 G7 36гб + 2ссд диска. 100.000р Плюс 2.200 за колокейшн. Итого 126.000 в год.

С учетом того, что компания работает индивидуально по рассрочке, получаем примерно следующий вариант. Платим порядка 40% сразу, потом по 5 тысяч в месяц в тч года. И сервер переходит в собственность. Плюсуем сюда еще 2 года гарантии, и получаем 2 года профита.

Могу в математику еще углубиться. Но когда мы закупали сервера — получалось что мы делаем первый платеж порядка 200 тысяч (типа инвестиции), потом платим выкупную стоимость (которая получалась примерно равна ежемесячному платежу селектелу) в тч года. Через год это уже наши сервера + остается 2 года бесплатной замены всего, кроме дисков. Мы получили в 2 раза больше мощностей (2х процессорные сервера вместо однопроцессорных) и в 2 раза больше оперативной памяти, чем было на арендуемых серверах.
В сумме используем сейчас 8 купленных серверов примерно такой конфигурации:
Xeon x5670 от 128 до 256 гб оперативной памяти

За пол года из неприятностей:

Неделю назад один из серверов с 256 гигами оперативки перезагрузился и теперь видит только 176 гигов. Коллеги из молла ждут, пока мы разгрузим сервер, чтобы либо заменить его, либо починить.
Месяц назад докупали SSD диски на 3 сервера. Один из серверов отказался видеть диск. Коллеги ждут нашей отмашки, чтобы съездить в селектел и выяснить причины.

Понятно, что есть разница между процессорами, ддр3 и ддр4. Тут стоит вопрос потребностей. Нам надо было много ядер и много оперативной памяти.

Источник

Читайте также: Ремонт мкпп туссан 2008

Ремонт серверной материнской платы

Ремонт материнских плат

День из жизни новоприбывшего сервера: как мы проверяем и восстанавливаем железо

Допустим, вы решили продать сервер

Серверное ТО

Свето-цифровая диагностика

И вот пришел заказ именно на этот сервер

Вместо заключения

Похожие публикации

Как получить много сервера за мало денег: варианты земные и облачные

Самые популярные модели refurbished-серверов

Старый новый рынок или как восстановленные серверы покорили США и Европу

Комментарии 31