Волоконно-оптические кабельные сети для центров обработки данных с искусственным интеллектом: руководство по оптимизации-высокой производительности

Apr 24, 2026

Оставить сообщение


1. Почему оптоволоконный кабель является подходящей основой для центров обработки данных с искусственным интеллектом

 

В контексте современной инфраструктуры искусственного интеллекта оптоволоконный кабель стал основной средой межсоединения для крупных-центров обработки данных- не потому, что альтернативы медным кабелям исчезли, а потому, что совокупные требования к пропускной способности, радиусу действия, стабильности задержек и устойчивости к электромагнитным помехам создают сложную техническую ситуацию, которую медь не может решить в масштабах кластера искусственного интеллекта.

Рабочие нагрузки обучения ИИ, особенно большие языковые модели, распределяют вычисления между тысячами графических процессоров, которые должны обмениваться параметрами градиента на каждом этапе обучения. Одна широко цитируемая отраслевая оценка предполагает, что задержка сети может составлять примерно 20–30 % от общего времени обучения настенных-часов при больших распределенных запусках¹. Поскольку одна кампания по обучению обходится в миллионы долларов, даже 50 нс предотвратимой задержки -, эквивалентной примерно 10 м лишнего волокна -, имеют измеримый финансовый вес. Медная передача не может соответствовать полосе пропускания, охвату или масштабируемости, которые требуются в этих средах.

 

1.1 Четыре свойства, которые определяют оптический-первый дизайн

Свойство Почему это важно для AI Fabrics Медный эквивалент
Плотность полосы пропускания Одномодовое-волокно передает от 100G до 1,6T на пару волокон; параллельные магистрали MPO линейно масштабируют плотность портов без пере-перетягивания кабелепровода Максимальная мощность ~400G на очень коротких расстояниях.
Стабильность задержки Все операции графического процессора-сокращения десинхронизируются, когда задержка по-каналу различается в зависимости от модуля; длина волоконно-оптических путей может-согласовываться на уровне метров Сборки ЦАП имеют фиксированную короткую длину, поэтому их сложно разместить в большом помещении.
иммунитет к электромагнитным помехам Стойки с высокой-плотностью (30–100 кВт) генерируют значительный электромагнитный шум, который искажает медные сигналы в масштабе нескольких-стоек. Требуется экранирование, увеличивается диаметр и вес кабеля.
Мощность на бит Один многомодовый приемопередатчик 800G OSFP обычно потребляет на 1–2 Вт меньше, чем его одномодовый эквивалент [2]; при 768 трансиверах на опорный кластер экономия достигает примерно 1,5 кВт в непрерывном режиме. Активный ЦАП или AOC на частоте 800G использует сопоставимую мощность без каких-либо преимуществ

2. Выбор правильного типа волокна: сравнение OM3, OM4, OM5 и OS2.

 

Решение о типе волокна определяет потолок для каждого повышения скорости на следующие 15–20 лет. Стекло служит гораздо дольше, чем трансиверы или переключатели; выбор неправильного класса сегодня означает откат,-при повышении скорости. Вот полная структура решения.

НашАссортимент продукции для внутреннего оптоволоконного кабеляохватывает варианты OM4, OM5 и OS2. Приведенные ниже критерии выбора применяются независимо от поставщика.

 

2.1 Полная матрица сравнения

Волокно Основной Куртка Досягаемость 400G Досягаемость 800G Лучший вариант использования
ОМ3 50 µm Аква ~70 м (СР8) Не рекомендуется Только устаревшие версии - следует избегать в новых сборках
ОМ4 50 µm Аква ~100 м (СР8) ~60 м (СР8) Внутри-графический процессор-к-листу; наиболее экономически-эффективный для<100 m
ОМ5 50 µm Зеленый лайм ~150 m ~100 m Многомодовый режим,-готовый к будущему; поддерживает мультиплексирование длин волн SWDM для 1,6T
ОС2 (СМ) 9 µm Желтый 2 км+ (FR4) 2 км+ (2xFR4) Spine links, inter-building, DCI - anywhere >100 m

Примечание о стоимости:Оптоволокно OS2 стоит примерно столько же за метр, что и OM4 -, разница в стоимости полностью зависит от трансиверов. Для одномодового-мода требуются DFB-лазеры; в многомодовом режиме используются более дешевые-VCSEL. Если расстояние между графическим процессором-к-leaf составляет менее 100 м, многомодовый режим выигрывает при использовании $/port почти в каждом сценарии.

 

2.2 Правило выбора 30-секундного волокна

Сценарий Рекомендуемое волокно Обоснование
< 100 m, high density, cost-sensitive ОМ4 + МПО-12/16 параллельная оптика Лучшая цена за порт; сегодня охватывает большинство операций графического процессора-к-листовым узлам
< 150 m, planning beyond 800G OM5 (оплата 15–25% премии один раз) Поддерживает SWDM для будущих моделей 1,6T без пере-передергивания кабеля.
>150 м, любой отрезок или меж-перемычка между зданиями OS2 с дуплексом LC или MPO-12 Одиночный-режим – единственный возможный вариант на таких расстояниях.
В-стойке, < 5 м ЦАП медь Самая низкая задержка и стоимость; резервное волокно для участков, куда медь не может попасть

Информацию о широкополосной многомодовой спецификации OM5 см.АНСИ/ТИА-568.3-Е(OM5 формально определяется как WBMMF в разделе 5).


3. Разъемы и полярность: MPO-12, MPO-16, MTP и сравнение типа B и типа C.

 

Когда скорость соединения превышает 400G, почти каждое соединение становится параллельным - по нескольким оптоволоконным линиям, передающим часть общего сигнала. На этом этапе разъемы и полярность становятся основными причинами сбоев на местах, опережая проблемы с качеством волокна или длиной маршрута.

 

3.1 MPO и MTP - Практическое различие

MPO (Multi-Fiber Push-On) — это базовый стандарт IEC 61754-7/TIA для многоволоконных разъемов. MTP® — это разработанная компанией US Conec реализация с - более жесткими механическими допусками, плавающим наконечником и, как правило, меньшими вносимыми потерями. Каждый разъем MTP соответствует требованиям MPO-; не каждый разъем MPO соответствует спецификациям MTP. Для 400G и выше укажите MTP Elite с низкими потерями-(или эквивалент) — целевое значение вносимых потерь должно быть меньше или равно 0,35 дБ на сопряженную пару. Полную информацию о продукте MTP можно найти на странице продукта Conec MTP в США.

Glory Optics поставляет ряд сборок и магистралей MTP/MPO, сертифицированных на уровень менее или равный 0,35 дБ на сопряженную пару для приложений 400G и 800G.

MPO To MPO Fiber Cable

3.2 Количество волокон - МПО-8, МПО-12, МПО-16, МПО-24

 

Разъем Активные полосы Общие скорости Ключевые примечания
МПО-8 4 передача + 4 прием 100G-SR4, 400G-DR4 Простой; широко поддерживается; нет запасных волокон
МПО-12 8 активных + 4 не используется 100Г/200Г/400Г (СР8, ДР4) Соединитель «Рабочая лошадка» для большинства современных развертываний
МПО-16 8 Tx + 8 Rx (все активны) 800G-SR8/DR8 Де--стандарт 800G - де-факто активно использует все 16 волокон.
МПО-24 24 Багажник / прорыв Магистрали миграции высокой-плотности; вырывается на 2× МПО-12 или 3× МПО-8

 

3.3 Управление полярностью: основная причина сбоев канала

 

Несоответствие полярности является основной причиной'ссылка не открывается'билеты на тканях AI. Три метода полярности определены TIA-568.3-E:

Тип полярности Механизм Рекомендуемое использование
Тип A (прямой-проходной) Волокно 1 на одном конце соединяется с волокном 1 на другом конце. Редко используется в новых сборках; только наследие
Тип B (перевернутые пары) Ключевое-до ключевого-спаривания; пары меняются местами от конца-к-концу Доминирующий выбор для развертываний от 40G до 400G.
Тип C (перевернутые пары + вращение ключа) Клавишу-вверх до клавиши-вниз; используется с дуплексными-модулями замены пар Становится стандартом для параллельной оптики 800G (SR8, DR8).

 

3.4 APC и UPC End-Face - Почему это важно для готовности 1,6T

 

Для одномодовых-каналов связи 800G все чаще требуются разъемы APC (физический контакт под углом 8 градусов) для подавления обратного-отражения ниже порогового значения, которое ухудшает стабильность DFB-лазера. Разъемы UPC работают для многомодовых каналов и более коротких-модовых прогонов, но для модулей OSFP 2xFR4 - и всего, что рассчитано на 1,6T - APC, это правильная спецификация.Важно: никогда не соединяйте разъемы APC с разъемами UPC.Это приводит к оптическому разрушению и вносит вносимые потери на 6–10 дБ -, достаточные для отключения любого канала.


4. Сетевая архитектура: интерфейсная и серверная части, листовой-Spine и эталонный дизайн DGX.

 

Каждый центр обработки данных искусственного интеллекта управляет двумя логически различными сетями с принципиально разными схемами трафика и требованиями к производительности.

В кластерах раннего-поколения (2022–2023 гг.) это различие часто недооценивалось, маршрутизируя коллективный трафик графических процессоров через-внешнюю-инфраструктуру общего назначения -, что постоянно приводило к снижению производительности обучения и конфликтам за полосу пропускания. Поддержание строгого логического и физического разделения является стандартным требованием к проектированию в эпоху 2026 года.

 

4.1 Краткий обзор фронтенда и бэкенда

Атрибут Фронтенд-сеть Внутренняя фабрика искусственного интеллекта
Схема движения Север-юг: трафик пользовательских API, хранилище, управление Восток-запад: все-уменьшение, синхронизация градиента, коллективная связь
Топология 3-уровень или листовой Ethernet Rail-оптимизированный листовой-корешок; часто InfiniBand NDR/XDR
Скорость соединения (2026 г.) 25G – 400G 400G – 800G сейчас; Развертывание 1,6T начнется в 2026–2027 годах.
Плотность волокна по сравнению с традиционным DC 1x базовый уровень От 4–5 раз (Wesco, 2024 г.) до 10 раз (Corning, 2024 г.) [3]
Стиль прокладки кабелей Структурированная кабельная система с кросс--разъемами Часто направляйте графический процессор-на-листовой предварительно-завершенный MPO; минимальные перекрестные-соединения

 

4.2 Железнодорожная-Оптимизированная листовая-архитектура позвоночника

Эталонный дизайн NVIDIA DGX назначает каждому графическому процессору на сервере выделенный"железнодорожный"- GPU 0 на всех серверах в модуле подключается к одному конечному коммутатору; GPU 1 к следующему листу и так далее. Этот шаблон сохраняет горячий коллективный-коммуникационный трафик (все-сокращение) на одном листе и уменьшает количество переходов для операций, которые занимают большую часть времени обучения ИИ. Для кабельной разводки это означает, что восемь графических процессоров в одном сервере DGX разветвлены на восемь разных конечных коммутаторов - ваш план магистральной линии MPO должен точно отражать эту топологию. Полную информацию об эталонной архитектуре можно найти вРуководство по архитектуре системы NVIDIA DGX H100.

 

4.3 Почему структурированная кабельная система по-прежнему выигрывает в масштабах

Патч-корды прямого-подключения между серверами графических процессоров и конечными коммутаторами минимизируют задержку перехода, но становятся неуправляемыми в эксплуатации, если количество графических процессоров превышает несколько сотен. Для любого кластера, превышающего ~1000 графических процессоров, предварительно -соединительные каналы MTP с кассетными-патч-панелями в корпусах высотой 1U являются единственной архитектурой, которая поддерживает перемещение, добавление и изменение без -ночной замены-кабелей. Специально-системы, такие как Corning EDGE, Leviton e2XHD и CommScope HD8, являются-проверенными платформами для этого шаблона.

Нашоптоволоконная патч-панельЭта линейка предназначена для центров обработки данных с высокой-плотностью и поддерживает терминацию MTP/MPO на основе кассет-.


5. Математика бюджета потерь: почему уровень 0,5 дБ может положить конец тренировочному циклу

 

Каждый оптический канал работает в пределах конечного бюджета мощности, установленного спецификацией трансивера. Вносимые потери от оптоволокна, разъемов и соединений съедают этот бюджет. Когда накопленные потери превышают бюджет, канал либо не может обучаться, либо работает в интенсивном режиме FEC -, который маскирует ошибки, но потребляет дополнительную мощность и тепло приемопередатчика.

 

5.1 Эталонные бюджеты потерь для 400G и 800G

Модуль Макс. охват Общий бюджет Типичные потери в канале (2 MTP + оптоволокно) Доступная маржа
400Г-СР8 (ОМ4) 100 m ~1,9 дБ 0,3 дБ по оптоволокну + 2 × 0,35 дБ MTP=1.0 дБ ~0,9 дБ
400G-DR4 (ОС2) 500 m ~3,0 дБ 0,2 дБ по оптоволокну + 2 × 0,35 дБ MTP=0.9 дБ ~2,1 дБ
800G-SR8 (OM4) 60–100 m ~1,6 дБ 0,25 дБ по оптоволокну + 2 × 0,35 дБ MTP=0.95 дБ ~0,65 дБ - очень туго
800G-DR8 (ОС2) 500 m ~2,7 дБ 0,2 дБ по оптоволокну + 2 × 0,35 дБ APC-MPO=0.9 дБ ~1,8 дБ

Ключевое понимание:при 800G-SR8 одна грязная торцевая-сторона (которая может добавлять 0,3–0,5 дБ) потребляет 46–77 % доступного запаса. На практике даже один загрязненный разъем на патч-панели листового переключателя может значительно снизить совокупную производительность обучения, прежде чем систематическая проверка изолирует неисправность -, поэтому ведущие операторы теперь рассматривают проверку торцевой-лицевой стороны как этап закрытой приемки при вводе в эксплуатацию, а не необязательную проверку качества.

 

5.2 Шаблон расчета бюджета убытков

Используйте следующую структуру для документирования бюджета потерь канала перед подписанием-установки:

Элемент потерь Значение (дБ) Примечания
Затухание волокна (OM4) 0,003 × длина в метрах например, 100 м=0.3 дБ
Разъем MTP (каждая сопряженная пара) 0,35 дБ макс. Укажите MTP Elite для 800G; стандартный MPO может составлять 0,5–0,75 дБ.
Количество пар разъемов в канале Обычно 2–4 Подсчитайте все соединения патч-панелей и кассет.
Потери на стыке (если применимо) 0,1 дБ на соединение Только для запусков OSP; избегать сращиваний в структурированной кабельной системе
Полная потеря канала Сумма выше Сравните со спецификациями трансивера; целевая маржа 15–20%
Проектная цель (800G-SR8) Меньше или равно 1,3 дБ Оставляет запас для износа разъема и температурного дрейфа

6. Прокладка кабелей, развертывание и тестирование

 

6.1 Предварительное-завершение и полевое-завершение -, когда каждое из них обосновано

Фактор Предварительно-магистральные линии MTP Сращивание на местах
Скорость установки Значительно быстрее в контролируемых средах; В документации системы Corning EDGE указано сокращение времени установки на 40–70 % [3] Помедленнее; каждое завершение требует квалифицированной рабочей силы и времени на лечение
Согласованность вносимых потерь Заводская-полировка; документировано и сертифицировано на каждую сборку Переменная; зависит от навыков технического специалиста и окружающей среды
Лучший вариант использования Все запуски графического процессора-к-листу и листу-к-позвоночнику, где длина маршрута известна. Меж-проходы OSP, точная длина которых не может быть-определена заранее
Рассмотрение стоимости Более высокая стоимость компонентов; более низкие затраты на рабочую силу в масштабе Более низкая стоимость компонентов; более высокие затраты на рабочую силу и риск переделок

Для любого кластера графических процессоров значимого масштаба по умолчанию используются предварительно-завершенные сборки. Сращивание на месте сохраняется только на внешних-заводских участках.

 

6.2 Прокладка кабелей при 10-кратной плотности волокна

Соблюдайте минимальный радиус изгиба:10× диаметр кабеля под нагрузкой, 20× при монтаже. Нечувствительное к изгибу-волокно (BIF) допускает более крутые повороты, но не допускает острых углов на патч-панелях.

Разделение горячих и холодных коридоров:пучки верхних магистралей не должны препятствовать возвратному потоку воздуха из горячих коридоров к блокам CRAH - это распространенный режим сбоя управления температурным режимом при высокой плотности стоек графических процессоров.

Перед установкой промаркируйте каждый конец:волокно, проложенное без метки на обоих концах, является будущей проблемой устранения неполадок.

Цветовой-код для поездов и капсул:поэтому визуальную проверку ходов можно выполнять без обращения к документации во время-нехватки времени.

 

6.3 Четырехуровневый-протокол тестирования

Систематическое приемочное тестирование не является обязательным, - его пропуск постоянно переносит поиск неисправностей-на производство, где стоимость простоя намного превышает стоимость самого тестирования.

Уровень Тип теста Метод/Стандарт Что он ловит
Уровень 1 Визуальный/торцевой-осмотр Область применения оптоволокна соответствует IEC 61300-3-35; очистите и повторите проверку при необходимости Загрязнения, царапины, сколы - источник №1 потери прибыли.
Уровень 2 Вносимые потери + полярность Окруженный-поток OLTS согласно IEC 61280-4-1; VFL для проверки полярности Перерасход потерь, несоответствие полярности, неправильная прокладка кабеля
Уровень 3 OTDR (только неисправность-) Fluke OptiFiber Pro или Viavi T-BERD, когда потери не соответствуют техническим характеристикам Определяет место повреждения: разъем, место соединения, макроизгиб или разрыв.
Уровень 4 Проверка живого трафика NCCL все-сокращенные тесты (nccl-тесты) на эталонном модуле Проверяет, обеспечивает ли физический уровень базовую пропускную способность-уровня приложения.

Методика тестирования OTDR для центров обработки данных подробно описана в IEC 61280-4-4. Документация по эталонным тестам NCCL хранится по адресуNVIDIA NCCL тестирует GitHub.


7. Руководство по переходу от 400G к 800G

 

Большинство операторов не работают с нуля. Сегодня они используют 400G, сталкиваются с необходимостью развернуть поколения графических процессоров 800G и нуждаются в пути миграции, который сохранит существующую оптоволоконную линию. Следующий поэтапный подход отражает закономерности развертывания, наблюдаемые в нескольких крупномасштабных-проектах миграции.

 

7.1. Шестимесячный график поэтапной миграции

Фаза Тайминг Ключевые виды деятельности Меры по контролю рисков
1. Аудит и планирование Месяц 1 Инвентаризация существующей установки OM4/OS2; выявить пробелы между МПО-12 и МПО-16; заказать 20% запасного багажника; заморозить архитектуру до закупки оптики Заморозка архитектуры перед заказом оптики. Изменения - после заказа влекут за собой штраф в размере 4–8 недель.
2. Лабораторное взаимодействие Месяц 2 Тестирование взаимодействия всех комбинаций оптики и переключателей; проверить настройки PFC и ECN; базовый уровень NCCL все-сокращение на эталонном модуле Затраты на исправление в лаборатории ≈ 10 % от стоимости исправления на производстве - этот этап окупается.
3. Обновление позвоночника Месяц 2–3 Сначала обновите коммутаторы позвоночника; изначально запустите режим совместимости 400G; используйте коммутационные кабели 800G→2×400G для соединения старых листовых коммутаторов Кабели для прорыва сокращают капитальные затраты примерно на 40 % в период миграции; сохранить откат
4. Миграция листьев Месяц 4–5 Обновление листового переключателя; обновление сетевой карты сервера; замените MPO-12 транков на MPO-16, если этого требуют порты 800G-SR8 Сохраняйте путь отката 400G в течение 30 дней после-миграции для каждого модуля.
5. Переключение производства Месяц 6 Переключите все каналы на полную скорость 800G; повторно-базовый уровень NCCL, все-сократить; настроить FEC/PFC на новые скорости Вступайте в работу-только после подписания приемки уровня 1 и уровня 2-для всего предприятия.

8. Подготовка к 1.6T: архитектура, оптоволокно и сроки

 

1.6T Ethernet не является теоретическим пунктом дорожной карты.IEEE 802.3dj- Стандарт, регулирующий передачу сигнала 1,6 Т по многомодовому и одномодовому- оптоволоконному кабелю -, находится на стадии ратификации и, как ожидается, достигнет окончательного утверждения в 2026 году. Первые образцы трансиверов 1,6 Т от основных поставщиков уже находятся на стадии оценки заказчиков. В этом разделе рассказывается о том, что вам нужно решить сейчас, перед следующей сборкой.

 

8.1 Форматы трансиверов и целевые показатели достижения

Формат модуля Тип волокна Целевой охват Структура полос Ключевая зависимость
1,6Т-SR16 ОМ4 или ОМ5 50–100 m 16 линий VCSEL 100G (МПО-32) OM5 настоятельно предпочтителен; Радиус действия OM4 может быть ограничен 50 м.
1,6Т-DR16 ОС2 500 m 16 линий SMF 100G Требуются разъемы APC; 200G-линейный SerDes на коммутаторе ASIC
1,6 Т через WDM (OM5) ОМ5 100–150 m 4 длины волны × 400G SWDM OM5 — единственное многомодовое волокно, поддерживающее SWDM такой плотности.
CPO (со-комплектная оптика) ОС2 или ОМ5 Стойка-к-стойке Волокно напрямую для переключения кремниевого корпуса Требуется выделенный оптоволоконный канал на передней панели коммутатора; нет подключаемого трансивера

 

8.2 Четыре инфраструктурных решения, которые необходимо принять сегодня для готовности к 1,6T

Переключить выбор ASIC:Выбирайте ASIC с поддержкой 200G-lane SerDes.. 100G-ASIC (которые используются в большинстве современных платформ 400G/800G) не могут поддерживать 1,6T без полной замены кремния. Это решение с самой высокой-затратой, которое можно отменить позже.

Оптоволоконная установка - идет OM5 или OS2:OM4 не будет поддерживать доминирующие форматы многомодовых трансиверов 1,6T (варианты SR16, SWDM) при стандартной дальности действия. Если вы сегодня подключаете новое волокно для стойки, которая будет модернизирована через 24–36 месяцев, дополнительные затраты на OM5 по сравнению с OM4 обычно составляют 15–25 % от стоимости оптоволокна -, что представляет собой долю будущего повторного-вытягивания.

Планируем разъем - МПО-32 для SR16:1.6T-SR16 требует разъемов MPO-32, которые не имеют обратной совместимости с MPO-12 или MPO-16 на физическом уровне. Соответственно спланируйте путь и плотность панелей. Отрыв от МПО-32 к 2×МПО-16 будет доминирующим переходным кабелем для перехода.

Резервирование пути CPO:Совмещенная оптика позволяет отказаться от подключаемых трансиверов и прокладывать оптоволокно непосредственно к пакету ASIC коммутатора. Оставьте 200–400 мм свободного горизонтального пространства на передней стороне коммутатора в конструкциях стоек, предназначенных для платформ 2027+. Создание этого пространства в плотной капсуле задним числом является дорогостоящим с операционной точки зрения.

 

8.3 1.6Контрольный список готовности

Элемент инфраструктуры 1.6Т Готовы? Действие, если не готов
Тип волокна: OM5 или OS2 Да Никаких действий не требуется
Тип волокна: OM4 Частичный Запланируйте повторную-загрузку для запусков SR16; SWDM не будет поддерживаться
Тип волокна: OM3 Нет Замените перед следующим циклом обновления
Коммутатор ASIC: 200G-lan SerDes Да Никаких действий не требуется
Коммутатор ASIC: 100G-lan SerDes Нет Запланировать обновление ASIC; невозможно обновить программное обеспечение
Установлены стволы МПО-16 Частичный Мосты до 1,6Т через прорыв 2хМПО-16; приемлемо для окна 12–24 месяцев
Запланирован путь МПО-32 Да Никаких действий не требуется
Разъемы APC на OS2 работают Да Никаких действий не требуется
Емкость запасного порта Больше или равна 20 % на листе/корешке Да Никаких действий не требуется; Рост кластера ИИ является нелинейным-линейным.
Пространство пути CPO зарезервировано на лицевой стороне переключателя Да Никаких действий не требуется

9. Окупаемость инвестиций и совокупная стоимость владения: обоснование инвестиций в оптоволокно

 

Проекты оптоволоконной инфраструктуры иногда блокируются на этапе утверждения CAPEX, поскольку статья расходов видна, а затраты, которых можно избежать, — нет. Полный взгляд на совокупную стоимость владения постоянно опровергает этот вывод.

 

9.1 Пять статей совокупной стоимости владения

Категория совокупной стоимости владения Водитель Порядок величины
CAPEX - оптоволокно + разъемы Один-раз; масштабируется в зависимости от количества портов и сложности маршрута Обычно < 5 % от общей стоимости создания кластера.
Капитальные затраты - оптика Доминирующий фактор затрат; Оптика 800G OSFP существенно выше, чем 400G. Планируйте бюджет отдельно для каждого-порта; цены снижались значительными темпами из года в год-по сравнению с-годом (проверьте текущие цены с помощью LightCounting или Cignal AI)
OPEX - мощность (трансиверы) Многомодовый режим экономит 1–2 Вт на каждый трансивер по сравнению с одномодовым эквивалентом [2] ~1,5 кВт в непрерывном режиме на опорный кластер на 768 портов; ~130 МВтч/год
Эксплуатационные затраты - на охлаждение Прямо пропорциональна дельте мощности трансивера. ~1,3× экономия энергии трансивера (коэффициент эффективности PUE)
OPEX - во избежание простоев Предварительно-модульные кассеты значительно сокращают среднее время восстановления (MTTR) Модульная структурированная кабельная система неизменно демонстрирует меньшее-время устранения сбоев по сравнению с прямым-развертыванием исправлений в обзорах после-развертывания; конкретные цифры проекта-должны основываться на ваших собственных данных MTTR

 

9.2 Справочный шаблон расчета рентабельности инвестиций

Следующая структура представляет собой стартовую основу для построения собственного сценария совокупной стоимости владения. Фактические значения зависят от размера кластера, местных затрат на электроэнергию и структуры соглашения об уровне обслуживания.

Переменная Пример значения Ваша ценность
Общее количество портов трансивера 10 000 портов  
Экономия энергии на порт (MM против SM) 1.5 W  
Общая экономия энергии (непрерывная) 15 000 Вт=15 кВт  
Годовая стоимость энергии (@ 0,08 долл. США/кВтч) 15 кВт × 8760 ч × $0.08=$10 512 в год  
Коэффициент охлаждения (PUE ~1,3) 10 512 долларов США × 1.3=13 666 долларов США в год, общая сумма предотвращенных затрат  
Дополнительные капитальные затраты (оптимизированная и минимальная-жизнеспособная сборка) Варьируется; обычно диапазон $150 000–500 000 за сборку с 10 тысячами-портов  
Предполагаемый срок окупаемости 14–20 месяцев (наблюдаемый диапазон, проекты 2023–2025 гг. - сверяются с вашими предположениями о стоимости энергии и оптики)  
Избежание кредитов SLA (оценка) Для конкретного проекта-; 1 избежал серьезного сбоя ≈ 50–500 тысяч долларов США.  

Текущие ориентиры цен на трансиверы см.Исследование рынка LightCountingилиОтчеты об оптических компонентах Cignal AI. Они обновляются ежеквартально и являются стандартными-отраслевыми источниками для моделирования совокупной стоимости владения в оптике.


10. Стандарты, на которые следует ссылаться в запросах предложений и проектной документации.

 

Ссылка на правильные стандарты в документации о закупках не является бюрократическими накладными расходами -, это механизм, который обеспечивает сопоставимость представленных поставщиками материалов и возможность проверки поставленного оборудования на соответствие объективным критериям.

Стандартный Объем Функция запроса предложений Связь
ТИА-942-С телекоммуникационная инфраструктура дата-центра; Уровни с рейтингом от 1 до 4 Устанавливает базовый уровень надежности и требования к кабельным трассам. ТИА-942-С
АНСИ/ТИА-568.3-Е Оптоволоконные кабели и компоненты; Определения OM4/OM5/OS2 Определяет минимальные характеристики соединителя и критерии приемлемости испытаний. ТИА-568.3-Е
ИСО/МЭК 11801-5 Общая кабельная разводка для центров обработки данных (международный эквивалент монтажного приложения TIA-942) Требуется для закупок за пределами-США; соответствует нормативным стандартам EMEA ИСО/МЭК 11801-5
IEEE 802.3df (2024 г.) Ethernet 200G/400G/800G по многомодовому и одномодовому-волоконному кабелю Приведите требования к взаимодействию трансиверов; регулирует оптические характеристики SR8/DR8 ИЭЭЭ 802.3df
IEEE 802.3dj (2026 г., в разработке) 1.6T Ethernet, включая профили FEC и характеристики электропитания для AI-фабрик Укажите в качестве перспективного требования для результатов инфраструктуры с поддержкой 1,6T-готовности. IEEE 802.3dj
МЭК 61300-3-35 Критерии визуальной проверки торца волокна-лица Обязательная ссылка на приемочные испытания уровня 1; определяет зоны «пройден/не пройден» МЭК 61300-3-35
МЭК 61280-4-1 Методика измерения вносимых потерь для установленных волоконно-оптических линий связи Требуемая методология испытаний для приемки OLTS уровня 2; обеспечивает соответствие-потоку МЭК 61280-4-1

Учетные данные дизайнера для указания в запросах предложений: БИКСИ РКДД(Registered Communications Distribution Designer) — это фактический сертификат проектирования кабельных систем в Северной Америке. BICSI DCDC добавляет специфичность центру обработки данных. Для региона EMEA CNet CDCP/CDCS/CDCE является признанным прогрессивным путем сертификации.


11. Часто задаваемые вопросы

 

Технические вопросы

Вопрос: В чем разница между разъемами MPO и MTP?

О: MPO — это стандарт IEC/TIA с несколькими-оптоволоконными разъемами-on (IEC 61754-7). MTP® — это разработанная компанией US Conec реализация с более жесткими допусками, плавающим наконечником и меньшими вносимыми потерями. Каждый MTP соответствует требованиям MPO-; не каждый MPO соответствует спецификации MTP. Для 400G и выше укажите MTP Elite с низкими-потерями (меньше или равно 0,35 дБ на сопряженную пару), чтобы сохранить запас на 800G, где бюджеты ограничены до 1,6 дБ от начала до конца-.

Вопрос: Какой тип полярности следует использовать для 800G?

О: Тип-B был доминирующим выбором в 400G. Для параллельных оптических модулей 800G (SR8, DR8) тип-C становится стандартом, поскольку он правильно обрабатывает инверсию дуплексной-пары, необходимую для этих архитектур приемопередатчиков. Зафиксируйте тип полярности в спецификации, на этикетках-панелей исправлений и в контрольном списке приемочных-тестовых испытаний. - несоответствия полярности можно устранить, но при их обнаружении в производстве требуется 4–8 часов отладки.

Вопрос: Каково максимальное расстояние для оптоволокна OM4 при 400G и 800G?

О: Для параллельной оптики 400G-SR8 OM4 поддерживает расстояние до 100 м. Для 800G-SR8 дальность действия OM4 падает до 60–100 м в зависимости от конкретной реализации трансивера и бюджета потерь в канале. Если вы с самого начала проектируете 800G, учтите более жесткий бюджет потерь и укажите разъемы MTP Elite, чтобы сохранить запас ~0,65 дБ, доступный на канале 800G-SR8/OM4.

Вопрос: Когда следует использовать ЦАП, AOC или трансивер плюс структурированное волокно?

A: ЦАП (медный-прямой монтаж): используется для-стойки длиной менее 5 м. Самая низкая стоимость, самая низкая задержка, оптика не требуется. AOC (активный оптический кабель): подходит для внутрирядных-прокладок длиной 5–30 м, где простота подключения-и-работает важнее, чем возможность модернизации. Трансивер + структурированное волокно: используйте везде. Это единственное решение, которое поддерживает значительные расстояния, позволяет модернизировать оптику без перетаскивания кабеля и оперативно масштабируется за пределы нескольких сотен портов.

Вопрос: Каковы допустимые вносимые потери для канала 800G?

О: Для 800G-SR8 на OM4 бюджет канала от конца-до-конца составляет примерно 1,6 дБ. Спроектируйте с целевым уровнем 1,3 дБ или ниже - запас по высоте 15–20 %, который учитывает износ разъемов, температурный дрейф и ухудшение качества очистки в течение срока службы установки. Всегда проверяйте с помощью OLTS методологию IEC 61280-4-1, прежде чем принимать любую ссылку.

Вопрос: Используют ли центры обработки данных искусственного интеллекта InfiniBand или Ethernet?

Ответ: Оба активно используются в производстве. Эталонная серверная структура NVIDIA использует InfiniBand NDR (400G) или XDR (800G). Многие гиперскейлеры используют RoCEv2 на базе Ethernet- на сопоставимых скоростях с настройкой управления приоритетным потоком (PFC) и явным уведомлением о перегрузке (ECN). InfiniBand обычно обеспечивает меньшую задержку «из коробки». Ethernet стоит примерно на 30–50 % дешевле и взаимодействует с более широкой экосистемой центров обработки данных. Правильный ответ зависит от вашего программного стека - и NCCL (NVIDIA), и OpenMPI поддерживают обе структуры.

Коммерческие и плановые вопросы

 

Вопрос: Сколько стоит оптоволоконный кабель для центра обработки данных с искусственным интеллектом?

Ответ: Оптоволоконное оборудование и разъемы обычно составляют менее 5 % от общей стоимости создания кластера искусственного интеллекта - доминирующим фактором затрат являются трансиверы, которые могут в 10–20 раз превышать стоимость оптоволокна при текущих ценах на 800G OSFP. Приблизительная смета планирования модуля на 1000-GPU с полностью структурированной кабельной системой (транки MTP с предварительной заделкой, патч-панели, кассеты) составляет 150 000–350 000 долларов США для физического уровня, исключая трансиверы, коммутаторы и серверы. Одни только затраты на трансивер 800G могут добавить к одному и тому же блоку 1–4 миллиона долларов в зависимости от типа оптики и поставщика.

Вопрос: Как долго работает установка по производству волокна и когда ее следует заменять?

О: Правильно установленное и обслуживаемое стекловолокно прослужит 15–25 лет с минимальным ухудшением сигнала. - Справочные данные см. в документации по испытаниям волокна на срок службы Corning. Нагрузка на жизненный цикл в центрах обработки данных искусственного интеллекта исходит от приемопередатчиков и коммутаторов, а не от оптоволокна. Сегодня это основной экономический аргумент в пользу инвестиций в OM5 или OS2: оптоволокно переживет два или три поколения аппаратного обеспечения графических процессоров, а стоимость обновления обусловлена ​​тем, что оптика и кремний - не перетягивают-кабель.

Вопрос: Сколько времени занимает переход с 400G на 800G и сколько это стоит?

Ответ: Структурированная миграция кластера с 1000–4000 графических процессоров обычно занимает 4–6 месяцев от аудита до переключения производства, из которых 2 месяца приходится на взаимодействие в лаборатории и планирование. Основная стоимость — замена трансивера; Стратегии прокладки кабелей могут сократить капитальные затраты на промежуточный-переход примерно на 40 %. Запланируйте 20 % резервных магистральных запасов для аудита кабельной установки. - Пробелы, обнаруженные во время установки, влекут за собой штраф в размере 4–8 недель.


Ссылки

[1] Задержка в сети как доля времени распределенного обучения: эта оценка широко распространена в дискуссиях по инфраструктуре искусственного интеллекта и направленно согласуется с опубликованными тестами Google Brain, Meta AI и NVIDIA по эффективности обучения больших-моделей. Недавнюю техническую обработку см. в Rajbhandari et al., «ZeRO: Memory Optimizations Toward Training Trillion Parameter Models», SC '20; и документацию NVIDIA по производительности NCCL. Конкретные значения существенно различаются в зависимости от размера кластера, топологии и типа коллективной операции.

[2] Сравнение энергопотребления многомодовых трансиверов OSFP 800G (SR8 на базе VCSEL-) и одномодовых-(DR8/FR8 на основе DFB-лазерных-) трансиверов. Типичные опубликованные характеристики: Техническое описание Coherent 800G OSFP-DD SR8 (типичная мощность: ~14 Вт); Техническое описание Coherent 800G OSFP-DD DR8 (типичная мощность: ~15–16 Вт). Значения зависят от производителя и условий эксплуатации. Перед использованием в финансовых моделях сверьтесь с конкретными номерами SKU трансивера, указанными в вашей спецификации.

[3] Оценки плотности волокон: (a) Corning Incorporated,Кабельная инфраструктура для центров обработки данных искусственного интеллекта(Информационный документ Corning, 2024 г.) - сообщает о 10-кратном увеличении плотности оптоволокна по сравнению с традиционными корпоративными центрами обработки данных; (б) Wesco International, Анализ рынка инфраструктуры центров обработки данных с использованием искусственного интеллекта (2024 г.) - приводит оценку плотности в 4–5 раз. Показатель сокращения времени установки (40–70%) взят из технической документации системы Corning EDGE™. Свяжитесь с Корнинг (www.corning.com/optical-коммуникации) или Веско (www.wesco.com) непосредственно для доступа к текущей публикации.


О Славе Оптика

Компания оптической связи Ningbo Glory, Ltd.— производитель оптоволоконной инфраструктуры, основанный в 2009 году и поставляющий кабельные компоненты для центров обработки данных, оптоволоконные разъемы, патч-корды, сплиттеры и корпуса клиентам в более чем 40 странах. НашАссортимент кабельной продукции для центров обработки данныхвключает сборки MTP/MPO, оптоволоконные патч-панели и компоненты структурированной кабельной системы, предназначенные для развертываний 400G и 800G.

Для запросов на продукцию или технической консультации:sales@gloryoptic.com | Запросить цену

Отправить запрос