NVIDIA Rubin: сеть, память и GPU-инференс в 2026

Новая платформа NVIDIA важна не только ростом PFLOPS, но и тем, что заставляет операторов заранее проектировать быстрые сети, storage и стойки без скрытых узких мест.

NVIDIA Rubin на CES 2026: почему новая AI-платформа меняет правила игры для 10/100GbE, памяти и GPU-инференса

NVIDIA на CES 2026 показала редкий для индустрии сигнал уверенности: следующий шаг в AI-железе не просто запланирован, а уже физически находится у компании на руках, чипы вернулись с фабрики, а системы поднимаются в лабораториях. Для рынка это важно не из-за громкого названия Rubin, а потому что становится понятнее, куда уйдут узкие места в ближайшие годы и почему инфраструктура вокруг GPU снова будет решать почти все. Когда ускорение на уровне одного GPU заявляется кратным, внезапно выясняется, что сеть, память и сборка стоек начинают ограничивать прогресс сильнее, чем сами вычисления.

Rubin задуман как платформа, а не один звездный GPU. NVIDIA продает идею целого стека, где CPU, GPU, DPU, сетевые карты, NVLink и Ethernet-коммутация собраны в единый конструктор. В их логике это не шесть отдельных чипов, а шесть компонентов одной машины, которая должна быть быстрее в инференсе, заметно сильнее в обучении и при этом эффективнее по энергии. Компания говорит о росте инференса на GPU до 5 раз и обучения до 3.5 раз по сравнению с Blackwell, а также о более высокой производительности на ватт именно в инференсе. Даже если реальные цифры для отдельных нагрузок окажутся скромнее, тренд очевиден: спрос на вычисления будет расти быстрее, чем готовность рынка платить за избыточное питание и охлаждение.

Сердце платформы - это Rubin GPU, который, по заявлению NVIDIA, ориентирован на NVFP4 и способен выдавать до 50 PFLOPS для инференса и до 35 PFLOPS для обучения на той же точности. Важнейший ускоритель ускорителей здесь память: заявлены до 288GB HBM4 и суммарная пропускная способность до 22 TB/s, что NVIDIA описывает как примерно 2.8 раза больше, чем у Blackwell. Параллельно растет и сложность самого кристалла, речь идет о сотнях миллиардов транзисторов и производстве на 3nm. Это уже не история из разряда поставил карту и полетел, а сценарий, где система должна быть сбалансирована целиком, иначе деньги быстро превращаются в тепло.

Чтобы такие GPU масштабировались внутри стойки, NVIDIA делает ставку на NVLink 6 и новый NVLink Switch. Заявляется до 3.6 TB/s NVLink-полосы на GPU и переход на 400Gbps SerDes, а для самого switch-чипа отдельно подчеркивается необходимость жидкостного охлаждения. Это хороший маркер того, где теперь проходит граница плотности: трафик внутри стойки становится настолько агрессивным, что обычное охлаждение уже перестает выглядеть достаточным. Одновременно это сигнал клиентам, что стоимость владения будет все сильнее зависеть от инженерии, от кабель-менеджмента до термопрофиля.

В паре с Rubin GPU идет Vera CPU, ARM-процессор с 88 ядрами и поддержкой SMT до 176 потоков. NVIDIA позиционирует его как шаг вперед относительно Grace по обработке данных и компрессии, а также переводит память на модульный формат SOCAMM с объемом до 1.5TB LPDDR5X и полосой около 1.2 TB/s. Для рынка это заметно: модульность решает вечную проблему платформ, где память была впаяна и не подлежала апгрейду. Плюс компания делает акцент на rack-scale confidential computing, то есть на шифрование домена не только на GPU, но и на уровне CPU в масштабе всей стойки.

Снаружи стойки начинается второй слой истории - сеть. ConnectX-9 заявлен с общей полосой 1.6 Tb/s и 200G PAM4 SerDes, BlueField 4 получает собственную сетевую часть и приросты по вычислениям и памяти относительно предыдущего поколения. На уровне Ethernet-коммутации выходят Spectrum-6 и Spectrum-X, где одним из главных технических элементов становятся co-packaged optics. NVIDIA обещает здесь заметные выигрыши по энергоэффективности и надежности относительно традиционных оптических схем. Самые показательные цифры в презентации - это масштабы: старшие модели свитчей описываются как сотни портов 800G и сотни терабит совокупной пропускной способности.

На уровне готовых систем NVIDIA подтверждает две линии: Vera Rubin NVL72 как плотный вариант все внутри NVLink и HGX Rubin NVL8 как путь для тех, кому нужно оставаться ближе к миру x86. У NVL72 особенно важна не только производительность, но и эксплуатация. NVIDIA заявляет переход на модульные лотки без кабелей, сокращение времени сборки стойки со 100 минут до 6 минут, а также обещания по обслуживанию без простоя на health checks и сетевые работы. Это уже язык тех, кто обжегся на интеграционной сложности и теперь хочет предсказуемую сборку в масштабе.

Отдельно интересна идея с KV-кешем для инференса, NVIDIA Inference Context Memory Storage Platform. Поскольку контекст и промежуточные данные у современных моделей растут, держать все на одном узле становится дорого, а повторно пересчитывать их тоже невыгодно. NVIDIA предлагает выделенный слой хранения контекста на SSD, связанный через ConnectX и BlueField и поддержанный софтом в собственном стеке. Для операторов это еще один рычаг: не только дать больше GPU, но и реально поднять пропускную способность инференса на уровне кластера, одновременно снижая энергозатраты.

Для клиентов QCKL главный вывод здесь простой: AI-инфраструктура ускоряется не только за счет GPU, а за счет баланса вычислений, памяти и сети, и именно этот баланс станет точкой конкуренции в 2026. Когда на горизонте появляются системы уровня Rubin, имеет смысл заранее проектировать окружение под быстрый storage, высокую сетевую полосу и понятную масштабируемость, чтобы рост нагрузки не уперся в архитектурные мелочи. Если вы планируете GPU-инфраструктуру под инференс или обучение и хотите заранее заложить правильную сеть и конфигурации под рост, посмотрите решения QCKL и подберите вариант под вашу модель нагрузки. Мы поможем собрать конфигурацию так, чтобы упор был в вычисления, а не в узкие места вокруг них.

NVIDIA Rubin на CES 2026: почему новая AI-платформа меняет правила игры для 10/100GbE, памяти и GPU-инференса