Ученые из Южной Кореи представили HetCCL для ИИ-ЦОД: Nvidia и AMD могут работать в одном кластере без переписывания кода

В любом современном ЦОД скорость вычислений — это лишь половина успеха. Не менее важна и «магистраль» между узлами: если обмен данными тормозит, то даже самые мощные ускорители будут простаивать. В мире ИИ это особенно заметно, ведь разработчики обычно завязаны на фирменные коммуникационные библиотеки конкретных производителей GPU — по сути, выбирая железо, они автоматически выбирают и программную экосистему.

Что предложили ученые из Южной Кореи

В свежей научной работе корейская команда описала библиотеку HetCCL. Ее ключевая идея — уйти от привязки к одному вендору и дать возможность кластеру, где одновременно стоят ускорители Nvidia и AMD, работать как единая система, а не как два «лагеря» по разные стороны стойки.

Где здесь место RDMA

Да, обмен данными можно организовать и внутри одной машины между несколькими GPU. Но когда речь заходит о коммуникации на уровне дата-центра, часто вспоминают старый добрый RDMA — удаленный прямой доступ к памяти. Смысл подхода в том, что данные можно отправлять практически напрямую в память устройства (в данном случае — в видеопамять GPU), минуя лишние этапы вроде драйверов, TCP/IP-стека и сетевых слоев ОС, которые съедают процессорные циклы и добавляют задержки.

Главные заявления о HetCCL

Авторы утверждают, что их разработка — первая универсальная альтернатива «вендорным» CCL-библиотекам, способная одновременно решать несколько задач: обеспечивать кросс-платформенную связь и помогать с балансировкой нагрузки. На практике это означает, что вычислительные ресурсы стоек с Nvidia и AMD можно объединять под одну задачу, не разрывая процесс на отдельные кластеры.

Что именно обещают разработчикам

  • Работа в смешанных кластерах: ускорители двух производителей могут участвовать в одном вычислительном процессе.
  • Роль «замены по месту»: предполагается, что достаточно линковать приложение с HetCCL, а не с библиотекой конкретного поставщика.
  • Минимум вмешательства: команда подчеркивает, что не требуется переписывать исходники приложения и тем более лезть в драйверы.
  • Задел на будущее: после перехода на HetCCL приложение меньше зависит от того, какой именно GPU стоит в узле, и теоретически проще переживет появление новых производителей.
  • Небольшие накладные расходы: в ряде сценариев библиотека якобы способна даже обгонять «родные» решения за счет более удачных настроек по умолчанию.

Как тестировали: скромный стенд, но показательный результат

Чтобы продемонстрировать потенциал, ученые провели испытания на четырехузловом кластере:

  • 2 узла с 2×4 GPU Nvidia
  • 2 узла с 2×4 GPU AMD

При этом они отдельно оговаривают: это не «честная дуэль» между вендорами, а иллюстрация возможностей HetCCL при ограниченных ресурсах. К тому же железо было неоднородным и уже не самым свежим: в системе Nvidia использовались GPU с PCIe 3.0, тогда как у AMD — PCIe 4.0.

Что получилось по итогам

По словам авторов, во многих случаях удалось приблизиться к теоретическим максимумам, что выглядит впечатляюще, хотя итог сильно зависит от настроек и конкретной нагрузки. Отдельно отмечается и практический эффект: при определенных условиях HetCCL может снизить стоимость обучения моделей, потому что появляется возможность эффективно задействовать ускорители Nvidia и AMD одновременно. Это уменьшает необходимость делить задачи между разными кластерами, которые затем вынуждены «ждать» друг друга, и потенциально экономит не только деньги, но и человеко-часы.

Почему идея может не взлететь сразу

При всех плюсах авторы и наблюдатели признают: представить массовые ИИ-ЦОД «на двух вендорах» пока сложно. Причины достаточно приземленные.

Основные ограничения

  1. Выбор GPU — это выбор экосистемы. Сегодня решения Nvidia фактически считаются стандартом, и многие компании не хотят усложнять себе жизнь.
  2. Администраторы консервативны: один поставщик обычно означает проще поддержку, обслуживание и закупки.
  3. Сеть — лишь часть картины. Даже если коммуникационный слой станет кросс-платформенным, в обучении ИИ остается масса кода и оптимизаций, завязанных на конкретные GPU.

Итог: HetCCL как демонстрация «что так можно»

Смысл проекта HetCCL, по большому счету, в доказательстве жизнеспособности идеи: ключевые барьеры на пути разнородных систем можно снижать, и при желании индустрия способна пойти дальше. Даже если прямо сейчас рынок не готов массово смешивать Nvidia и AMD в одном ИИ-кластере, сама попытка показывает направление, за которым вполне могут последовать другие разработки (фото: tomshardware.com).

Опубликовано: 04.02.2026 14:15 | Автор: Аида Амирова