В любом современном ЦОД скорость вычислений — это лишь половина успеха. Не менее важна и «магистраль» между узлами: если обмен данными тормозит, то даже самые мощные ускорители будут простаивать. В мире ИИ это особенно заметно, ведь разработчики обычно завязаны на фирменные коммуникационные библиотеки конкретных производителей GPU — по сути, выбирая железо, они автоматически выбирают и программную экосистему.

Что предложили ученые из Южной Кореи
В свежей научной работе корейская команда описала библиотеку HetCCL. Ее ключевая идея — уйти от привязки к одному вендору и дать возможность кластеру, где одновременно стоят ускорители Nvidia и AMD, работать как единая система, а не как два «лагеря» по разные стороны стойки.
Где здесь место RDMA
Да, обмен данными можно организовать и внутри одной машины между несколькими GPU. Но когда речь заходит о коммуникации на уровне дата-центра, часто вспоминают старый добрый RDMA — удаленный прямой доступ к памяти. Смысл подхода в том, что данные можно отправлять практически напрямую в память устройства (в данном случае — в видеопамять GPU), минуя лишние этапы вроде драйверов, TCP/IP-стека и сетевых слоев ОС, которые съедают процессорные циклы и добавляют задержки.
Главные заявления о HetCCL
Авторы утверждают, что их разработка — первая универсальная альтернатива «вендорным» CCL-библиотекам, способная одновременно решать несколько задач: обеспечивать кросс-платформенную связь и помогать с балансировкой нагрузки. На практике это означает, что вычислительные ресурсы стоек с Nvidia и AMD можно объединять под одну задачу, не разрывая процесс на отдельные кластеры.
Что именно обещают разработчикам
- Работа в смешанных кластерах: ускорители двух производителей могут участвовать в одном вычислительном процессе.
- Роль «замены по месту»: предполагается, что достаточно линковать приложение с HetCCL, а не с библиотекой конкретного поставщика.
- Минимум вмешательства: команда подчеркивает, что не требуется переписывать исходники приложения и тем более лезть в драйверы.
- Задел на будущее: после перехода на HetCCL приложение меньше зависит от того, какой именно GPU стоит в узле, и теоретически проще переживет появление новых производителей.
- Небольшие накладные расходы: в ряде сценариев библиотека якобы способна даже обгонять «родные» решения за счет более удачных настроек по умолчанию.
Как тестировали: скромный стенд, но показательный результат
Чтобы продемонстрировать потенциал, ученые провели испытания на четырехузловом кластере:
- 2 узла с 2×4 GPU Nvidia
- 2 узла с 2×4 GPU AMD
При этом они отдельно оговаривают: это не «честная дуэль» между вендорами, а иллюстрация возможностей HetCCL при ограниченных ресурсах. К тому же железо было неоднородным и уже не самым свежим: в системе Nvidia использовались GPU с PCIe 3.0, тогда как у AMD — PCIe 4.0.
Что получилось по итогам
По словам авторов, во многих случаях удалось приблизиться к теоретическим максимумам, что выглядит впечатляюще, хотя итог сильно зависит от настроек и конкретной нагрузки. Отдельно отмечается и практический эффект: при определенных условиях HetCCL может снизить стоимость обучения моделей, потому что появляется возможность эффективно задействовать ускорители Nvidia и AMD одновременно. Это уменьшает необходимость делить задачи между разными кластерами, которые затем вынуждены «ждать» друг друга, и потенциально экономит не только деньги, но и человеко-часы.
Почему идея может не взлететь сразу
При всех плюсах авторы и наблюдатели признают: представить массовые ИИ-ЦОД «на двух вендорах» пока сложно. Причины достаточно приземленные.
Основные ограничения
- Выбор GPU — это выбор экосистемы. Сегодня решения Nvidia фактически считаются стандартом, и многие компании не хотят усложнять себе жизнь.
- Администраторы консервативны: один поставщик обычно означает проще поддержку, обслуживание и закупки.
- Сеть — лишь часть картины. Даже если коммуникационный слой станет кросс-платформенным, в обучении ИИ остается масса кода и оптимизаций, завязанных на конкретные GPU.
Итог: HetCCL как демонстрация «что так можно»
Смысл проекта HetCCL, по большому счету, в доказательстве жизнеспособности идеи: ключевые барьеры на пути разнородных систем можно снижать, и при желании индустрия способна пойти дальше. Даже если прямо сейчас рынок не готов массово смешивать Nvidia и AMD в одном ИИ-кластере, сама попытка показывает направление, за которым вполне могут последовать другие разработки (фото: tomshardware.com).





