Инфраструктура ML кластера - всегда есть место для напильника, или как из рельса и набора надфилей получить...
Тема ML/AI становится массовой, и из ниши единичных гиперскейлеров уходит к новым участникам. При этом, одновременно проявляется целый ряд особенностей:
- Относительно малые в привычном понимании размеры кластеров
- Новые возможности Ethernet vs Infiniband позволяют строить вариативно
- Отсутствие у новых игроков долговременного опыта построения и эксплуатации в отличие от гиперскейлеров
Итак, мы построили кластер, мы добились работоспособности инфраструктуры, настроили ROCEv2, DCQCN и прочие страшные слова, — «работает –не трогай….». А если все же копнуть чуть глубже?
Почему все же стоит оптимизировать сетевую инфраструктуру и к каким результатам это может привести, - подходы и примеры.