1. Два пользователя подключаются по WebRTC и отсылают поток с вебкамер
2. На сервере их потоки микшируются в один по определенным правилам (это я могу и сам с помощью ffmpeg сделать, главное иметь возможность получить входные и отдать выходной), например картинка-в-картинке
3. Остальные...