Не понятен сам смысл происходящего, требования.
Похоже на два кейса:
1. Озвучка.
С IP камеры приходит поток без аудио, который User1 озвучивает в реальном времени.
В результате User2 видит видео, синхронно озвученное User1.
Например, сурдоперевод в обратную сторону из жестов в голос.
В этом...