So automatisierst du deine Podcast-Produktion

Matti J. Frind Donnerstag, 15. Januar 2026

So automatisierst du deine Podcast-Produktion

Podcasting ist einfach. Video-Podcasts, die wie eine echte Show aussehen, sind es nicht.

In dem Moment, in dem du mehrere Kameras hinzufügst, erbst du die gleichen Probleme wie bei einer Live-Produktion:

  • Jemand muss die Kameras schneiden.
  • Jemand muss die Bildausschnitte wählen.
  • Jemand muss bemerken, wer gerade spricht, und zum richtigen Zeitpunkt umschalten.
  • Und das Ganze muss über 60–180 Minuten fehlerfrei laufen.

Dieser Beitrag konzentriert sich auf praktische Automatisierung für erfahrene AV-Techniker: audio-gesteuertes Switching und PTZ-Presets.

Du wirst auch sehen, wo ein KI-PTZ-Director wie MiruSuite als „Hände weg vom Steuer, Mensch behält die Kontrolle“-Ebene ins Spiel kommt – besonders wenn du natürliches Framing und zuverlässiges Auto-Switching ohne zusätzliche Sensoren wünschst.

Was „Podcast-Automatisierung“ normalerweise bedeutet (und was nicht)

Ziele der Automatisierung:

  • Automatischer Wechsel zum aktiven Sprecher (Einzel- oder Mehrpersonen-Ansicht)
  • PTZ-Steuerung (Presets + Tracking)
  • Sicheres Timing (keine hektischen Hin- und Her-Schnitte)
  • Optional: Gelegentliche Reaktions- oder Totalaufnahmen für das Pacing

Automatisierung behebt NICHT magisch:

  • schlechte Audiotrennung
  • mangelnde Mikrofondisziplin / starke Raumgeräusche
  • falsche Kameraplatzierung / schlechte Beleuchtung
  • unzureichende Kameraabdeckung für dein Format

Typische Podcast-Setups, die sich zur Automatisierung lohnen

Setup-Typ Kamera-Layout Audio-Kanäle Anmerkungen
Zwei-Personen-Interview Cam 1: Host nah
Cam 2: Gast nah
Cam 3: Totale/Two-Shot (optional, aber empfohlen)
2 Einfache Switching-Logik; Totale für Abwechslung
3–6 Personen Round Table / Panel PTZ-Abdeckung + Presets 1 Kanal pro Sprecher PTZ ist oft günstiger als viele feste Kameras; erfordert zuverlässiges Audio pro Sprecher für die Automatisierung
Hybrider Podcast (vor Ort + Remote-Gast) Host-Kamera(s)
Remote-Gast-Feed
Totale/Reaktionsbilder
Pro Sprecher + Remote-Feed Entscheidung zwischen „Speaker-Follow“- vs. „Director-Follow“-Logik für Reaktionsbilder
Visual Radio Show Variiert je nach Format Minimum pro Sprecher Gleiche Prinzipien wie bei Podcasts; Kameraanzahl an die Showstruktur anpassen

Schritt 1 – Wähle deine Switching-Engine

Du benötigst ein Tool, das:

  • zuverlässig zwischen Eingängen umschalten kann
  • über API / Netzwerk / Makros steuerbar ist
  • idealerweise den Preview/Program-Status bereitstellt

Gängige Optionen:

  • Blackmagic ATEM (Hardware)
  • vMix (Software)
  • Auch möglich: OBS (weniger verbreitet in Profi-Setups, hat aber kostenlose Open-Source-Plugins für Automatisierungen, z. B. Advanced Scene Switcher)

Schritt 2 – Plane deine Kameraabdeckung (PTZ vs. Fix)

Feste Kameras sind simpel: keine beweglichen Teile, keine Überraschungen. PTZ-Kameras reduzieren die Anzahl der benötigten Kameras, aber du musst die Bewegungen mit einplanen.

Empfohlen:

  • Habe mindestens einen „Safety Shot“ (Totale), der live bleiben kann, während sich andere PTZs bewegen.
  • Nutze PTZ-Presets für:
  • Host nah / Gast nah
  • 2-Shot / Totale
  • Optional: Profilansicht, Produkttisch, Whiteboard etc.

Marken, die man häufig in Profi-Podcast-Studios sieht:

  • Panasonic, Sony, Canon (einschließlich High-End PTZ / Cinema PTZ Varianten)
  • Telycam, BirdDog, Marshall (oft in kostenoptimierten Studio-Builds)

Schritt 3 – Sorge für saubere Audiotrennung (das Fundament)

Die Automatisierung des aktiven Sprechers ist nur so gut wie das Signal, mit dem du sie fütterst.

Minimum:

  • Ein isolierter Audiokanal pro Sprecher (Pre-Fader oder Post-Fader ist egal, aber bleib konsistent)
  • Richtige Gating- / Expander-Strategie, um Umschalten durch Raumgeräusche zu vermeiden
  • Vermeide starke Kompression, die dazu führt, dass jeder „immer laut“ ist

Best Practice:

  • Kalibriere die Schwellenwerte (Thresholds) mit echten Sprechlautstärken.
  • Wenn du eine „Applaus/Lachen“-Logik (Reaktionsbilder) möchtest, benötigst du entweder:
  • einen Raum-Mikrofon-Feed (wenn es Publikum gibt)
  • oder andernfalls eine Audio-Klassifizierung für Lachen/Applaus, die auf den Sprecherkanälen basiert

Schritt 4 – Wähle deine Automatisierungsmethode

Option 1: DIY Szenenwechsel per Audio-Schwellenwert

  • „Wenn Mikro A aktiv → Schnitt auf Cam A“
  • „Wenn Mikro B aktiv → Schnitt auf Cam B“
  • Haltezeiten (Hold Times) und Anti-Flicker-Logik hinzufügen

Funktioniert für:

  • 2-Personen-Interviews mit diszipliniertem Mikrofon-Umgang

Problematisch bei:

  • Cross-Talk (Durcheinanderreden)
  • Lachen
  • Überlappenden Sprechern
  • Lärm

Wenn du ein erfahrener Programmierer bist, kannst du einfache Skripte selbst in einer Sprache deiner Wahl erstellen (z. B. Python, Node.js) und diese über eine API mit deinem Mischer verbinden. Je nach Mischer geht das über:

Option 2: KI-Director „MiruSuite“ (beste Ergebnisse, wenig Aufwand)

MiruSuite in Action

Hier kommen Tools wie MiruSuite ins Spiel:

  • KI-basiertes Tracking (sanftes Framing, keine roboterartigen Bewegungen)
  • Audio- + Video-Cues für intelligenteres Switching
  • Mischer-Integration, um Kamerabewegungen und Schnitte intelligent zu koordinieren

MiruSuite ist eine fertige Lösung, die in bestehende AV-Workflows integriert werden kann, ohne dass eine eigene Programmierung erforderlich ist.


Häufige Fragen

„Wie schalte ich Kameras bei einem Zwei-Personen-Podcast automatisch um?“

Nutze isolierte Mikrofone → entwickle ein audio-getriggertes Switching → füge Debounce-Zeiten + eine Mindest-On-Air-Zeit hinzu (oder nutze Tools wie MiruSuite). Wenn du PTZ nutzt, kannst du eine Kamera pro Person und eine Totale als Safety Shot einplanen.

„Brauche ich PTZ-Kameras?“

Nein – aber PTZs reduzieren die Kameraanzahl und erhöhen die Flexibilität. Du „bezahlst“ dafür mit komplexerer Steuerungslogik: Du musst Bewegungen verbergen und Presets gut verwalten.

„Können Blackmagic ATEM Mischer in automatisierten Podcasts genutzt werden?“

Ja. ATEM-Mischer sind eine beliebte Wahl für Automatisierungen, da sie programmatisch gesteuert werden können und gut mit wiederholbaren Workflows funktionieren. Alternativen wie vMix oder auch OBS können je nach Bedarf und Budget ebenfalls genutzt werden.


Wo MiruSuite reinpasst

Wenn dein Ziel ist:

  • automatisiertes Speaker-Framing (nicht nur einfaches Umschalten)
  • natürliches PTZ-Verhalten (weniger roboterhaft, eher „menschliche“ Bewegungen)
  • mischer-gesteuerte Kamerakoordination (sodass sich Kameras nie bewegen, während sie live sind)
  • ein Workflow, bei dem ein Techniker überwacht, anstatt stundenlang manuell zu schneiden

…dann ist MiruSuite genau für diese Art von Arbeit entwickelt worden.

Es ist kompatibel mit gängigen PTZ-Ökosystemen (Panasonic, Sony, Canon, Telycam, BirdDog, Marshall) und lässt sich so in Mischer-Workflows (z. B. Blackmagic ATEM, vMix) integrieren, dass eine „Automatisierung mit voller manueller Kontrolle“ möglich bleibt.

Besuche mirusuite.com für weitere Details!

MiruSuite ist die neue All-In-One Lösung für Automatisierung von Live-Videoproduktionen.

Mehr erfahren Jetzt kostenlos testen
Bundesministerium für Wirtschaft und Energie Logo
WIPANO logo
ende