in Publikumsschwund

Theaterstatistik: Auswertungen mit GEMINI vereinfachen

Die Theaterstatistik bietet eine Fülle von Daten. Eigene Auswertungen können nur durchgeführt werden, wenn man die Daten maschinenlesbar macht. Zwar werden seit einigen Jahren die Theaterstatistiken auch als PDF angeboten (seit 2021/22 sogar exklusiv)), trotzdem lassen sich die Daten nicht einfach in Excel übernehmen. Kopiert man Daten aus den jüngeren Jahrgängen der Theaterstatistik nach Excel, sehen sie so aus:

Keine richtigen Trennzeichen (Delimiter), die Leerzeichen führen häufig zu Verschiebungen, Dezimalpunkte stören Berechnungen

Für mein Buch habe ich erst viele Daten tatsächlich in der Unibibliothek exzerpiert, also abgeschrieben. Später habe ich Seiten eingescannt und per Optical Character Recognition (OCR) versucht, die Zahlen maschinenlesbar zu machen. Nicht ganz einfach, da viel OCR-Programme mit Zahlen in Spalten Probleme haben.
Für die neuen Analysen, die ich seit März 2025 vorgenommen habe, habe ich mich des Google KI-Tools GEMINI bedient.
Für das Auslesen der Daten habe ich jeweils eine komplette Summentabelle oder sogar ganze Seiten per Screenshot-Tool fotografiert und per copy&paste in GEMINI eingestellt:

Mit dem Prompt über der Tabelle weise ich GEMINI an, wie es das Bild behandeln soll.
Das Ergebnis sieht dann so aus:

Mit dem Kopierknopf oben rechts kann man die Daten in die Zwischenablage übernehmen und dann in Excel hineinkopieren.

Ist das Ergebnis nicht zufriedenstellend, liefert man per Prompt Spezifikationen nach, bis man zufrieden ist.
Nicht immer funktioniert der Algorithmus von GEMINI einwandfrei, manchmal fehlt ein Komma und die Daten landen in der falschen Zelle. Ohne Abgleich von Original und GEMINI-Erkenntnissen geht also nichts, trotzdem ist das Tool eine enorme Erleichterung.
Die Excel-Tabelle sieht dann so aus (die Spalten „Spielzeit“ und „Berlin“ sind von mir für spätere Auswertungen ergänzt):

Sehr störend sind Summenzeilen, wie sie an einigen Stellen vorkommen. Die müssen gelöscht werden, dass sie jede eigene Berechnung unmöglich machen. Stattdessen pivotiere ich dann die Daten und prüfen die Summen noch mal manuell.
Anschließend können alle Daten aus allen Spielzeiten hintereinander kopiert werden in eine einzige Tabelle, die dann durch Pivot-Tabellen ausgewertet werden nach den unterschiedlichsten Dimensionen, auch kombiniert. Beispielsweise nach Spielzeiten, Städten, Spielstätten, Genres etc..
Und mit den Diagrammen-Werkzeugen von Excel zaubert man dann die schönsten Grafiken, z.B. diese hier aus meinem letzten Blogbeitrag über die Verteilung von Bezahlkarten vs. andere Kartenarten.
Die Berliner Daten sind notwendig für meine Ost/West-Auswertung. Mehr dazu demnächst.
Quelle: Theaterstatistik. Hrsg. vom Deutschen Bühnenverein


Entdecke mehr von Publikumsschwund

Melde dich für ein Abonnement an, um die neuesten Beiträge per E-Mail zu erhalten.

Schreibe einen Kommentar

Kommentar