Schmetterlinge sind nicht nur beliebte Fotomotive, sondern auch bedeutende Indikatoren für biologische Vielfalt. Daher ist das Monitoring dieser Insekten für den Umweltschutz enorm wichtig und wird in Österreich im Rahmen des Viel-Falter Monitorings von Wissenschaftler:innen der Universität Innsbruck gemeinsam mit Freiwilligen durchgeführt. Neben diesen systematischen Beobachtungen sammeln viele Freiwillige auch Zufallsbeobachtungen von Schmetterlingen.
Über die kostenlose Schmetterlings-App von Blühendes Österreich, der gemeinnützigen BILLA-Privatstiftung, haben Freiwillige in den letzten Jahren mehrere hunderttausend Bilder heimischer Falter gesammelt. Sie dienen als wertvolle Informationsquelle, etwa für Rote-Liste-Bewertungen oder Verbreitungskarten von Arten – und als Basis für Friederike Barkmanns Forschungen an neuen Machine-Learning-Modellen.
Das Ziel: Machine-Learning-Modelle auf Herz und Nieren testen
Die Bestimmung von Schmetterlingen und die Kontrolle der hochgeladenen Fotos erfolgt traditionellerweise durch Expert:innen, was sehr zeit- und kostenintensiv ist. Und nicht immer ist ein Profi zur Hand, um einen Falter zuzuordnen. So entstand die Idee, ein Machine-Learning-Modell zu trainieren, also Künstliche Intelligenz (KI) mitflattern zu lassen. Ziel ist es, verschiedene Modelle zu testen, um herauszufinden, welches davon Schmetterlinge und andere Tiere am besten erkennt. Somit würde nicht nur die Schmetterlingsbestimmung stärkere Flügel und mehr Auftrieb erhalten, sondern auch verschiedene andere Biodiversitäts-Projekte. Was es dazu allerdings braucht? Riesige Datenmengen. Und die wiederum brauchen geballte Computerpower.
Die Ökologin Friederike Barkmann trat mit 529.835 Bildern von 162 Schmetterlingsarten an, um verschiedene Machine-Learning-Modelle zu trainieren. Bei einem solchen Projekt gilt: Je mehr Fotos es von einer Art gibt, umso einfacher ist es für das jeweilige Modell, die Arten richtig zu bestimmen. Für Biodiversitätsdaten ist es typisch, dass es von einer Art 10.000 oder mehr Fotos gibt und von einer anderen nur zehn. Fachleute sprechen in so einem Fall von Class Imbalance (Klassenungleichgewicht). Es geht also darum, die “kleinen” Arten im Machine-Learning-Modell stärker zu gewichten.
Parallel läuft’s besser
Die Forscherin startete auf dem Supercomputer der Universität Innsbruck, LEO5. Moderne Hochleistungsrechner wie LEO5 sind mit effizienten Grafikkartenprozessoren ausgestattet (Graphics Processing Units, GPUs), die sich hervorragend für das Training von KI-Modellen eignen.
Eine GPU allein ist allerdings nicht so leistungsfähig, wie mehrere zusammen. Darum verbinden Supercomputing-Expert:innen mehrere Prozessoren miteinander. In der Fachsprache wird das als Parallelisierung bezeichnet. Erst arbeitete Barkmann mit einer riesigen Datenmenge auf einer einzigen GPU und hätte während LEOs Rechenzeit gemütlich ein paar Schmetterlinge am Stadtrand fotografieren können.
Supercomputing-Experte Andreas Lindner von EuroCC Austria erfuhr von dem relativ langwierigen Prozess und setzte die Parallelisierung auf dem Innsbrucker Supercomputer auf vier GPUs um. So reduzierte sich die Rechenzeit für eine Trainingsepoche (von insgesamt 50) von zwei Stunden auf zwölf Minuten. Das entspricht einer Zeitersparnis von 90 Prozent. Und auch die Treffergenauigkeit war sehr hoch: Im Testdatensatz lag sie Anfang Dezember 2024 bei 97 Prozent. Das bedeutet, 97 Prozent der Schmetterlinge wurden korrekt erkannt.
Viele gute Daten ergeben ein genaues Modell
Beim Training jedes KI-Bilderkennungstools gilt: Je mehr Fotos als Ausgangsmaterial vorliegen, umso genauer kann das Modell trainiert werden. Es gab in Barkmanns Projekt allerdings auch Schmetterlingsarten, von denen vergleichsweise wenige Fotos vorhanden waren. Hier haben wir sie wieder, die Class Imbalance: Neben 5.000 Bildern der einen Art fanden sich in Barkmanns Datensatz mitunter auch mal nur 70 von einer anderen. Hier behalf sich die Forscherin, indem sie die vorhandenen Fotos bearbeitete; sie zum Beispiel drehte, oder kleinere Ausschnitte verwendete. So hatte das Modell mehr Futter für das Training. Dennoch war die Basis hier dünner als bei den häufiger vorkommenden Arten und die Treffsicherheit entsprechend gering. Ab einer Anzahl von mindestens 1.662 Bildern pro Art konnten alle Schmetterlinge mit mindestens 90-prozentiger Genauigkeit vorhergesagt werden.
Das Modell funktioniert und wird nun optimiert
Doch Barkmann hat mehr vor: „Auch wenn 97 oder 90 Prozent schon hohe Werte sind, heißt es auch, dass viele Arten falsch bestimmt werden", sagt die Wissenschaftlerin. Das gilt vor allem für jene Arten, für die wenig Bilder zur Verfügung stehen. Nach dem erfolgreichen Training auf LEO5 ermöglichte EuroCC Austria den Zugang zum italienischen Supercomputer LEONARDO, der etwa 400-mal leistungsstärker ist als der Innsbrucker Hochleistungsrechner. Denn die riesigen Datenmengen und aufwändigen Modelle brauchen jetzt nochmal höhere Rechenleistung. Der aktuelle Plan ist, verschiedene Modelle auf LEONARDO zu testen und zu optimieren, damit auch die kleinen Schmetterlingsklassen gut erkannt werden.
Schon bald wird die Ökologin den ersten Teil ihrer Studien in ihrer Masterarbeit für den Universitätslehrgang Data Science veröffentlichen. Der zweite Teil soll bis Ende 2025 im Rahmen ihrer Doktorarbeit wissenschaftlich publiziert werden.