Tom baut eine Pflanzen-Erkennungs-App. „Die Datenbank ist das eigentliche Problem", sagt er. Sein Modell erkennt etwa 4.000 Arten. Training dauerte vier Monate. „Und trotzdem verwechselt die App manchmal Tomaten mit Paprika."
Was funktioniert? Objekterkennung ist mittlerweile sehr zugänglich. Vortrainierte Modelle sparen Monate an Arbeit. Core ML und TensorFlow Lite laufen direkt auf dem Gerät, keine Server nötig. Das ist gut für Datenschutz und Reaktionszeit.
Lisa entwickelt eine App für Belegerkennung. Ihr größter Vorteil: „Nutzer müssen Belege nicht mehr manuell eintippen." Die App extrahiert Datum, Betrag und Händler automatisch. Funktionsrate liegt bei etwa 87%.
Die Probleme? Schlechte Lichtverhältnisse ruinieren alles. „Bei verwackelten Fotos versagt die Erkennung komplett", erklärt Lisa. Sie musste eine Echtzeit-Feedback-Funktion einbauen, die Nutzer warnt: „Bild zu dunkel" oder „Beleg nicht vollständig sichtbar".
Jan arbeitet an einer Übersetzungs-App mit Live-Kamera. Seine größte Herausforderung? Performance. „Die App muss Text erkennen, übersetzen und in Echtzeit einblenden. Das belastet selbst moderne Handys."
Alle drei nennen denselben Nachteil: Modellgröße. Jans App ist 180 MB groß, hauptsächlich wegen der KI-Modelle. „Viele Leute laden solche Apps nicht runter."
Tom fasst es zusammen: „Bild-KI ist beeindruckend, aber nicht magisch. Du brauchst gute Trainingsdaten, viel Geduld beim Testen und realistische Erwartungen." Alle drei würden es wieder machen, aber mit mehr Zeit eingeplant fürs Feintuning.