Zum Hauptinhalt springen Skip to page footer

Warum KI beim Zählen scheitert – und was Forschende des iisys aus Hof dagegen tun

| Projekte und Aktivitäten unserer Mitglieder Technologietrends und Branchenreports

Vision-Language-Modelle (VLMs) verbinden heute Bild- und Textverständnis auf hohem Niveau – doch ausgerechnet beim Zählen versagen viele zuverlässig. Ab mehr als vier oder fünf gleichartigen Objekten auf einem Bild häufen sich die Fehler. Das Problem liegt im Training: Bestehende Datensätze sind entweder zu einfach und fördern nur Mustererkennung, oder zu komplex mit verdeckten Objekten und unklaren Fragestellungen. Die Folge: Modelle raten, statt zu zählen.

Das Institut für Informationssysteme der Hochschule Hof (iisys), Mitglied der Strategischen Partnerschaft Sensorik e.V., hat mit dem Datensatz SITUATE einen gezielten Ansatz entwickelt. Statt realer Fotos nutzen die Forschenden künstliche 3D-Szenen mit geometrischen Objekten in klar definierten Positionen – trainiert mit dem sogenannten „Chain-of-Thought"-Ansatz, bei dem die KI Schritt für Schritt beschreibt, was sie sieht und wie sie zählt. Modelle, die so trainiert wurden, verallgemeinern deutlich besser. Für industrielle Anwendungen in Qualitätskontrolle, Logistik oder Medizintechnik ist das ein relevanter Fortschritt.

Details lesen Sie in Kürze in unserem Sensorik-Magazin.

Zurück
Logo der iisys - Institut für Informationssysteme der Hochschule Hof