Lernen Ihre KI/ML-Modelle aus ungeprüften Informationen?

Eine wichtige und interessante Frage!

Was passiert, wenn Sie die Datenqualität bei der Anwendung von Algorithmen für maschinelles Lernen nicht mit der erforderlichen Aufmerksamkeit berücksichtigen?  

Daten schlechter Qualität müssen um jeden Preis vermieden werden

Die Datenqualität ist von größter Bedeutung in der Welt der KI/ML.
Grund dafür ist, dass die Abhängigkeit eines ML-Modells von den Daten, mit denen es geschult wurde, besonders hoch ist. Ungeprüfte Informationen in den Daten können dazu führen, dass das Modell bei den Übungsdaten plausible, bei den Testdaten aber schlechte Ergebnisse liefert. Das kommt daher, dass die Datenqualität kein angemessenes Bild von realen Szenarien abgibt. Die Datenqualität kann also ein Hindernis für den Nutzen eines ML-Modells sein.

Ein Unternehmen nutzt beispielsweise Zeitdaten, um das Absatzverhalten von Kunden aus bestimmten Regionen zu ermitteln. Das Verhältnis zwischen männlichen und weiblichen Käufern oder die Verteilung der demografischen Standorte der Käufer ist jedoch unausgewogen. Das ML-Modell ist daher nicht imstande, geeignete Prognosen abzugeben, wenn ihm nicht genügend Daten aus einer bestimmten Region oder von einem bestimmten Geschlecht zum Lernen vorliegen.

Die Genauigkeit des Modells beim Lernen ist hoch, und es sieht gut aus. Das Modell kann sogar bei den Testdaten gut abschneiden. In der realen Welt wird es jedoch irgendwann versagen, sobald es mit Situationen konfrontiert wird, die es noch nie gesehen hat. Wenn sich ein Unternehmen also entscheidet, auf der Grundlage eines solchen Modells eine langfristige Investition in bestimmte teure Maschinen zu tätigen, muss es wahrscheinlich einen erheblichen Verlust hinnehmen.

Wenn Datenwissenschaftler Modelle entwickeln, die auf der Grundlage von Daten schlechter Qualität überzeugende Ergebnisse liefern, die dann in realen Szenarien eingesetzt werden, können Daten verloren gehen.

Dies sind klare Beispiele dafür, warum qualitativ schlechte Daten um jeden Preis vermieden werden müssen!

Mehr dazu, warum Datenqualität wichtig ist, finden Sie hier.


Testergebnisse Screenshot


Wie lässt sich die Datenqualität verbessern?

Engagieren Sie einen kompetenten Datenwissenschaftler. Nutzen Sie keine ungeprüften Informationen in Ihren Daten, sondern führen Sie stattdessen Gegenkontrollen und Cross-Validierungsverfahren mit den Daten durch. Angesichts der großen Anzahl von Datenressourcen sind ungeprüfte Informationen in den Daten zwangsläufig fehlerhaft, da zumindest einige der Datenressourcen Fehler enthalten müssen.

Um die Qualität der neu gewonnenen Schulungsdaten zu gewährleisten, ist eine kontinuierliche Datenvalidierung erforderlich. Dies ist manuell nicht möglich, weil es einfach zu viel Arbeit ist. Deshalb wird eine Automatisierungslösung für die Datenvalidierung benötigt. BiG EVAL ist eine solche Lösung, die mit effizienten Funktionen wie Algorithmen zum Datenvergleich, Validierung von Geschäftsregeln, Workflow-Steuerung und unterstützter Problemlösung für den Fall, dass Probleme mit der Datenqualität erkannt wurden, ausgestattet ist.

Die Datenqualität lässt sich verbessern, indem Elemente wie Abweichungen, unvollständige Informationen, unangemessene Diskrepanzen, fehlende Variation, zu viele korrelierte Merkmale, zu starke Verallgemeinerung und vieles mehr korrigiert werden. Dies geschieht durch Cross-Checking und Cross-Validierung. Wie die Cross-Validierung dies ermöglicht, können Sie hier nachlesen.


Was ist zu tun, wenn ein ML-Modell in der Vergangenheit aus fehlerhaften Daten gelernt hat?

Falls Ihr ML-Modell mit fehlerhaften Daten programmiert wurde, können Sie nicht viel tun, außer in den meisten Fällen von vorne zu beginnen, da die Informationen nicht überprüft wurden. Zwei Möglichkeiten sind denkbar:

Möglicherweise war die Kennzeichnung in den Übungsdaten falsch.
Falls die Übungsdaten falsche Kennzeichnungen enthielten, müssen diese nun korrigiert werden. Nachdem die Kennzeichnungen korrigiert wurden, muss das Modell mit den neuen Daten neu programmiert werden.

Das ist genau der Grund, warum ungeprüfte Informationen in den Daten zu langwierigen Korrekturverfahren führen können.

Die Daten waren verfälscht und wiesen nicht die erforderliche Varianz im Vergleich zu realen Szenarien auf.



Im Falle von Abweichungen könnte die Hinzufügung weiterer Daten vielleicht zu einer Verbesserung des Modells führen. Allerdings sollte das Modell trotzdem neu trainiert werden, wenn es lange Zeit auf den fehlerhaften Daten geschult wurde.

Im Grunde genommen ist es am besten, die Daten zu überprüfen und zu validieren, bevor Sie sie in ein Modell einspeisen.

Wie würde die Datenvalidierung dazu beitragen, diese Risiken aufgrund ungeprüfter Informationen zu vermeiden oder zu verhindern?

Die Datenvalidierung spielt in der Welt der KI tatsächlich eine wichtige Rolle. Sie dient dazu, die in den obigen Absätzen erwähnten Risiken zu vermeiden, die durch ungeprüfte Informationen entstehen, und die Datenqualität zu verbessern.

Oft werden die Daten, die in KI-basierte Modelle eingespeist werden, automatisiert und es gibt wenig bis gar keine menschliche Kontrolle. Deshalb muss bei der Datenvalidierung nicht nur sichergestellt werden, dass die entsprechenden Qualitätsstandards eingehalten werden, sondern auch, dass die nicht geprüften Informationen in den Daten vorab überprüft werden. Vor einer Aktualisierung der Datenbank führt die Datenvalidierung daher zunächst die folgenden zahlreichen Prüfungen durch:

1.Prüfung des Datentyps

2.Prüfung des Codes

3.Prüfung des Bereichs

4.Prüfung des Formats

5.Prüfung auf Konsistenz

6.Prüfung auf Einzigartigkeit

Die obigen Prüfungen sind offensichtlich zu verstehen und bedürfen keiner weiteren Erläuterung. Wenn Sie mehr darüber erfahren möchten, können Sie dies hier tun. Das Risiko von Daten, die keinen Sinn ergeben, falsch eingetragen wurden oder sich wiederholen, wird mit diesen Prüfungen gemindert.


Beispiele für die Datenvalidierung sind: Wenn die Daten das Gehalt eines Mitarbeiters enthalten, das außerhalb des zulässigen Bereichs liegt, wird dies durch die Datenvalidierung erkannt. Auch wenn das Geburtsdatum einer Person keinen Sinn ergibt, wird dies durch die Datenvalidierung erkannt. Die Datenvalidierung prüft also vor allem die nicht überprüften Informationen in den Daten.

Fazit (Zusammenfassung)

Zusammenfassend lässt sich sagen, dass ungeprüfte Informationen in Daten große Schäden anrichten können. Auch wenn diese Schäden vermieden werden, können sie zu mühsamen Korrekturen und unnötiger Verschwendung von Ressourcen und Zeit führen. Um derartige Probleme bei ML- und KI-Verfahren, die an sich schon komplex sind, zu vermeiden, ist es besser, im Vorfeld Vorkehrungen zu treffen. Cross-Checking, Cross-Validierung und Datenvalidierung sind verschiedene Techniken, die zu diesem Zweck eingesetzt werden können. Sobald ein Modell mit falschen Daten programmiert wurde, ist es nicht einfach, es wieder zu korrigieren!

Do the first step! Get in touch with BiG EVAL...