NIR Daten Bereinigung

Die NIR Daten werden auf verschiedenste Aspekte, logische Konsistenz und Kriterien hin untersucht, um im Vorfeld auszuschliessen, dass schlechte Daten Teil der NIR Kalibration werden. Gibt es Kopien der Spektren als Duplikate im Datensatz? Haben die Duplikate unterschiedliche Referenzwerte? Decken alle Spektren den gleichen Wellenbereich ab? Durch Data Cleaning wird verhindert, dass schlechte oder falsche Daten mit ungeeigneten Behandlungen und ungewolltem Überfitten zu scheinbar guten Ergebnissen führen. Wenn auf der Basis einen solchen NIR Modelles Outlier entfernt werden, sind das dann oftmals nicht die schlechten Daten selbst, weil das Modell die schlechten Daten gelernt hat.