Im Moment ist neben der politischen Inbrunst für Umschulungen auch ein stilles Eingeständnis, dass es zumindest besser gemacht werden muss. Und das bedeutet, dass die Verbindung zwischen zweijährigen Colleges und tatsächlichen Arbeitsplätzen noch enger werden muss. Es gibt konkurrierende Visionen, wie dies zu erreichen ist. Ein Camp bevorzugt Programme – die bekanntesten von ihnen genannt Georgia Works –, die Arbeitslose für ein paar Monate in echte, aber manchmal unbezahlte Jobs bringen, während sie ausgebildet werden. Die Idee ist, dass diese Menschen, sobald sie am Arbeitsplatz sind, eher weiterarbeiten. Bisher haben wir diskutiert, was Modelldrift ist und eine Reihe von Möglichkeiten, es zu identifizieren. Es stellt sich also die Frage: Wie können wir abhelfen? Wenn die Vorhersageleistung eines Modells aufgrund von Veränderungen in der Umgebung gesunken ist, besteht die Lösung darin, das Modell auf einem neuen Trainingssatz umzuschulen, der die aktuelle Realität widerspiegelt. Wie oft sollten Sie Ihr Modell umschulen? Und wie bestimmen Sie Ihr neues Trainingsset? Wie bei den schwierigsten Fragen ist die Antwort, dass es darauf ankommt. Aber worauf hängt es ab? Während die Entwicklung dieses Prozesses einen Großteil des Workflows eines Data Scientist [1] für die Zwecke von CD4ML umfasst, behandeln wir die ML-Pipeline als die endgültige automatisierte Implementierung des gewählten Modellschulungsprozesses. Ob man sich darauf verlassen kann, dass die von Granaten geschockten, vertriebenen Arbeiter wieder in die Mittelschicht zurückgedrängt werden, ist eine Frage, die über ein kleines College in einer kleinen Stadt in Wisconsin hinaus von Bedeutung ist. Es ist wichtig, weil die zentrale Stelle der Arbeitsplätze bei den diesjährigen Wahlen, da unsere Wirtschaft wackelig bleibt und unsere Politik polarisiert – vielleicht nirgendwo mehr als in Wisconsin, wo ein kühner Konservativer, Scott Walker, in diesem Frühjahr der erste Gouverneur in der US-Geschichte wurde, der einer Rückrufwahl standhält.
Und es kommt darauf an, wie viele Amerikaner schon lange arbeitslos sind. Auch wenn die Gesamtarbeitslosenquote des Landes in letzter Zeit gesunken ist, bleibt der Anteil der entlassenen Arbeitnehmer, die sechs Monate oder länger keinen Arbeitsplatz finden, bei 40 Prozent – weit höher als zu irgendeinem anderen Zeitpunkt seit dem Zweiten Weltkrieg, als die Regierung begann, den Überblick zu behalten. Insgesamt passen 5 Millionen Amerikaner zu dieser Definition der “Langzeitarbeitslosen”. Die jüngste Rezession hat die größte Anzahl von Arbeitsplätzen in den USA – mehr als 2 Millionen – aus der Produktion gestohlen, die Art von oft gut bezahlter Arbeit, die das meiste von dem ist, was Janesville verloren hat. Tools für die Protokollaggregation und Metrikerfassung werden in der Regel verwendet, um Daten aus einem Live-System zu erfassen, z. B. Geschäfts-KPIs, Softwarezuverlässigkeits- und Leistungsmetriken, Debugging-Informationen zur Fehlerbehebung und andere Indikatoren, die Warnungen auslösen können, wenn etwas aus dem Normalen herausgeht. Wir können dieselben Tools auch nutzen, um Daten zu erfassen, um zu verstehen, wie sich unser Modell verhält: Wir fanden heraus, dass 1.740 entsiedelte Arbeiter zwischen den Sommern 2008 und 2010, nach der Schließung des Werks, bei Blackhawk mit kursen begonnen hatten.