Warum Sprachmodelle keine Wahrheiten liefern, MCP ein reales Risiko erzeugt – und was verantwortungsvoller KI-Einsatz wirklich bedeutet.
Large Language Models (LLMs) sind beeindruckende Systeme. Sie erzeugen flüssige, grammatisch korrekte und oft überzeugend klingende Texte. Aber sie verstehen nichts. Sie berechnen Token-Wahrscheinlichkeiten – das nächste Wort, das statistisch am besten passt. Das Ergebnis ist Text, der richtig klingt, nicht Text, der richtig ist.
Diese Unterscheidung ist keine akademische Spitzfindigkeit. Sie ist der Kern des Problems. Ein LLM hat kein Modell der Welt, kein Verständnis von Ursache und Wirkung, keine semantische Stabilität. Es produziert Ausgaben, die auf Mustern in Trainingsdaten basieren. Wenn diese Muster zufällig mit der Realität übereinstimmen, funktioniert es. Wenn nicht, halluziniert das Modell – und tut das mit derselben Selbstsicherheit wie bei korrekten Antworten.
Für Marketing-Texte oder Brainstorming mag das akzeptabel sein. Für Entscheidungen mit realen Konsequenzen ist es ein fundamentales Problem.
Das Model Context Protocol (MCP) ist ein Standard, der es Sprachmodellen ermöglicht, externe Funktionen aufzurufen: E-Mails versenden, Datenbanken ändern, APIs ansprechen, Dateien manipulieren. Aus einem passiven Textsystem wird ein aktiver Agent.
Das klingt nach einem logischen nächsten Schritt. In Wahrheit ist es ein qualitativer Sprung mit völlig anderen Risikoeigenschaften. Ein LLM, das falsche Informationen ausgibt, ist ärgerlich. Ein LLM, das auf Basis falscher Einschätzungen E-Mails an Kunden versendet, Datenbankeinträge ändert oder Bestellungen auslöst, richtet realen Schaden an.
Das Kernproblem: Ein agentisches KI-System, das über MCP handelt, versteht die Kausalzusammenhänge seiner Aktionen nicht. Es weiß nicht, was eine Datenbank-Löschung bedeutet. Es versteht nicht, dass eine falsch formulierte E-Mail einen Kunden kosten kann. Es berechnet Wahrscheinlichkeiten – auch dann, wenn die Konsequenz einer falschen Entscheidung irreversibel ist.
Die Standardantwort auf solche Bedenken lautet: „Wir haben einen Human-in-the-Loop.“ Das klingt beruhigend. Es ist es nicht.
Der Begriff ist viel zu generisch. Wer sitzt in der Schleife? Ein Junior-Mitarbeiter, der auf „Bestätigen“ klickt? Oder ein Fachexperte, der die Ausgabe tatsächlich bewerten kann? Die meisten Implementierungen setzen auf Präsenz, nicht auf Kompetenz. Das ist ein entscheidender Unterschied.
Hinzu kommt ein psychologisch gut dokumentiertes Phänomen: Je zuverlässiger ein System über Zeit arbeitet, desto nachlässiger wird die menschliche Überwachung. Automation Bias ist kein theoretisches Konzept – es ist ein nachgewiesener Effekt aus der Luftfahrt, der Medizin und der industriellen Steuerung. Menschen gewöhnen sich daran, dass das System Recht hat, und hören auf, kritisch zu prüfen.
Und selbst wenn die Überwachung aufmerksam ist: Bei agentischen Systemen, die in Echtzeit handeln, kann ein Mensch oft schlicht nicht schnell genug eingreifen. Wenn das Modell eine Transaktion ausgelöst hat, ist die Reaktionszeit für eine Korrektur häufig bereits abgelaufen.
Die übliche Diskussion über KI-Sicherheit dreht sich um Modellpräzision: Accuracy, F1-Score, Halluzinationsrate. Diese Metriken sind wichtig, aber sie beantworten die falsche Frage.
Die richtige Frage ist nicht: „Wie oft liegt das Modell richtig?“ Sondern: „Was passiert, wenn es falsch liegt?“
Ein Modell mit 95 % Genauigkeit klingt gut. Aber wenn die verbleibenden 5 % Datenverlust, Compliance-Verstöße oder wirtschaftliche Schäden bedeuten, ist die Metrik wertlos. Was zählt, ist eine End-to-End-Risikoanalyse: Welcher tatsächliche Schaden entsteht im Fehlerfall? Ist der Schaden reversibel? Wie schnell wird ein Fehler erkannt? Wer trägt die Verantwortung?
Diese Fragen werden in der aktuellen KI-Euphorie selten gestellt. Und noch seltener ehrlich beantwortet.
Neben dem Risiko gibt es eine weitere unbequeme Wahrheit: Viele GenAI-Projekte sind schlicht unökonomisch.
Die Gesamtkosten eines KI-Systems umfassen weit mehr als Lizenzgebühren und API-Calls. Compute-Kosten, Monitoring-Infrastruktur, Qualitätssicherung, menschliche Überwachung, Incident Response, Retraining – die tatsächliche Total Cost of Ownership wird in den meisten Business Cases systematisch unterschätzt.
Wenn man ehrlich rechnet – mit allen Kosten für Überwachung, Fehlerkorrektur und Risikomanagement – bleibt bei vielen Anwendungsfällen kein positiver ROI übrig. Das bedeutet nicht, dass KI keinen Wert hat. Es bedeutet, dass der Wert in spezifischen, gut definierten Szenarien liegt – nicht in der flächendeckenden Automatisierung, die der Markt gerade verspricht.
Aus der Analyse ergibt sich ein klarer Rahmen für Unternehmen, die KI sinnvoll einsetzen wollen:
Die GenAI-Blase ist real. Sie entsteht nicht, weil die Technologie nutzlos wäre – sondern weil die Erwartungen systematisch über die tatsächlichen Fähigkeiten hinausgehen. LLMs sind Werkzeuge zur Textgenerierung auf Basis statistischer Muster. Nicht mehr, nicht weniger.
Das Problem wird akut, wenn diese Systeme über Protokolle wie MCP Handlungsfähigkeit erhalten – ohne das Verständnis, das verantwortungsvolles Handeln voraussetzt. Die Frage ist nicht, ob etwas schiefgehen wird, sondern wann und in welchem Ausmaß.
Nicht die Größe des Modells bestimmt den Erfolg eines KI-Projekts. Sondern die Reife, die Verantwortung und das kritische Denken der Menschen, die es einsetzen.
Sie planen den Einsatz von KI in Ihrem Unternehmen? Wir helfen Ihnen, Chancen realistisch zu bewerten und Risiken systematisch zu managen.
Sprechen Sie mit uns