Artikel

Skalierung von KI-Agenten

Vom Proof-of-Concept zum robusten Produktionssystem

In den vergangenen Jahren hat die Vision von autonomen KI-Agenten die Technologiewelt erobert – vom theoretischen Konzept zu ersten praktischen Anwendungen.Nach der Klärung der Grundlagen von "Agentic AI" und der praktischen Anwendung in Unternehmen stehen wir nun vor der entscheidenden Frage:

Wie reifen diese Systeme von der „Spielwiese“ erster Proof-of-Concepts zu skalierbaren, robusten Produktionssystemen?

Diese Transformation bringt spezifische Herausforderungen mit sich, vor allem in den Bereichen Orchestrierung, Ressourcenmanagement und Robustheit.

In diesem Artikel erfahren Sie:

  • Welche architektonischen Hürden bei der Skalierung auftreten
  • Warum Small Language Models (SLMs) zum Gamechanger werden
  • Wie modulare Architekturen Kosten und Latenz senken – ohne an Leistung einzubüßen


Herausforderungen der Skalierung im Produktionsbetrieb


Der Übergang zum Produktionsbetrieb erfordert eine Abkehr von monolithischen Ansätzen hin zu einer durchdachten Systemarchitektur. Eine zentrale Herausforderung ist die Orchestrierung komplexer Arbeitsabläufe, die über einfache "Chaining"- oder "Routing"-Muster hinausgehen. In der Praxis müssen Agenten komplexe Aufgaben in spezialisierte Teilaufgaben zerlegen und die Ergebnisse verschiedener "Worker"-Agenten zusammenführen. Dieses "Orchestrator-Workers"-Muster, das bereits in früheren Analysen als Schlüsselarchitektur identifiziert wurde, gewinnt im produktiven Einsatz an Bedeutung. Es erfordert eine präzise Steuerung, um Abhängigkeiten, Fehlerbehandlung und die Gesamtleistung zu gewährleisten.

Eng damit verbunden ist das Ressourcenmanagement. Die meisten heutigen KI-Agenten basieren auf leistungsstarken, aber ressourcenintensiven Large Language Models (LLMs). Die hohe Inferenz-Latenz und die erheblichen Betriebskosten für LLM-APIs können die Skalierbarkeit für eine breite Palette von repetitiven Aufgaben einschränken und stellen eine ökonomische Hürde dar.


Lösungsansätze:
Heterogene Architekturen und Small Language Models


Um diese Herausforderungen zu bewältigen, ist ein Paradigmenwechsel von einer rein LLM-zentrierten zu einer modularen, "Small-Language-Model-first"-Architektur notwendig. Das aktuelle Forschungspaper „Small Language Models are the Future of Agentic AI“ (NVIDIA Research, 2025) argumentiert überzeugend, dass Small Language Models (SLMs) die Zukunft der agentischen KI sind.

Der Kern dieser Argumentation ist, dass SLMs für viele Aufgaben in agentischen Systemen vollkommen ausreichend sind. Agentische Subtasks sind oft repetitiv, eng gefasst und nicht-konversational. Für diese Aufgaben sind SLMs nicht nur ausreichend leistungsfähig, sondern auch von Natur aus besser geeignet und deutlich kostengünstiger als ihre LLM-Pendants.


Der Einsatz von SLMs ermöglicht die Entwicklung heterogener Agentensysteme, die die Vorteile beider Modelltypen nutzen:

SLMs

werden für spezialisierte, vordefinierte Aufgaben wie Tool-Calling, Datenextraktion oder Code-Generierung eingesetzt. Ihre geringere Größe und die Möglichkeit, sie für spezifische Domänen feinabzustimmen, führen zu geringerer Latenz, niedrigeren Kosten und verbesserter Vorhersagbarkeit.

LLMs

sind weiterhin für komplexere Aufgaben wie offene Dialoge oder übergeordnete strategische Planung von Bedeutung, werden aber nur dann aufgerufen, wenn ihre breiten Fähigkeiten wirklich benötigt werden.

Verbesserte Robustheit und Governance

Diese modulare Architektur trägt auch zur Robustheit bei. Indem spezialisierte SLMs für bestimmte Subaufgaben trainiert werden, können Entwickler:innen ein höheres Maß an Verlässlichkeit und Verhaltensalignment sicherstellen. Ein Agent, der für jede Teilaufgabe ein optimiertes Modell verwendet, ist weniger anfällig für unerwartete Ausgaben als ein einzelner Generalist. Die in früheren Beiträgen betonte Bedeutung von Governance, klaren Leitplanken und kontinuierlichem Monitoring wird durch diese Modularisierung noch verstärkt. Ein systematisches Logging und Tracing der Interaktionen zwischen den verschiedenen Agenten und Modellen wird essenziell, um die Komplexität im Griff zu behalten.


Fazit

Die Skalierung von KI-Agenten vom Pilotprojekt zum robusten Produktionssystem ist eine der größten Herausforderungen der modernen KI-Entwicklung. Die Lösung liegt nicht in immer größeren Super-Agenten, sondern in intelligenten, modularen Architekturen. Die strategische Nutzung von Small Language Models als Rückgrat für die meisten agentischen Aufgaben, kombiniert mit dem selektiven Einsatz von LLMs für komplexe Fälle, bietet einen vielversprechenden Weg. Dieser Wandel hin zu spezialisierten, effizienten und kostengünstigen Agentenarchitekturen ist nicht nur eine technische, sondern auch eine ökonomisch und ökologisch notwendige Entwicklung für die nachhaltige Zukunft der Agentic AI.


GenAI @ adesso

Von der Idee bis zur Implementierung

Generative Künstliche Intelligenz (GenAI) wird unser Geschäftsleben ebenso verändern wie das Internet oder Mobile Business. Unternehmen aller Größen und Branchen legen heute den Grundstein für den effektiven Einsatz dieser Technologie in ihrem Business.

Mehr erfahren

GenAI Impact Report 2025

50 % der Unternehmen sind bereit – Und der Rest?

Wie gut ist die deutsche Wirtschaft auf den Wandel durch GenAI vorbereitet? Wie sehen die Verantwortlichen ihre Branche und unser Land aufgestellt? Wo bringt die Technologie schon heute echte Effizienzgewinne? Und wo gibt es noch Hürden?

Mehr erfahren

adesso bloggt

Spannende Blog-Beiträge zum Thema GenAI

In unserem adesso Blog nehmen wir Sie mit auf eine spannende Reise durch die adesso-Welt. Erfahren Sie mehr über Projekte, Methoden, Technologien und Kooperationen mit Bezug zu Generative AI.

Zu den Blog-Beiträgen


Künstliche Intelligenz ist kein Ersatz für menschliche Diskussion

Wir freuen uns darauf, mit Ihnen ins Gespräch zu kommen.