5 Maßnahmen, um steigende Kosten in Entwicklung & Co. unter Kontrolle zu bringen

Viele bekommen den Preisanstieg in der Nutzung von KI gerade ganz deutlich mit und ergreifen vielleicht schon erste Maßnahmen, um Ausgaben zu deckeln.
Doch ist seinen Mitarbeitenden den Zugriff auf KI einzuschränken der richtige Weg, oder können schon Tricks wie Kontext eingrenzen oder Outputs optimieren dafür sorgen, dass Geld eingespart wird?
KI-Tools für die Entwicklung zu nutzen ist im Jahr 2026 schon lange kein neuer Trend mehr, sondern simple Realität im Arbeitsalltag. In der 2025 Developer Survey des Entwickler*innen Forums Stack Overflow gaben über 80% der Befragten an, KI Tools für das Entwickeln von Software zu nutzen - über die Hälfte davon sogar täglich. [1]
Das bedeutet im Umkehrschluss, dass Firmen mittlerweile Kosten für KI Zugänge fest in das Budget einzelner Mitarbeitenden einzuplanen haben.
Jetzt zeigt sich allerdings: Diese Rechnung ist längst nicht so stabil, wie vielleicht noch vor einem Jahr angenommen.
Die Kosten für solche KI Zugänge steigen gerade rapide an und das kommt für viele als plötzliche Überraschung. Nicht ohne Grund häufen sich die Berichte über Entwicklungs-Teams, welche innerhalb kurzer Zeit monatliche Token Limits erreichen, oder unerwartet vier-, oder sogar fünfstellige Rechnungsbeträge an KI-Anbieter zahlen müssen. [2]
Und auch Einzelpersonen sind nicht sicher: Preise für Pro-Subscriptions bei Anbietern wie Anthropic (Claude), oder OpenAI (ChatGPT) reichen von 20€ bis 200€. [3]
Und das Problem? Man selbst hat selten Einsicht darüber, wenn Token Limits innerhalb dieser Pläne von den Anbietern gekürzt werden. So fühlt sich das Nutzen bezahlter Pläne 2026 schnell an wie das von gratis Versionen aus 2023.
Zuerst betrachten wir nochmal die Metrik, welche für Kosten bei KI-Modellen hauptsächlich verantwortlich ist: Die Tokens.
Tokens sind die Art und Weise, wie KI-Modelle Ein- und Ausgaben verarbeiten und beschreiben kleinste Textbausteine. Ein Token entspricht dabei etwa 0,75 Wörtern.
Wenn man also eine Anfrage an die KI stellt (in Form von Text/Bild/Dokument), muss diese erst in Tokens umgewandelt und verarbeitet werden.
Sowohl die Verarbeitung der Anfrage, als auch die Ausgabe kosten wiederum weitere Tokens, wobei hier zu beachten ist, dass Output Tokens, also die Antwort der KI, i.d.R. teurer sind, als die Input Tokens.
Man merke: Je komplexer eine Anfrage, desto mehr Tokens werden insgesamt verbraucht.
Und genau diese Tokens liegen den steigenden Preisen jetzt zu Grunde. Denn die Menge an verbrauchten Tokens pro Anfrage ist geradezu am explodieren. [4]
Die Community beschriebt dieses Phänomen auch als „LLMFlation“
Schuld sind mehrere Faktoren. Zum einen die heutzutage viel benutzten Agentic Workflows. Ein KI-System macht längst nicht nur aus einer Eingabe eine Ausgabe. Anfragen heute werden vom System erst recherchiert, dann wird oft ein Dokument gedraftet, welches dann nochmal ggf. gegen eingegebene Parameter geprüft und basierend auf Feedback verändert wird. All das lässt aus einer vielleicht 2.000-Token-Aktion schnell eine 50.000- oder sogar 500.000-Token-schwere Arbeit werden.
Zum anderen sorgt der geplante Börsengang der KI-Giganten OpenAI und Anthropic dafür, dass diese Unternehmen mehr denn je darauf achten, positive Bruttomargen mit ihren Produkten zu erzielen. Um dies zuverlässig erreichen zu können, werden die Preise weiter steigen müssen. [7]
Wie bereits im vorangegangenen Abschnitt erläutert, ist insbesondere das Volumen der verbrauchten Tokens für die steigenden Kosten verantwortlich. Daher versuchen wir, unseren Token-Verbrauch durch die folgenden Techniken zu reduzieren:
Je nach Anforderung der Aufgabe, braucht ein KI-Tool keine komplette Chathistorie, zahlreiche Dokumente, Screenshots oder System Prompts. [5]
Je präziser man den tatsächlich gebrauchten Kontext identifizieren und auch geben kann, desto mehr Token kann man sparen.
Klingt erstmals logisch, wird in der Praxis aber trotzdem selten getan.
Oft ist es zu bequem ein einziges Chat Interface / Modell zu haben, dem man alle Anfrage schickt.
Allerdings sind leistungsfähigere Modelle immer teurer und das, ohne dass diese Leistung zwangsläufig gebraucht wird.
Für einfach Anfragen wie Texte umformulieren etc. lohnt es sich also auf leichtgewichtigere Modelle zu setzen und die wirklich aufwendigen Aufgaben wie Code Generierung den größeren Modellen zu überlassen.
Output Tokens sind deutlich teurer, als Input Tokens und viele KI-Modelle neigen dazu, ausführliche und lange antworten zu generieren.
Oft genügen aber kurze, präzise Stichpunkte, um eine Frage zu beantworten.
System Prompts, genaue Anweisung in der Anfrage oder ganze Projekte wie Caveman AI können dafür genutzt werden, um die Verbosität der Tools drastisch zu reduzieren. [6]
Für viele wohl der schwierigste und oft auch letzte Schritt im Kampf gegen steigende Lizenzkosten. Ein KI Modell selbst zu hosten, sei es über gemietete Cluster, oder eigene Hardware, bringt Vorteile:
Wer selbst hostet hat ein besseres Verständnis dafür, wie viele Tokens tatsächlich generiert und verbraucht werden. Außerdem erlaubt es, Token-Limits gänzlich zu umgehen.
Stand jetzt stellt es vor allem eine ökonomisch konkurrenzfähige Methode zum Bereitstellen von bezahlten Zugängen dar.
Allerdings muss man beachten, dass selbst gehostete LLMs selten mit Performance von proprietären Lösungen gleichauf sind. Diese besitzen oft viel mehr Parameter, lassen also ein höheres Maß an Komplexität in der Bearbeitung der Anfragen zu. Das geht nur durch die nötige Rechenleistung und die hat man selbst nicht immer zur Verfügung.
Dabei stellt sich wieder die Frage, welches Level von Leistungsfähigkeit man tatsächlich für die effektive Bearbeitung der Aufgaben benötigt.
Die Kosten für die Nutzung von KI werden in Zukunft wohl nur weiter in die Höhe steigen, damit KI-Investoren den ROI Ihrer gebauten Datenzentren auch sicher erreichen. [7]
Wie man mit diesem Trend genauer umgeht, wird die Zeit zeigen.
Die angesprochene Methoden und Tricks schaffen aber schon jetzt Abhilfe, damit der gewohnte, KI-unterstützte Workflow größtenteils ungestört fortgeführt werden kann.
1: https://survey.stackoverflow.co/2025/ai#sentiment-and-usage-ai-select-ai-sel-prof
2: https://financialpost.com/technology/companies-burning-through-ai-tokens-racking-up-bills
4: https://www.artefact.com/blog/is-ai-really-getting-cheaper-the-token-cost-illusion/
5: https://dev.to/clickit_devops/whats-actually-making-your-llm-costs-skyrocket-3039/
6: https://exord.de/blog/caveman-ai
7: https://joshbersin.com/2026/05/ai-prices-are-going-up-up-up-and-what-this-means-for-enterprise-ai/