Sonstiges

Aleph Alpha Blog

Frei von Tokenizern: Warum wir T-Free gebaut haben und was das für souveräne KI bedeutet

Transparenz und Kontrolle stehen seit Beginn unserer Arbeit an LLM-basierten Systemen für den deutschen und internationalen Markt 2019 im Mittelpunkt unserer Innovation. Für uns bilden sie das Fundament von Souveränität in der KI. Deshalb haben wir mit mehrsprachiger Forschung begonnen, als GPT-3 kaum eine Sprache jenseits des Englischen meistern konnte.

Nicht nur in Europa ist Sprache mehr als ein Kommunikationsmittel. Sie ist Motor von Wirtschaft, Forschung und Zusammenarbeit – und zugleich Trägerin von Kultur und Werten.

Zusätzlich zu unserem Fokus auf Sprachgerechtigkeit, besonders für ressourcenarme Sprachen, haben unsere Kundinnen und Kunden unsere Technologie immer für die komplexesten und kritischsten Anwendungsfälle eingesetzt. Felder, in denen spezialisiertes Wissen sein eigenes Vokabular mitbringt, das fast wie eine eigene Sprache funktioniert. Stell dir nur die Sprache einer deutschen Ingenieurspatentschrift vor und wie sehr sie sich von gewöhnlichem Internet-Text unterscheidet.

Wenn KI Menschen dienen soll, muss sie ihre Sprache sprechen.

Klar, die LLMs von 2025 können Gedichte schreiben, holprige E-Mail-Entwürfe aufpolieren und sogar deinen nächsten Urlaub planen. Aber sobald es um die Enterprise-Anwendungsfälle geht, die wirklich Wert schaffen, zeigen sich die Risse. Denn die Sprache innerhalb von Unternehmen (denk an Verträge, technische Spezifikationen, interner Fachjargon) ist oft weit entfernt vom lockeren Geplauder im Web-Korpus, auf das die meisten LLMs optimiert sind.

Wie schließen wir diese Lücke? Indem wir uns von Tokenizern befreien.

Aufgabe eines Tokenizers ist es, Text in Stücke (Tokens) zu zerlegen und jedem Stück eine ID-Nummer zuzuweisen. Während des Trainings lernt das LLM, jedes Token als Vektor (eine Liste von Zahlen) darzustellen – denn das ist das Format, mit dem ein neuronales Netz arbeitet.

Aber hier ist der Haken: Sobald Text tokenisiert wurde, sind die Originalzeichen irrelevant. Das Modell sieht nur noch die Token-ID, nicht die tatsächlichen Buchstaben dahinter. Während das LLM trainiert, muss es aus Kontext und vielen Datenproben ableiten, dass telephone (Englisch) und Telefon (Deutsch) nahezu denselben Vektor erhalten sollten. Das ist mit Tokenizern alles andere als trivial, weil sie die Buchstaben in Wörtern nicht sehen können.

Kritischer noch: Tokenizer werden vor Beginn des eigentlichen LLM-Trainings trainiert und können sich danach nicht mehr anpassen. Jeder Tokenizer hat ein festes Token-Set – im Wesentlichen sein Vokabular – das überwiegend für Standard-Englisch optimiert ist. Diese English-First-Annahme bedeutet: Ist der Tokenizer nicht für eine bestimmte Sprache oder Domäne gebaut, fällt er auf eine zerstückelte Repräsentation zurück und zerlegt Wörter oft in Tokens von nur ein bis zwei Zeichen. Beispiel: Das Wort Bundeskanzler wird in vier Tokens zerlegt, während chancellor nur eines benötigt.

Mehr Tokens heißt: mehr Speicher, mehr Rechenschritte und letztlich höhere Kosten. Es macht auch das zugrundeliegende Wissen deutlich schwerer erlernbar. Manchmal genug, um den Business Case komplett kippen zu lassen. Genau hier setzt unsere tokenizer-freie Architektur T-Free an. Sie ist darauf ausgelegt, diesen Flaschenhals zu beseitigen und neue Möglichkeiten für Effizienz und domänenspezifische Intelligenz zu eröffnen.

Wie T-Free mehr Schlagkraft auspackt

Statt sich auf einen separaten Tokenizer zu verlassen, wandelt unser LLM Wörter direkt in Vektoren um – die Zerstückelung durch ungünstige Wortteile entfällt. Das bewahrt die Integrität auch seltener oder domänenspezifischer Begriffe und erlaubt uns, konsistent mehr Zeichen in jeden Vektor zu packen. Während traditionelle LLMs im Schnitt rund vier Zeichen pro Vektor erreichen, sind es bei T-Free fast sieben. Diese Effizienz übersetzt sich direkt in geringere Kosten, weniger Energieverbrauch und weniger benötigte Trainingsdaten –

T-Free kann zudem Ähnlichkeiten in Zeichen-Mustern nutzen, die für Standard-LLMs verborgen sind. Es erkennt unmittelbar, schon vor dem Training, dass „telephone" und „Telefon" fast dasselbe Wort sind. Dieses eingebaute Bewusstsein verschafft dem Fine-Tuning einen Vorsprung und ermöglicht von Anfang an anpassungsfähigere LLMs.

Das Ergebnis?

KI, die nicht länger in English-First-Annahmen eingesperrt ist – Effizienz und Leistungsfähigkeit für alle Sprachen, mit Raum für spezialisiertes Unternehmenswissen. T-Free öffnet die Tür zu souveränen KI-Strategien, indem es praktikabler wird, auf proprietären Daten und ressourcenarmen Sprachen zu trainieren und dabei die General-Purpose-Fähigkeiten zu behalten, die wir an heutigen LLMs schätzen.

Und jetzt – mit Stolz – die neuesten T-Free-Checkpoints:

Modelle, die in Benchmarks brillieren und das stärkste Fundament dafür bieten, das einzufangen, was am meisten zählt: dein Wissen, deine Sprache, deine Souveränität.

Lust auf mehr? Lies hier das vollständige Research-Release zu unseren T-Free-HAT-Modellen.