Aleph Alpha Blog
Frei von Tokenizern: Warum wir T-Free gebaut haben und was das für souveräne KI bedeutet
Transparenz und Kontrolle stehen seit Beginn unserer Arbeit an LLM-basierten Systemen für
den deutschen und internationalen Markt 2019 im Mittelpunkt unserer Innovation. Für uns
bilden sie das Fundament von Souveränität in der KI. Deshalb haben wir mit mehrsprachiger
Forschung begonnen, als GPT-3 kaum eine Sprache jenseits des Englischen meistern konnte.
Nicht nur in Europa ist Sprache mehr als ein Kommunikationsmittel. Sie ist Motor von
Wirtschaft, Forschung und Zusammenarbeit – und zugleich Trägerin von Kultur und Werten.
Zusätzlich zu unserem Fokus auf Sprachgerechtigkeit, besonders für ressourcenarme
Sprachen, haben unsere Kundinnen und Kunden unsere Technologie immer für die komplexesten
und kritischsten Anwendungsfälle eingesetzt. Felder, in denen spezialisiertes Wissen sein
eigenes Vokabular mitbringt, das fast wie eine eigene Sprache funktioniert. Stell dir nur
die Sprache einer deutschen Ingenieurspatentschrift vor und wie sehr sie sich von
gewöhnlichem Internet-Text unterscheidet.
Wenn KI Menschen dienen soll, muss sie ihre Sprache sprechen.
Klar, die LLMs von 2025 können Gedichte schreiben, holprige E-Mail-Entwürfe aufpolieren und sogar deinen nächsten Urlaub planen. Aber sobald es um die Enterprise-Anwendungsfälle geht, die wirklich Wert schaffen, zeigen sich die Risse. Denn die Sprache innerhalb von Unternehmen (denk an Verträge, technische Spezifikationen, interner Fachjargon) ist oft weit entfernt vom lockeren Geplauder im Web-Korpus, auf das die meisten LLMs optimiert sind.
Wie schließen wir diese Lücke? Indem wir uns von Tokenizern befreien.
Aufgabe eines Tokenizers ist es, Text in Stücke (Tokens) zu zerlegen und jedem Stück eine
ID-Nummer zuzuweisen. Während des Trainings lernt das LLM, jedes Token als Vektor (eine
Liste von Zahlen) darzustellen – denn das ist das Format, mit dem ein neuronales Netz
arbeitet.
Aber hier ist der Haken: Sobald Text tokenisiert wurde, sind die
Originalzeichen irrelevant. Das Modell sieht nur noch die Token-ID, nicht die tatsächlichen
Buchstaben dahinter. Während das LLM trainiert, muss es aus Kontext und vielen Datenproben
ableiten, dass telephone (Englisch) und Telefon (Deutsch) nahezu denselben Vektor
erhalten sollten. Das ist mit Tokenizern alles andere als trivial, weil sie die Buchstaben in
Wörtern nicht sehen können.
Kritischer noch: Tokenizer werden vor Beginn des eigentlichen LLM-Trainings trainiert und
können sich danach nicht mehr anpassen. Jeder Tokenizer hat ein festes Token-Set – im
Wesentlichen sein Vokabular – das überwiegend für Standard-Englisch optimiert ist. Diese
English-First-Annahme bedeutet: Ist der Tokenizer nicht für eine bestimmte Sprache oder
Domäne gebaut, fällt er auf eine zerstückelte Repräsentation zurück und zerlegt Wörter oft
in Tokens von nur ein bis zwei Zeichen. Beispiel: Das Wort Bundeskanzler wird in vier
Tokens zerlegt, während chancellor nur eines benötigt.
Mehr Tokens
heißt: mehr Speicher, mehr Rechenschritte und letztlich höhere Kosten. Es macht auch das
zugrundeliegende Wissen deutlich schwerer erlernbar. Manchmal genug, um den Business Case
komplett kippen zu lassen. Genau hier setzt unsere tokenizer-freie Architektur T-Free an.
Sie ist darauf ausgelegt, diesen Flaschenhals zu beseitigen und neue Möglichkeiten für
Effizienz und domänenspezifische Intelligenz zu eröffnen.
Wie T-Free mehr Schlagkraft auspackt
Statt sich auf einen separaten Tokenizer zu verlassen, wandelt unser LLM Wörter direkt in Vektoren um – die Zerstückelung durch ungünstige Wortteile entfällt. Das bewahrt die Integrität auch seltener oder domänenspezifischer Begriffe und erlaubt uns, konsistent mehr Zeichen in jeden Vektor zu packen. Während traditionelle LLMs im Schnitt rund vier Zeichen pro Vektor erreichen, sind es bei T-Free fast sieben. Diese Effizienz übersetzt sich direkt in geringere Kosten, weniger Energieverbrauch und weniger benötigte Trainingsdaten –
T-Free kann zudem Ähnlichkeiten in Zeichen-Mustern nutzen, die für Standard-LLMs verborgen sind. Es erkennt unmittelbar, schon vor dem Training, dass „telephone" und „Telefon" fast dasselbe Wort sind. Dieses eingebaute Bewusstsein verschafft dem Fine-Tuning einen Vorsprung und ermöglicht von Anfang an anpassungsfähigere LLMs.
Das Ergebnis?
KI, die nicht länger in English-First-Annahmen eingesperrt ist – Effizienz und Leistungsfähigkeit für alle Sprachen, mit Raum für spezialisiertes Unternehmenswissen. T-Free öffnet die Tür zu souveränen KI-Strategien, indem es praktikabler wird, auf proprietären Daten und ressourcenarmen Sprachen zu trainieren und dabei die General-Purpose-Fähigkeiten zu behalten, die wir an heutigen LLMs schätzen.
Und jetzt – mit Stolz – die neuesten T-Free-Checkpoints:
Modelle, die in Benchmarks brillieren und das stärkste Fundament dafür bieten, das einzufangen, was am meisten zählt: dein Wissen, deine Sprache, deine Souveränität.
Lust auf mehr? Lies hier das vollständige Research-Release zu unseren T-Free-HAT-Modellen.