Transformer-Architekturen haben die Biowissenschaften revolutioniert und ermöglichen heute die Vorhersage von Proteinstrukturen mit experimenteller Genauigkeit, die Entdeckung neuer Medikamentenkandidaten und das Design völlig neuartiger Proteine. Die grundlegende Erkenntnis: Aminosäuresequenzen verhalten sich wie eine evolutionär optimierte Sprache, in der Self-Attention-Mechanismen tiefe biologische Zusammenhänge erfassen können.

Die mathematischen Grundlagen des Self-Attention Mechanismus
Der Durchbruch begann am 12. Juni 2017, als Ashish Vaswani und sieben Kollegen bei Google Brain das Paper "Attention Is All You Need" auf arXiv hochluden. Die Kernidee war radikal: Statt sequenzieller Verarbeitung durch RNNs sollte ein reiner Attention-Mechanismus Sequenzen parallel verarbeiten.
Die mathematische Formulierung der Scaled Dot-Product Attention lautet: Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) * V
Dabei repräsentiert Q (Query) "wonach gesucht wird", K (Key) "welche Information verfügbar ist" und V (Value) "welcher konkrete Inhalt abgerufen wird". Der Skalierungsfaktor verhindert, dass bei hohen Dimensionen die Dot-Products so groß werden, dass die Softmax-Funktion in Regionen mit verschwindenden Gradienten gerät.
Multi-Head Attention erweitert dieses Prinzip durch parallele Projektionen. Das Original-Transformer-Modell verwendete 8 parallele Attention-Heads. Jeder Head lernt unterschiedliche Repräsentationsaspekte – wie die Analyse der Aufmerksamkeitsgewichte später zeigte, spezialisieren sich einzelne Heads auf syntaktische Strukturen, semantische Beziehungen oder langreichweitige Abhängigkeiten.
Warum Transformer für biologische Sequenzen funktionieren
Die Analogie zwischen natürlicher Sprache und Proteinsequenzen ist verführerisch einfach: Aminosäuren entsprechen Wörtern, Proteine entsprechen Sätzen. Doch die Unterschiede sind substanziell. Das "Alphabet" der Proteine umfasst nur 20 kanonische Aminosäuren, verglichen mit Vokabulargrößen von 30.000-50.000 Tokens in NLP-Modellen.
Der entscheidende Unterschied liegt in den evolutionären Constraints: Während menschliche Sprache kulturell geformt ist, wurden Proteinsequenzen über Milliarden Jahre durch natürliche Selektion optimiert. Jede überlebende Sequenz repräsentiert eine funktionelle Lösung.
Die Analyse von Attention-Heads in Proteinmodellen zeigt, dass sie spontan biologisch relevante Muster lernen. Head 12-4 in BERT-artigen Proteinmodellen fokussiert systematisch auf Aminosäurepaare, die im dreidimensionalen Raum nah beieinander liegen – ein direktes Lernen der 3D-Kontaktstruktur.
ESM: Von 650 Millionen zu 98 Milliarden Parametern
Die Evolutionary Scale Modeling (ESM) Serie von Meta AI definierte den Standard für Protein-Language-Models. ESM-1b war ein 33-schichtiges RoBERTa-artiges Modell mit 650 Millionen Parametern, trainiert auf etwa 250 Millionen Proteinsequenzen.
ESM-2 folgte mit einer Modellreihe von 8 Millionen bis 15 Milliarden Parametern. Der bedeutendste Durchbruch war ESMFold, das die gelernten Repräsentationen direkt für Strukturvorhersage nutzt – ohne Multiple Sequence Alignments oder Templates. ESMFold ist 6-60x schneller als AlphaFold2.
Im Juni 2024 gründete das ESM-Team EvolutionaryScale mit ESM-3, einem multimodalen Modell mit 98 Milliarden Parametern. Das spektakulärste Ergebnis: ESM-3 generierte esmGFP, ein neuartiges grün fluoreszierendes Protein mit nur 58% Sequenzidentität zum nächsten bekannten GFP – ein evolutionärer Sprung von etwa 500 Millionen Jahren.

AlphaFold2s Evoformer: Wenn Attention Geometrie lernt
AlphaFold2 revolutionierte die Strukturvorhersage mit dem Evoformer. Statt einer einzelnen Sequenzrepräsentation verarbeitet der Evoformer zwei gekoppelte Repräsentationen: eine MSA-Repräsentation und eine Paar-Repräsentation.
Der Evoformer besteht aus 48 identischen Blöcken mit drei Schlüsselinnovationen: Axiale Attention verarbeitet die MSA-Repräsentation durch alternierend zeilenweise und spaltenweise Attention. Triangle Attention implementiert geometrische Constraints. Das Structure Module übersetzt die abstrakten Repräsentationen in atomare Koordinaten.
Bei CASP14 erzielte AlphaFold2 einen medianen GDT_TS von 92.4 – ein Z-Score-Summe von 244.0 gegenüber 90.8 für die zweitbeste Gruppe.
AlphaFold3: Diffusion trifft Transformer
Im Mai 2024 publizierte DeepMind AlphaFold3 mit fundamentalen Änderungen. Der Evoformer wurde durch den Pairformer ersetzt. Die radikalste Änderung: Das deterministische Structure Module wurde durch ein Diffusions-Modul ersetzt.
AlphaFold3 sagt gemeinsame Strukturen von Proteinen mit Nukleinsäuren, kleinen Molekülen, Ionen und modifizierten Resten vorher. Bei Protein-Ligand-Interaktionen übertrifft es State-of-the-Art-Docking-Tools deutlich.
De Novo Protein Design: Wenn Transformer kreieren
RFdiffusion kombiniert RoseTTAFold mit Diffusion: Ausgehend von zufälligen Residue-Frames denoisiert das Modell iterativ zur finalen Struktur. Die experimentelle Erfolgsrate für de novo Binder-Design liegt bei 19% – zwei Größenordnungen besser als frühere Methoden.
Chroma verwendet Random Graph Neural Networks mit subquadratischer Skalierung. 310 experimentell validierte Proteine zeigten korrekte Expression und Faltung.
Kommerzielle Anwendungen
Die Translation in Pharma-Anwendungen beschleunigt sich rapide. Isomorphic Labs schloss Partnerschaften mit Eli Lilly und Novartis – kombinierter Deal-Wert: etwa 3 Milliarden Dollar.
Insilico Medicine erreichte einen historischen Meilenstein: INS018_055 war das erste AI-entdeckte Target mit AI-designtem Molekül in Phase 2. Traditionelle Methoden hätten 400 Millionen Dollar und 6 Jahre gekostet; Insilico erreichte das Ziel in einem Drittel der Zeit zu einem Zehntel der Kosten.
Stand 2024 befinden sich 31 AI-entdeckte oder -designte Medikamente in klinischen Studien.
Der Stand 2025
CASP16 (2024) bestätigte, dass Monomer-Strukturvorhersage weitgehend gelöst ist. Der Fokus verschiebt sich zu Proteinkomplexen, Antikörper-Antigen-Interaktionen und Dynamik.
Die Timeline seit 2017 zeigt exponentielles Wachstum: Von Vaswani et al.s 65 Millionen Parameter Base-Modell zu ESM-3s 98 Milliarden. Die AlphaFold Protein Structure Database enthält heute über 214 Millionen vorhergesagte Strukturen – eine Ressource, die von über 3 Millionen Nutzern aus 190 Ländern abgefragt wird.
Die Attention, die Vaswani et al. 2017 für Übersetzung einführten, hat tatsächlich gereicht – nicht nur für Sprache, sondern für das molekulare Alphabet des Lebens selbst.




