DeutschEnglish

KI sagt Funktion von Enzymen voraus

Schematische Darstellung des Vorhersageprozesses für Wechselzahlen von enzymatischen Reaktionen: Ein Enzym besteht aus Sequenzen von Aminosäuren; diese Sequenzen werden in numerische Vektoren umgewandelt, dargestellt durch graue Quadrate, welche dann von einem Deep Learning-Modell in einen einzigen Vektor transformiert werden (oben links). Informationen über die katalysierten Reaktionen werden ebenfalls in numerische Vektoren umgewandelt (oben rechts). Experimentell bestimme Wechselzahlen (unten links) werden zum Training eines Gradient Boosting-Modells verwendet, um die Wechselzahl kcat vorherzusagen (unten rechts). Gradient Boosting-Modelle sind ein Ensemble mehrerer Entscheidungsbäume, dargestellt in unterschiedlichen Grüntönen. (Abbildung: HHU / Alexander Kroll)

In zellulären Stoffwechselprozessen spielen Enzyme eine entscheidende Rolle. Um diese Prozesse auch quantitativ einschätzen zu können, müssen Forschende die sogenannte „Wechselzahl“ (kurz kcat) der Enzyme kennen. In der Fachzeitschrift Nature Communications beschreibt ein Team von Bioinformatikern der Heinrich-Heine-Universität Düsseldorf (HHU) nun ein Verfahren, um diese Größe bei verschiedenen Enzymen mittels KI-Methoden vorherzusagen.

Enzyme sind wichtige Biokatalysatoren in allen lebenden Zellen. Sie sind im Normalfall große Proteine, die kleinere Moleküle – sogenannte Substrate – an sich binden und diese anschließend in andere Moleküle umwandeln, die „Produkte“. Ohne die Enzyme könnte die Reaktion der Substrate in die Produkte nicht oder nur mit sehr kleiner Rate stattfinden. Die meisten Organismen besitzen Tausende verschiedene Enzyme. In vielen biotechnologischen Prozessen, aber auch im Alltag – von der Reifung von Brotteigen bis hin zu Waschmitteln – finden Enzyme vielfache Anwendungen.

Die maximale Geschwindigkeit, mit der ein bestimmtes Enzym seine Substrate in Produkte umwandeln kann, wird durch die sogenannte Wechselzahl kcat (englisch „turnover number“) bestimmt. Sie ist ein wichtiger Parameter für die quantitative Erforschung von Enzymaktivitäten und spielt eine entscheidende Rolle für das Verständnis des zellulären Stoffwechsels.

Allerdings ist es zeitaufwendig und teuer, die kcat-Werte experimentell zu bestimmen; daher sind ihre Werte für die allermeisten Reaktionen nicht bekannt. Die Arbeitsgruppe Computergestützte Zellbiologie an der HHU um Prof. Dr. Martin Lercher entwickelte nun ein neues Verfahren namens TurNuP, um kcat -Werte von Enzymen mithilfe von KI-Methoden vorherzusagen.

Um ein kcat -Vorhersagemodell zu trainieren, wurden mithilfe von Deep Learning-Modellen Informationen über die Enzyme und die katalysierten Reaktionen in numerische Vektoren umgewandelt. Diese numerischen Vektoren dienten als Eingabe eines Machine Learning-Modells – eines sogenannten Gradient Boosting-Modells –, das die kcat -Werte vorhersagt.

Erstautor Alexander Kroll: „TurNuP liefert bessere Ergebnisse als frühere Ansätze und kann sogar erfolgreich auf Enzyme angewendet werden, die nur eine geringe Ähnlichkeit zu den Enzymen im Trainingsdatensatz aufweisen.“ Mit bisherigen Modellen konnten keine sinnvollen Aussagen getroffen werden, wenn die Enzymsequenz nicht mindestens 40 Prozent mit denjenigen der Trainingsenzyme überstimmte. TurNuP dagegen macht schon bei solchen Enzymen sinnvolle Vorhersagen, bei denen die Übereinstimmung zwischen 0 und 40 Prozent liegt.

Prof. Lercher ergänzt: „Wir zeigen in unserer Studie, dass die Vorhersagen durch TurNuP verwendet werden können, um die Konzentrationen von Enzymen in lebenden Zellen deutlich genauer als bisher vorherzusagen.“

Um das Vorhersagemodell möglichst vielen Anwendern leicht zugänglich zu machen, entwickelte das HHU-Team einen benutzerfreundlichen Webserver, mit dem andere Forschende kcat-Werte von Enzymen vorhersagen lassen können.

Link zum Webserver

Hintergrund: Machine Learning und Deep Learning Deep Learning-Modelle bestehen aus vielen miteinander verbundenen Schichten von künstlichen Neuronen, die Muster in den Eingabedaten erkennen und verarbeiten können. Wie die numerischen Eingaben von einem Deep Learning-Modell verarbeitet werden, wird anhand von optimalerweise großen Trainingsdatensätzen erlernt.

Gradient Boosting-Modelle sind eine Methode des Machine Learnings, bei denen viele Entscheidungsbäume erstellt werden. Die Ergebnisse aller Entscheidungsbäume für eine bestimmte Eingabe werden verwendet, um Vorhersagen zu treffen. Ähnlich wie beim Deep Learning werden Trainingsdaten verwendet, um das Modell anzupassen, d.h. um die Entscheidungsbäume zu erstellen.

Heinrich-Heine-Universität Düsseldorf

Die Heinrich-Heine-Universität Düsseldorf ist eine der jüngeren Hochschulen des Landes NRW – gegründet 1965. Seit 1988 trägt die Universität den Namen des großen Sohnes der Stadt. Heute finden auf dem modernen Campus rund 35.000 Studierende...mehr...