Von instadeep, interessanterweise hat instadeep für seine Forschungen Zugriff auf den supercomputer in Cambridge! war da nicht auch was mit biontech und Cambridge...
https://www.instadeep.com/2023/01/...insights-into-genomics-research/
Neue Forschungsergebnisse von InstaDeep, NVIDIA und der Technischen Universität München übertreffen die Erwartungen und liefern neue Einblicke in die Genomforschung
Veröffentlicht13. Januar 2023 |
InstaDeep freut sich, eine neue Zusammenarbeit mit der Technischen Universität München und NVIDIA bekannt zu geben, bei der der in Großbritannien ansässige Cambridge-1-Supercomputer zum Trainieren von Large Language Models (LLMs) auf verschiedenen genomischen Datensätzen verwendet wird, um die Auswirkungen des Modellmaßstabs und der Datenvielfalt auf Downstream zu untersuchen Aufgabenerfüllung.
Als Teil der Arbeit wurden mehrere Grundlagenmodelle für die Genomik konstruiert, die bei zahlreichen Vorhersageherausforderungen hochmoderne Ergebnisse erzielten. Aufgaben wie die Vorhersage von Enhancer- und Promotorsequenzen und Bindungsstellen für Transkriptionsfaktoren wurden untersucht und werden zum Verständnis des Prozesses beitragen, bei dem DNA in RNA und Proteine übersetzt wird.
Diese Ergebnisse haben aufregende Implikationen für das Gebiet der Genomik, da sie zeigen, dass große Sprachmodelle verwendet werden können, um eine breite Palette von Aufgaben effektiv zu verallgemeinern. Dies ist ein bedeutender Fortschritt, da frühere Ansätze die Verwendung spezialisierter Modelle für jede Aufgabe erforderten. Die Verwendung von LLMs, die auf Genomdaten trainiert wurden, kann den Prozess der Vorhersage genomischer Merkmale aus DNA-Sequenzen erheblich vereinfachen, selbst in Umgebungen mit wenig Daten, und das Verständnis der biologischen Folgen menschlicher Mutationen.
Karim Beguir, Mitbegründer und CEO von InstaDeep, sprach über die Partnerschaft: „Wir glauben, dass dies die ersten Ergebnisse sind, die klar die Machbarkeit der Entwicklung von Grundlagenmodellen in der Genomik zeigen, die wirklich aufgabenübergreifend verallgemeinern. In vielerlei Hinsicht spiegeln diese Ergebnisse wider, was wir in den letzten Jahren bei der Entwicklung anpassungsfähiger Basismodelle in der Verarbeitung natürlicher Sprache gesehen haben, und es ist unglaublich aufregend zu sehen, wie dies jetzt auf so herausfordernde Probleme in der Arzneimittelforschung und der menschlichen Gesundheit angewendet wird.“
Hervorragende Ergebnisse weisen auf großes Potenzial hin
Das größte LLM mit 2,5 Milliarden Parametern, das auf einem Multi-Spezies-Datensatz trainiert wurde, hat in 15 von 18 Aufgaben mit spezialisierten State-of-the-Art-Modellen abgestimmt oder diese übertroffen. Die Ergebnisse wurden durch die Verwendung einer parametereffizienten Feinabstimmung erzielt, aber selbst die Verwendung vortrainierter Einbettungen aus Transformatormodellen in einem einfachen Modell wie einem flachen Perzeptron oder einer logistischen Regression führte zu einer gleichwertigen oder überlegenen Leistung bei 11 Aufgaben.
Das Team fand auch heraus, dass Zwischenschichten im LLM häufig Darstellungen mit höherer Leistung bei nachgelagerten Aufgaben produzierten als die letzte Schicht. Diese Ergebnisse zeigen das Potenzial für die Entwicklung von Basismodellen in der Genomik, die sich über Aufgaben hinweg verallgemeinern lassen und bedeutende Anwendungen in der Arzneimittelforschung und der menschlichen Gesundheit haben.
Schlüsselfaktoren zur Leistungssteigerung
Die Forscher untersuchten in ihrer Studie auch die Bedeutung der Sequenzdiversität und des Modellmaßstabs. Sie fanden heraus, dass die Erhöhung eines dieser Faktoren zu einer verbesserten Leistung führte. Beispielsweise schnitt ein 500-Millionen-Parameter-Modell, das nur mit dem menschlichen Referenzgenom trainiert wurde, schlechter ab als das gleiche Modell, das mit dem 1000-Genome-Datensatz (3.200 menschliche Genome) trainiert wurde. In ähnlicher Weise schnitt das 2,5-Milliarden-Parameter-Modell, das auf dem 1000-Genome-Datensatz trainiert wurde, besser ab als jedes 500-Millionen-Parameter-Modell, aber nicht so gut wie dasselbe Modell, das auf einem benutzerdefinierten Multi-Spezies-Datensatz trainiert wurde, selbst wenn die nachgelagerte Leistung nur an Aufgaben gemessen wurde, die sich auf sie beziehen das menschliche Genom.
Eine andauernde Beziehung
Diese Ankündigung folgt auf die Nachricht aus dem Jahr 2022, dass InstaDeep neben den fünf Gründungspartnern Zugang zu Cambridge-1 gewährt wurde, was es dem Unternehmen ermöglicht, die nächste Welle der Biologieinnovation zu beschleunigen, insbesondere um KI-Sprachmodelle unter Verwendung von Genomdaten zu trainieren.
Ein erster Entwurf der Ergebnisse ist auf bioarxiv verfügbar, und die vollständigen Ergebnisse werden in einer bevorstehenden Veröffentlichung beschrieben. Auf der dieswöchigen J.P. Morgan Healthcare Conference wurde von NVIDIA Healthcare VP Kimberly Powell (Donnerstag, 12. Januar um 10:30 PDT) eine „Vorabschau“ präsentiert. Hören Sie sich den Webcast an und sehen Sie sich die Folien hier an.
Mit Blick auf die Zukunft plant das Team, weitere nachgelagerte Aufgabenleistungsverbesserungen durch direkte Feinabstimmung der Modelle zu untersuchen, und wird seine Zusammenarbeit an architektonischen Innovationen für LLMs, die auf die Genomik angewendet werden, fortsetzen. |