Technology Innovation Institute
Sneha Sivanand, sneha.sivanand@tii.ae
Das Technology Innovation Institute (TII), ein weltweit agierendes Forschungszentrum und Grundpfeiler der angewandten Forschung des Advanced Technology Research Council von Abu Dhabi, gab heute die Markteinführung von NOOR bekannt, dem bisher weltweit umfangreichsten Modell zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) in Arabisch.
Das Team von TII, bestehend aus Spitzenforschern und Spezialisten für künstliche Intelligenz (KI), hat sich mit LightOn zusammengeschlossen – einem Technologieunternehmen, das maschinelle Intelligenz im Extremmaßstab für Unternehmen bereitstellt, um das arabische NLP-Modell umzugestalten. Das NOOR-Modell hat die Fähigkeit, Aufgaben zu erfüllen, die über den Bereich der Sprache hinausgehen. Es ermöglicht eine durchgängige Pipeline mit qualitativ hochwertigen Daten, einschließlich Crawling, Filtern und Kuratieren in großem Umfang. Das Modell ermöglicht dezentrale Trainings und Services in extremem Umfang, um Anwendungen mit effizienter Inferenz und Modellspezialisierung bereitzustellen.
Dr. Ray O. Johnson, CEO des TII und von ASPIRE, sagte: „Mit dieser Entwicklung sind wir bestens gerüstet, um unsere Forschungskapazitäten und unsere Reputation zu verbessern und den Status von Abu Dhabi und den VAE als ernstzunehmendes Forschungsökosystem aufzuwerten. Unsere Expertenteams haben erneut bewiesen, dass diese Region in der Lage ist, wegweisende F&E-Ergebnisse zu erzielen, die die Welt bewegen.“
Dr. Ebtesam Almazrouei, Direktor, AI Cross-Center Unit, TII, sagte: „Große Sprachmodelle haben die Welt der natürlichen Sprachverarbeitung erobert, und es erfüllt uns mit Stolz, dieses bahnbrechende Modell mit 10 Milliarden Parametern – das größte arabische NLP-Modell der Welt – einzuführen. Der außergewöhnlich große arabische Datensatz, der für das Training des Modells zusammengetragen wurde, ist das Ergebnis monatelanger harter Arbeit, zu der auch das Kuratieren, Aussortieren und Filtern verschiedener Quellen gehört. Ein besonderes Dankeschön geht an das gesamte Team, das an diesem Projekt gearbeitet hat, um NOOR zum bevorzugten Explorationsmodell auf Arabisch für Akademiker und Unternehmen überall zu machen.“
Prof. Mérouane Debbah, Chief Researcher, Digital Science Research Center und AI Cross-Center Unit, TII, sagte zum Start: „Mit NOOR hat das TII die Reichweite des modernen arabischen Standardmodells erweitert, indem wir unser Know-how im Bereich der großen Sprachmodelle genutzt haben, um interdisziplinäres Expertenwissen in dieser neuen Generation der KI-Forschung aufzubauen.“
Zur Kuratierung der weltweit größten hochqualitativen, domänenübergreifenden Arabisch-Datensätze kombiniert NOORs einzigartiger Datensatz mit mehr als 30 Milliarden Wörtern Webdaten mit Büchern, Lyrik, Nachrichtenartikeln und technischen Informationen, um die Anwendbarkeit des Modells deutlich zu erweitern.
Dr. Ebtesam Almazrouei sagte, dass das NOOR-Modell auf einer beliebten Transformer-Architektur basiert. Per Programmierung löst das reine Decoder-Modell, das in seiner Struktur dem GPT-3 ähnlich ist, allgemeine Aufgaben mittels einer aktualisierten Architektur, um den neuesten Entwicklungen im Bereich maschinelles Lernen zu entsprechen. Das TII-Team konzipierte eine auf maschinellen Lerntechniken basierende automatisierte Filter-Pipeline, um die Qualität des NOOR-Datensatzes auf breiter Basis sicherzustellen. Diese Tools identifizieren Text wie Qualitätsreferenzen und schützen das Modell vor Spam.
NOOR wurde auf einer High-Performance-Computing-Ressource mit 128 A100 GPUs unter Einsatz von hochmoderner 3D-Parallelität geschult, um die Aufteilung von Berechnungen zu unterstützen und eine effiziente Nutzung der verfügbaren Hardware-Ressourcen zu gewährleisten.
Die Direktorin der AI Cross-Center Unit merkte an, dass dies nur der erste Schritt bei den Bemühungen der Unit sei, einen Beitrag zur umfassenderen VAE-Strategie für künstliche Intelligenz zu leisten.
Das Modell ist nach dem arabischen Wort „Licht“ benannt und bringt die Korrelation des arabischen Sprachmodells mit der Erleuchtung des Geistes zum Ausdruck.
Über das Technology Innovation Institute (TII)
Weitere Informationen finden Sie unter www.tii.ae
Die Ausgangssprache, in der der Originaltext veröffentlicht wird, ist die offizielle und autorisierte Version. Übersetzungen werden zur besseren Verständigung mitgeliefert. Nur die Sprachversion, die im Original veröffentlicht wurde, ist rechtsgültig. Gleichen Sie deshalb Übersetzungen mit der originalen Sprachversion der Veröffentlichung ab.
Technology Innovation Institute
Sneha Sivanand, sneha.sivanand@tii.ae