Microsoft strebt mit drei neuen grundlegenden Modellen nach KI-Unabhängigkeit.

Letzte Aktualisierung: 04/04/2026
  • Microsoft stellt drei intern entwickelte KI-Grundlagenmodelle für Transkription, Sprachgenerierung und Bilderzeugung vor, um die Abhängigkeit von OpenAI zu verringern.
  • MAI-Transcribe-1 unterstützt 25 Sprachen und ist etwa 2.5-mal schneller als das aktuelle Azure Fast-Transkriptionsangebot von Microsoft.
  • MAI-Voice-1 kann in etwa einer Sekunde 60 Sekunden individuell anpassbares Audio erzeugen, während MAI-Image-2 auf die Erzeugung fortschrittlicher Bilder und Videos abzielt.
  • Die Modelle lassen sich in Microsoft Foundry, MAI Playground, Teams und Azure integrieren und zeichnen sich durch aggressive Preisgestaltung sowie eine Roadmap für große Zukunftsmodelle bis 2027 aus.

Microsofts neue KI-Grundlagenmodelle

Microsoft unternimmt einen klaren Schritt in Richtung mehr Autonomie in der künstlichen Intelligenz Mit der Einführung dreier eigener Basismodelle für Transkription, Sprachgenerierung und Bilderzeugung signalisiert das Unternehmen, dass es eine umfassendere, multimodale KI-Architektur anstrebt, die es vollständig kontrolliert, und gleichzeitig die enge kommerzielle Partnerschaft mit OpenAI fortführt.

Diese neuen Systeme, die im Rahmen der Microsoft AI/MAI Superintelligence Teams sind so konzipiert, dass sie sich direkt anschließen lassen Produkte wie Teams und Azure sowie in interne Experimentierplattformen. In der Praxis legt Microsoft damit den Grundstein für eine langfristige Strategie, bei der Die eigenen Modelle decken einen wachsenden Anteil des alltäglichen Arbeitsaufkommens ab., wobei externe Modelle wie die von OpenAI nur dann zum Einsatz kommen, wenn sie einen klaren, differenzierten Mehrwert bieten.

Drei von Microsoft entwickelte Basismodelle für Transkription, Sprach- und Bildverarbeitung

Die Markteinführung basiert auf drei Kernmodellen: MAI-Transkript-1 für Sprach-zu-Text-Umwandlung MAI-Stimme-1 für Text-zu-Sprache und MAI-Bild-2 zur visuellen Generierung. Zusammen bilden sie eine erste, sehr sichtbare Ebene eines internen Systems. multimodaler KI-Stack das Text, Audio und Bilder innerhalb des Microsoft-Ökosystems verarbeiten kann.

Anstatt sich ausschließlich auf große Allzweckmodelle zu verlassen, setzt Microsoft auf aufgabenorientierte Systeme, die kostengünstiger und schneller sind Für gängige Anwendungsfälle in Unternehmen ist dieser Ansatz besonders relevant, da die Anzahl der Copilot-Nutzer und KI-gestützten Funktionen in Office, Teams und Azure stetig steigt und die Kosten ansonsten nahezu linear mit der API-Nutzung skalieren würden.

Gründungsmodelle Solche Systeme werden anhand großer und vielfältiger Datensätze trainiert, um später an unterschiedlichste Anwendungsfälle angepasst werden zu können. Konkret bedeutet das, dass sie von der Transkription von Callcenter-Anrufen und Besprechungszusammenfassungen bis hin zu synthetischen Stimmen, Barrierefreiheitstools und automatisierten Content-Erstellungsprozessen alles ermöglichen.

MAI-Transcribe-1: schnellere, mehrsprachige Spracherkennung für 25 Sprachen

MAI-Transcribe-1 ist Microsofts neues Spracherkennungs-Engine und eines der zentralen Elemente dieser Einführung. Das Modell unterstützt die Transkription in 25 verschiedene Sprachen übersetzt haben . und wurde intern als ungefähr 2.5-mal schneller als das bestehende Azure Fast-Transkriptionsangebot des Unternehmens., das einen Bezugspunkt in seinem aktuellen Portfolio darstellt.

Diese Leistungssteigerung ist wichtig, weil Transkriptionsprozesse reagieren sehr empfindlich auf Latenz.Dies gilt insbesondere für Echtzeitszenarien wie Live-Untertitelung, Kundensupport oder hybride Meetings. Die umfassendere Sprachabdeckung passt zudem zur globalen Präsenz von Microsoft und erleichtert multinationalen Kunden die Standardisierung auf einen einzigen Anbieter anstatt die Verwendung verschiedener regionaler Tools.

Aus Produktsicht plant Microsoft, MAI-Transcribe-1 direkt zu integrieren Microsoft Teams zur Verarbeitung von Besprechungsprotokollen und Live-Untertiteln. Es wird erwartet, dass dieselbe Engine im Laufe der Zeit auch in anderen Produktivitätstools zum Einsatz kommen wird, sodass Die Nutzer profitieren von höherer Geschwindigkeit und geringeren Kosten, ohne unbedingt eine Markenänderung zu bemerken..

Die Preisgestaltung ist aggressiv: MAI-Transcribe-1 beginnt bei etwa 0.36 $ pro Stunde verarbeitetem Audio, eine Zahl, die darauf abzielt, vergleichbare Angebote von Google und OpenAI zu unterbieten und dabei dennoch auf Microsofts eigener Cloud-Infrastruktur zu laufen.

MAI-Voice-1: Ultraschnelle Text-zu-Sprache-Umwandlung mit benutzerdefinierten Stimmen

Auf der Seite der Audioerzeugung, MAI-Stimme-1 ist Microsofts neues Modell für Text in Sprache umwandelnLaut Angaben des Unternehmens kann es ungefähr 60 Sekunden Audio in etwa einer Sekunde VerarbeitungszeitDies ist ein bemerkenswerter Fortschritt für Anwendungsfälle, in denen Reaktionsfähigkeit von entscheidender Bedeutung ist.

Neben der reinen Geschwindigkeit ist ein zentrales Versprechen die Unterstützung für individuelle, markenkonforme StimmenOrganisationen werden in der Lage sein, Stimmen zu definieren, die ihrer Identität oder spezifischen Anwendungsfällen entsprechen – von Support-Hotlines und Chatbots bis hin zu Schulungsmaterialien, Podcasts und Barrierefreiheitsfunktionen. Diese Kontrolle gewinnt zunehmend an Bedeutung, da synthetische Sprache immer häufiger eingesetzt wird und die Hörer höhere Ansprüche an Tonfall und Verständlichkeit stellen.

Microsoft zielt mit MAI-Voice-1 direkt auf Entwickler und Unternehmen, die sprachintensive Produkte entwickelnCallcenter, In-App-Assistenten, Sprachlernprogramme, Medienplattformen oder jeder Dienst, der skalierbare Sprachausgabe benötigt. Die Preise beginnen bei ca. 22 Dollar pro eine Million ZeichenDas Modell ist so konzipiert, dass es sowohl bei kleinen als auch bei sehr großen Produktionsmengen wirtschaftlich rentabel ist.

Aus infrastruktureller Sicht wird MAI-Voice-1 angeboten durch Azure-APIsMicrosoft Foundry und MAI PlaygroundSo können Teams Stimmen schnell testen und anschließend ohne Umgebungswechsel in die Produktion übergehen. Ziel ist es, den gesamten Prozess von der Entwicklung bis zur Bereitstellung innerhalb der Microsoft-Plattform zu optimieren.

Microsoft KI-Modelle für die Transkription von Sprache und Bildern

MAI-Image-2: Bild- und Videogenerierung, integriert in die Microsoft-Plattform

Das dritte Modell, MAI-Bild-2, konzentriert sich auf Bildgenerierung (und in einigen Beschreibungen auch Videogenerierung) aus TextvorgabenObwohl das Unternehmen nicht alle technischen Details offengelegt hat, positioniert es das Modell als visuelles Gegenstück zu seinen Text- und Audiosystemen, mit dem Ziel, die Erstellung von Marketingmaterialien, Produktvisualisierungen, Storyboards und anderen Medien zu automatisieren.

Interessanterweise tauchte MAI-Image-2 zunächst eher unauffällig auf in MAI-SpielplatzMicrosofts Experimentierumgebung für große Modelle wurde Mitte März vorgestellt. Die aktuelle Ankündigung formalisiert ihre Rolle als Teil des umfassenderen Foundry und Azure Ökosystem, in dem Unternehmen darauf als Standardkomponente und nicht nur als reine Forschungsdemo zugreifen können.

Die Preisgestaltung ist erneut wettbewerbsfähig: Das Unternehmen nennt einen Einstiegspreis von etwa 5 US-Dollar pro eine Million Eingabe-Tokens für Text und herum 33 US-Dollar pro eine Million Ausgabetoken für generierte BilderDiese Zahlen werden so dargestellt, als lägen sie auf dem Niveau oder sogar darunter vergleichbarer Preisklassen von Konkurrenzanbietern, während gleichzeitig die Vorteile der Sicherheits- und Compliance-Lösungen von Microsoft für Unternehmen zum Tragen kommen.

Die Anwendungsfälle reichen von automatisierte kreative Arbeitsabläufe und von personalisierten Marketinggrafiken bis hin zum schnellen Prototyping für Produktdesign. Für viele Kunden, die bereits auf Azure setzen, liegt der entscheidende Vorteil darin, dass sie mit der Bildgenerierung experimentieren können, ohne einen zusätzlichen externen Anbieter hinzuzuziehen.

Integration über Azure, Foundry, MAI Playground und Microsoft 365 hinweg

Ein entscheidender Aspekt dieser Markteinführung ist, wie eng die neuen Modelle in das bestehende System integriert sind. Die bestehenden Cloud- und Produktivitätsplattformen von MicrosoftAlle drei Systeme – MAI-Transcribe-1, MAI-Voice-1 und MAI-Image-2 – werden eingeführt durch Microsoft Foundry, die Unternehmensumgebung für den Zugriff auf und die Skalierung von Basismodellen.

Entwickler können damit beginnen MAI-SpielplatzDort werden dieselben Modelle in einer eher experimentellen Benutzeroberfläche präsentiert. Dieses Setup soll es Teams erleichtern, Funktionen wie Transkription, synthetische Stimmen oder visuelle Generierung auszuprobieren, ohne sich sofort auf eine vollständige Integration festzulegen.

Auf der Produktseite verweist Microsoft bereits auf Microsoft Teams Als einer der ersten Nutznießer wird MAI-Transcribe-1 die Erstellung von Besprechungsprotokollen und Untertiteln ermöglichen, während MAI-Voice-1 und MAI-Image-2 voraussichtlich im Laufe der Zeit in verschiedenen Bereichen zum Einsatz kommen werden. Copilot- und Microsoft 365-Erlebnisseselbst wenn Endnutzer keine explizite Modellkennzeichnung sehen.

Für Unternehmen ist das Versprechen ein einzelner, zusammenhängender Stapel Transkription, Sprach- und Bildverarbeitung sind in Azure direkt neben Sprachmodellen, Datendiensten und Analysen integriert. Dies könnte Compliance, Sicherheitsüberprüfungen und das Lieferantenmanagement im Vergleich zur Einbindung mehrerer externer KI-Anbieter vereinfachen.

Preisstrategie und Wettbewerb mit OpenAI und Google

Neben den technischen Spezifikationen legt Microsoft großen Wert auf preisliche WettbewerbsfähigkeitDas Unternehmen positioniert diese Modelle offen als Alternativen, die mit ähnlichen Angeboten von [Herstellername] mithalten oder diese sogar unterbieten können. OpenAI und Googleinsbesondere für den dauerhaften Einsatz in großem Umfang.

Die veröffentlichten Preisangaben – 0.36 $ pro Audiostunde für MAI-Transcribe-1, 22 Dollar pro Million Zeichen für MAI-Voice-1 und die 5 $ / 33 $ pro Million Token Die Struktur für MAI-Image-2 – das sind nicht nur technische Details. Sie sind Teil einer umfassenderen Botschaft, mit der Microsoft als … wahrgenommen werden möchte. Kosteneffizienter Komplettanbieter von generativer KI und nicht nur ein Wiederverkäufer von Partnermodellen.

In einem Markt, in dem immer mehr Organisationen KI in ihre täglichen Abläufe integrieren, Die Kosten pro Anfrage können schnell zu einer strategischen Variable werden.Durch die Entwicklung eigener Modelle kann Microsoft den Kompromiss zwischen Rechenkosten, Modellkomplexität und Benutzerpreisen optimal ausbalancieren, anstatt hohe Aufschläge an externe Anbieter zu zahlen.

Hinzu kommt ein Signaleffekt: Indem Microsoft seine eigenen Benchmarks und Preistabellen hervorhebt, signalisiert das Unternehmen seinen Kunden, dass sie für Kern-Workloads wie Transkription, Sprach- und Bildverarbeitung nicht mehr auf Drittanbietermodelle zurückgreifen müssen, wenn sie sich bereits für Azure entschieden haben.

Mustafa Suleyman und die „menschenzentrierte“ KI-Vision

Die drei neuen Modelle stammen von Teams, die unter folgenden Gruppen zusammengefasst sind: Microsoft AI/MAI Superintelligence, geführt von Mustafa SuleymanSuleyman, der nun die KI-Abteilung von Microsoft leitet und für seine früheren Positionen in der KI-Branche bekannt ist, hat öffentlich eine Vision skizziert, die er wie folgt beschreibt: „humanistische KI“ oder menschenzentrierte künstliche Intelligenz.

In der Kommunikation von Microsoft zum Marktstart betont Suleyman, dass diese Modelle so konzipiert sind, dass spiegeln wider, wie Menschen tatsächlich kommunizieren, Priorisierung praktischer Nutzen und SicherheitDas Ziel ist es, in seinen Worten, Systeme zu schaffen, die weniger abstrakte Forschungsprojekte sind, sondern vielmehr Werkzeuge, die sich in alltägliche Arbeitsabläufe bei der Arbeit und zu Hause einfügen.

Er hat außerdem angedeutet, dass das aktuelle Trio von Modellen nur der Anfang eines umfassenderen PortfoliosMicrosoft plant, über Foundry und direkt in Produkten zusätzliche Basismodelle einzuführen und so seine internen Kapazitäten schrittweise über Sprache und Bilder hinaus auf weitere Modalitäten und spezialisiertere Aufgaben auszuweiten.

Dieser Fahrplan unterstreicht Microsofts Absicht, nicht nur als Plattform für die KI anderer wahrgenommen zu werden, sondern auch als Entwickler eigener fortschrittlicher Modelle, die neben den Angeboten langjähriger Partner wie OpenAI bestehen können.

Eine neu ausgerichtete Beziehung zu OpenAI und das Ziel eines Spitzenmodells für 2027

Einer der heikelsten Aspekte dieser Strategie ist ihr Verhältnis zu Microsofts vielbeachtete Partnerschaft mit OpenAIDie Unternehmen sind weiterhin eng miteinander verbunden: Microsoft hat über 13 Milliarden Dollar OpenAI hostet seine Modelle auf Azure und integriert Systeme wie GPT in Produkte wie Copilot.

Jüngste Berichte deuten jedoch auf ein Neuverhandlung der Beziehung Das verschafft Microsoft mehr Spielraum, eigene KI-Forschung und Produktlinien parallel zu betreiben. Suleyman bezeichnet diesen Wandel als natürliche Weiterentwicklung, nicht als Bruch – vergleichbar damit, dass das Unternehmen einige seiner Chips selbst entwickelt, während es weiterhin von externen Zulieferern bezieht.

Laut Bloomberg und anderen Medienberichten strebt Microsoft Folgendes an: eigene groß angelegte, zukunftsweisende Modelle sollen bis etwa 2027 betriebsbereit sein.Die neu angekündigten Systeme liegen etwas über diesem Ziel: Sie sind noch nicht als universelle, hochmoderne Sprachmodelle positioniert, sondern eher als Spezialisierte Komponenten, die die Abhängigkeit von Partner-APIs für alltägliche Arbeitslasten reduzieren..

In der Praxis bedeutet dies, dass Microsoft OpenAI-Modelle wie GPT-5.4 weiterhin dort einsetzen kann, wo sie sinnvoll sind, während es gleichzeitig schrittweise Austausch der eigenen Modelle Überall dort, wo das Kosten-Nutzen-Verhältnis oder strategische Überlegungen für interne Technologie sprechen. Benutzer bemerken möglicherweise einfach, dass Funktionen schneller oder kostengünstiger werden, da diese Umstellungen im Hintergrund erfolgen.

Für den breiteren KI-Markt unterstreicht diese zweigleisige Entwicklung einen klaren Trend: Große Technologieunternehmen suchen nach einer Gleichgewicht zwischen Zusammenarbeit und SelbstversorgungSie nutzen Allianzen, um schnell voranzukommen, bauen aber gleichzeitig eigene Kapazitäten auf, um sich langfristig nicht an einen einzigen Lieferanten zu binden.

Mit diesen drei Modellen setzt Microsoft ein klares Zeichen: Das Unternehmen will auf mehreren Ebenen der KI-Technologie konkurrieren – von Infrastruktur und Tools bis hin zu den Basismodellen selbst – und gleichzeitig Partnern wie OpenAI Raum lassen, die ihre jeweiligen Stärken einbringen. Für Kunden könnte dies mehr Auswahl, attraktivere Preise und eine schrittweise Verlagerung hin zu Microsoft-eigener KI als Grundlage für bekannte Produkte und Dienstleistungen bedeuten.

Es gibt viele Abhängigkeiten von Sprachmodellen
Verwandte Artikel:
Die Grenzen der LLM-Abhängigkeit sind begrenzt, begrenzt und begrenzt
Zusammenhängende Posts: