ChatGPT lernt sehen, hören und sprechen
Ein neues Update soll es ChatGPT ermöglichen, Spracheingaben zu erkennen und die Antworten selbst laut auszusprechen. Auch Bilder soll der Chatbot von OpenAI bald interpretieren können. Plus- und Enterprise-Kunden bekommen in den nächsten zwei Wochen Zugang zu den Features, der Roll-out für die übrigen User erfolgt danach.
OpenAI hat ein grosses Update für ChatGPT angekündigt. Der Chatbot soll bald in der Lage sein, Spracheingaben zu erkennen und die Antworten seinerseits laut auszusprechen, ähnlich einem Sprachassistenten wie Apples Siri oder Amazons Alexa.
ChatGPT erzählt eine Gute-Nacht-Geschichte
Dahinter stehe ein Text-to-Speech-Modell, das anhand von Text und einigen Sekunden an Sprachbeispielen eine menschenähnliche Stimme erzeugen könne, teilt OpenAI mit. Zudem komme das hauseigene Open-Source-Spracherkennungssystem Whisper zum Einsatz, um gesprochene Worte der User in Text zu verwandeln.
Direkte Gespräche soll es vorerst nur auf mobilen Geräten geben. Auf dem Desktop spuckt ChatGPT die Antworten auf Befehl aus, Spracherkennung gibt es noch keine.
In der Ankündigung bietet OpenAI einige Hörbeispiele. User können sich eine Geschichte, ein Rezept, ein Gedicht, eine Erklärung oder eine Rede vorlesen lassen und dabei aus fünf verschiedenen Stimmtypen wählen. OpenAI habe dafür mit professionellen Synchronsprechern zusammengearbeitet.
Das Unternehmen arbeite in diesem Bereich auch mit anderen Personen zusammen. So nutze Spotify die Technologie von OpenAI für den Pilotversuch ihrer Features "Voice Translation". Dieses soll es Podcasterinnen und Podcastern ermöglichen, ihre Inhalte in ihrer eigenen Stimme in mehrere Sprachen zu übersetzen.
Bildanalyse
Der Chatbot erhält ausserdem neue Funktionen im Bereich der Bilderkennung. "Finden Sie heraus, warum Ihr Grill nicht anspringt, durchsuchen Sie den Inhalt Ihres Kühlschranks, um eine Mahlzeit zu planen, oder analysieren Sie eine komplexe Grafik für arbeitsbezogene Daten", schreibt der Hersteller.
Über den Foto-Button können User neue Bilder aufnehmen oder bestehende auswählen. Dazu braucht es noch eine Frage in Textform als Input. ChatGPT beantwortet die Frage anhand der Informationen, die es dem Bild entnimmt. Um einzelne Bereiche eines Bildes hervorzuheben, gibt es in der Mobile App ein Zeichentool, wie es weiter heisst.
Roll-out
Kunden, die für ChatGPT Plus oder Enterprise zahlen, sollen in den nächsten zwei Wochen Zugang zu den neuen Features bekommen. Anschliessend will OpenAI das Update nach und nach für seine übrigen User ausrollen.
Übrigens: Ein Schweizer Start-up will OpenAI die Stirn bieten und hat sein eigenes Sprachmodell vorgestellt - SwissGPT. Mitgründer Pascal Kaufmann spricht im Interview über die Hintergründe.