OpenAI geeft ChatGPT een stem om te reageren op aanwijzingen en opdrachten

Lezers zoals jij helpen MUO te ondersteunen. Wanneer u een aankoop doet via links op onze site, kunnen we een partnercommissie verdienen. Lees verder.

ChatGPT wordt een interactieve generatieve AI-ervaring. OpenAI onthulde dat 's werelds toonaangevende AI-chatbot in staat zal zijn om te spreken en te reageren op vragen van gebruikers met behulp van een gesynthetiseerde, vermoedelijk door AI gegenereerde stem.

Samen met zijn nieuwe stem zal ChatGPT ook in staat zijn om te reageren op en specifieke afbeeldingen te bespreken die ernaar zijn geüpload of die zijn gemaakt tijdens het gebruik van de ChatGPT Android- of iOS-app. De beeldherkenningsfunctie klinkt vergelijkbaar met Google Lens en andere apps die neurale netwerken gebruiken om gegevens en informatie nauwkeurig te detecteren.

OpenAI geeft ChatGPT een stem

Op 25 september 2023, ChatGPT-ontwikkelaar OpenAI onthuld het zou zijn toonaangevende generatieve AI-chatbot een stem geven. ChatGPT-gebruikers kunnen rechtstreeks met de chatbot praten en vragen om terug te spreken, waardoor ChatGPT voor het eerst rechtstreeks met spraak kan praten.

In de voorbeeldclip van OpenAI is een vrouw te zien die ChatGPT vraagt om een uniek verhaaltje voor het slapengaan te maken, waarop ChatGPT reageert met een door vrouwen gesynthetiseerde stem.

hoe informatie over iemand te achterhalen?

Volgens Bedrade werd het nieuwe tekst-naar-spraak-model in eigen huis ontwikkeld. Het kan 'mensachtige' audio genereren uit tekst en een paar seconden voorbeeldspraak ( met behulp van het OpenAI Whisper-model ) en spreek in verschillende tonen en stijlen. Op vindt u een scala aan stemvoorbeelden OpenAI-blog .

Sommige bedrijven gebruiken het nieuwe spraakmodel van OpenAI al. Spotify gebruikt bijvoorbeeld het tekst-naar-spraakmodel van OpenAI om podcasts in verschillende talen te vertalen, waarbij het taalvertaalvermogen van ChatGPT wordt gecombineerd met zijn nieuwe spreekvaardigheid.

Het nieuwe tekst-naar-spraak-model van ChatGPT is alleen beschikbaar voor Plus- en Enterprise-abonnees die de officiële Android- en iOS-apps gebruiken en zal naar verwachting binnen de komende twee weken (vanaf 25 september 2023) worden uitgerold. Bovendien is de nieuwe spraakfunctie in eerste instantie beperkt tot het Engels, hoewel we verwachten dat dit snel zal veranderen.

ChatGPT kan en en foto's herkennen

Het tweede deel van de ChatGPT-update van OpenAI is de mogelijkheid om afbeeldingen die naar de tool zijn geüpload, te analyseren en te bespreken. De optie voor visuele beeldanalyse was te zien in de GPT-4-updatevideo's, maar is sindsdien niet veel meer besproken ( ChatGPT Code Interpreter terzijde ).

Nu krijgt ChatGPT functionaliteit die vergelijkbaar is met Google Lens. U kunt een afbeelding uploaden naar ChatGPT of een foto maken met de camera van uw smartphone in de ChatGPT-app, waarna de afbeelding gedetailleerd wordt en waar nodig meer context wordt toegevoegd.

Door het ‘vergelijkbaar met Google Lens’ te noemen, is het eigenlijk onrecht. De mogelijkheid om heen en weer te praten over de afbeelding om meer informatie en context te krijgen, maakt het uiterst nuttig voor een breed scala aan instellingen. Het is echter belangrijk om op de kleine lettertjes te letten, waarbij OpenAI duidelijk maakt dat het ChatGPT's 'vermogen om mensen te analyseren en directe uitspraken te doen' beperkt heeft vanwege privacy- en nauwkeurigheidsredenen. Maar zou er in de toekomst een door OpenAI aangedreven tool 'Wie is dit' in de maak kunnen zijn? (Laten we hopen van niet!)

luistert mijn computer naar mij?

Net als het nieuwe tekst-naar-spraak-model zal OpenAI de komende twee weken beeldherkenning uitrollen, hoewel het beschikbaar zal zijn op alle platforms, niet alleen op de ChatGPT-app.

Privacy, beveiliging en andere kwesties

De implicaties van een spraakgestuurde ChatGPT zijn groot. Zeker, het is spannend. De mogelijkheid om een uniek gesynthetiseerde stem te creëren met slechts een kort fragment als voorbeeld brengt aanzienlijke privacy- en veiligheidsproblemen met zich mee. Het potentieel voor kwaadwillende actoren om deze tools te misbruiken is enorm, en zoals bij elk generatief AI-tool, zal de geest er absoluut niet meer in terugkeren als deze eenmaal uit de fles is. Geen enkele hoeveelheid AI-regulering van overheden of opinieleiders kan nog worden teruggedraaid. het getij.

Zelfs de waarschuwing van OpenAI over dit onderwerp lijkt het voor de hand liggende te omzeilen, ondanks het benoemen van de problemen:

Deze capaciteiten brengen echter ook nieuwe risico's met zich mee, zoals de mogelijkheid dat kwaadwillende actoren zich voordoen als publieke figuren of fraude plegen. Dit is de reden waarom we deze technologie gebruiken om een specifiek gebruik mogelijk te maken: voicechat.

Aangezien dit het topje van de ijsberg is, kun je weerstand verwachten tegen de nieuwe stem van ChatGPT, vooral als er een voorspelbare toename is in onsmakelijke krantenkoppen waarin wordt beweerd dat ChatGPT wordt gebruikt om fraude te plegen, enzovoort.

OpenAI maakt van ChatGPT de go-to AI-app

Hoe meer OpenAI gebruiksvriendelijke functies aan ChatGPT toevoegt, hoe meer het de generatieve AI-app wordt. Als eerste die grote bekendheid verwierf tijdens de eerste generatieve AI-hausse, loopt ChatGPT nog steeds voorop en is het de enige app die sommigen gebruiken, ondanks de concurrentie van Google Bard (en mogelijk Google Gemini) en Claude van Anthropic.

Zolang OpenAI functies kan blijven toevoegen die ChatGPT gebruiksvriendelijker maken, zal het mensen verslaafd houden en steeds dichter bij zijn doel van een echt multimodale AI-tool komen.