ChatGPT е с нови гласови и мултимодални функции

Любимецът на всички сред свободно достъпните чатботове GPT образно казано вече може да слуша, да говори и да вижда. Новите мултимодални възможности на приложението на OpenAI бяха обявени вчера от компанията. Те позволяват на потребителите да водят гласов разговор с генеративния AI и да споделят изображения с него в реално време.

Новите функционалности на чата ще бъдат достъпни за притежателите на iOS и Android. Ще бъдат пуснати в приложението през следващите 2 седмици за потребителите, които ползват платените версии Plus и Enterprise. Напомняме, че първата услуга е достъпна при заплащане на абонамент от 20 долара на месец, а втората към момента е достъпна само за бизнес клиенти.

OpenAI съобщи, че скоро след това и останалите абонати с приложението ще могат да се радват на нововъведените функции.

ChatGPT разказва приказки с новите си гласови функции

Подобно на най-популярните асистенти Сири и Алекса, гласовите функции на Чат ДжиПиТи ще се активират чрез докосване, последвано от гласова команда, дадена от потребителя. Има 5 опции на гласа, с който чатът може да отговори, от които следва да се избере предпочитаната. Те са създадени от петима актьори, които са работили пряко с компанията за тази цел.

Това, с което ChatGPT неминуемо ще изпъкне е захранването с по-добър LLM. На практика гласовите отговори, които потребителите ще получават ще бъдат със същия тип разговорен и творчески наклон, който чатът (версиите 4 и 3.5) използва при генерирането на текст.

В поста си с обявяване на новите функции, OpenAI представи пример за предимствата на новата функционалност като сподели гласово генерирана от чатбота приспивна приказка, която уморените родители могат да използват за времето за лягане на своите деца.

Какво ново предлагат мултимодалните функции на приложението

Още при пускането на GPT-4 в началото на миналата година OpenAI демонстрира способността си да разбира и интерпретира изображения и ръкописен текст. Сега предстои мултимодалните му функции да се превърнат в част от нормалната употреба на приложението. Те ще позволят на потребителя да качи изображение и да зададат въпроси на чата на базата на това какво има на него.

Така например може да снимате какво имате в хладилника си и да поискате от чата да ви състави меню на базата на наличното. Мултимодалната технология ще бъде достъпна на всички платформи на OpenAI.

Новите способности на чатбота се появяват на фона на ожесточаването на битката за надмощие в света на конкурентните генеративни AI. За пример, Meta съвсем неотдавна пусна AudioCraft, който може да генерира музика, а Google Bard и Microsoft Bing внедриха свои мултимодални функционалности. Предната седмица пък от Амазон обновиха своя виртуален персонален асистент, а Епъл експериментира с генериран от ИИ глас в неговия Personal Voice.