OpenAI週一(5/13)宣布新的生成式AI旗艦模型,稱之為GPT-4o,“o”代表“omni”,意指該模型具備處理文字、語音和視頻的能力。
GPT-4o將於未來幾週內,陸續在整個OpenAI的開發者與消費者面相產品推出。OpenAI首席技術長Mira Murati表示,GPT-4o提供了「GPT-4等級」的智慧,但在多個方式和媒體上提高了GPT-4的能力。
Murati於週一在San Francisco的OpenAI辦公室進行串流直播提案時說:「GPT-4o讓跨語音、文字和視覺合理化,這非常重要,因為我們正在研究自己和機器之間互動的未來。」
此前OpenAI「最先進的」模型GPT-4 Turbo,可接受圖像和文字組合的訓練,並可以分析圖像和文字以完成工作,諸如從圖像中提取文字,甚至描述這些圖像內容之類的任務。如今GPT-4o在這基礎上,再將語音加進去。