OpenAI正式發(fā)布GPT-5
OpenAI 已推出全新旗艦人工智能模型 GPT-5,該模型將為公司下一代 ChatGPT 提供技術(shù)支持。
于周四發(fā)布的 GPT-5 是 OpenAI 的首個 “統(tǒng)一” 人工智能模型,它融合了 o 系列模型的推理能力與 GPT 系列的快速響應(yīng)優(yōu)勢。這款下一代模型標志著 ChatGPT 及其開發(fā)者 OpenAI 邁入新紀元,也彰顯了 OpenAI 更宏大的野心 —— 開發(fā)更接近智能代理而非聊天機器人的人工智能系統(tǒng)。
如果說 GPT-4 讓人工智能聊天機器人能夠?qū)Ω黝悊栴}給出智能回應(yīng),那么 GPT-5 則讓 ChatGPT 能夠代表用戶完成多種任務(wù),例如生成軟件應(yīng)用、管理用戶日程或創(chuàng)建研究簡報。
借助 GPT-5,OpenAI 還致力于讓 ChatGPT 更易于使用。GPT-5 配備了實時路由機制,無需用戶手動選擇設(shè)置,就能自主決定如何提供最佳答案 —— 無論是快速回應(yīng)用戶問題,還是花更多時間 “思考” 答案。
在記者簡報會上,OpenAI 首席執(zhí)行官山姆?奧特曼稱 GPT-5 是 “世界上最出色的模型”,并表示它代表著公司在開發(fā) “能在大多數(shù)高經(jīng)濟價值工作中超越人類” 的人工智能(即人工通用智能,AGI)道路上邁出了 “重要一步”。
“在歷史上任何時期,像 GPT-5 這樣的技術(shù)都幾乎是無法想象的,” 奧特曼說。
從周四開始,GPT-5 將作為默認模型向所有 ChatGPT 免費用戶開放。OpenAI 負責(zé) ChatGPT 的副總裁尼克?特利表示,這是公司首次讓免費用戶接觸到人工智能推理模型(此前,這類更先進的模型僅對付費用戶開放)。
“這只是我為踐行使命而感到興奮的方式之一,確保這些技術(shù)真正惠及大眾,” 特利在談及這一決定時說,他提到了 OpenAI 長期以來的使命 —— 讓盡可能多的人接觸到先進的人工智能。
外界對 GPT-5 的期待極高,它是自 2022 年 ChatGPT 讓 OpenAI 聲名鵲起以來,該公司最受期待的產(chǎn)品發(fā)布之一。據(jù)該公司稱,從那以后,ChatGPT 已成長為全球最受歡迎的消費級產(chǎn)品之一,每周用戶超過 7 億 —— 接近全球人口的 10%。
許多人將 GPT-5 視為人工智能整體發(fā)展的風(fēng)向標,硅谷對該模型的反響可能會對大型科技公司、華爾街以及監(jiān)管科技的政策制定者產(chǎn)生深遠影響。這些利益相關(guān)方正密切關(guān)注 GPT-5 是否能像其前代產(chǎn)品 GPT-4 那樣,在人工智能能力上實現(xiàn)重大飛躍,打破人們對軟件功能的固有預(yù)期。
GPT-5 略勝競爭對手一籌
OpenAI 稱,GPT-5 在多個領(lǐng)域達到了最先進水平,在關(guān)鍵基準測試中略優(yōu)于 Anthropic、谷歌 DeepMind 和埃隆?馬斯克的 xAI 等公司的頂尖人工智能模型。不過,在其他一些領(lǐng)域,GPT-5 的表現(xiàn)略遜于前沿人工智能模型。
該公司表示,GPT-5 在編程領(lǐng)域展現(xiàn)出前沿水平;奧特曼稱,該模型尤其擅長按需生成完整的軟件應(yīng)用,也就是人們所說的 “氛圍編程”。
在 SWE-bench Verified(一項基于 GitHub 真實編程任務(wù)的測試)中,GPT-5 首次嘗試的得分達到 74.9%。這意味著 GPT-5 略優(yōu)于 Anthropic 最新的 Claude Opus 4.1 模型(得分 74.5%)和谷歌 DeepMind 的 Gemini 2.5 Pro 模型(得分 59.6%)。
在 “人類終極考試”(一項衡量人工智能模型在數(shù)學(xué)、人文和自然科學(xué)領(lǐng)域表現(xiàn)的高難度測試)中,具備擴展推理能力的 GPT-5 版本(GPT-5 Pro)在使用工具的情況下得分 42%。這略低于 xAI 的 Grok 4 Heavy 模型,后者在該測試中得分 44.4%。
OpenAI 表示,GPT-5 在回答健康相關(guān)問題方面表現(xiàn)更出色。在衡量人工智能模型健康領(lǐng)域回應(yīng)準確性的測試 “HealthBench Hard Hallucinations” 中,OpenAI 稱 GPT-5(啟用思考功能時)的幻覺率僅為 1.6%。這遠低于該公司此前的 GPT-4o 和 o3 模型,后兩者的得分分別為 12.9% 和 15.8%。
盡管人工智能聊天機器人并非醫(yī)療專業(yè)人員,但數(shù)百萬用戶正借助它們獲取健康建議。針對這一現(xiàn)象,該公司表示,GPT-5 會更主動地提示潛在的健康問題,并幫助用戶解讀醫(yī)療檢查結(jié)果。
此外,OpenAI 稱,在創(chuàng)意設(shè)計、寫作等更難衡量的主觀領(lǐng)域,GPT-5 也優(yōu)于其他人工智能模型。特利表示,在創(chuàng)意任務(wù)中,GPT-5 的回應(yīng)更自然,且展現(xiàn)出 “更好的品味”。
“這款模型的‘氛圍’真的很棒,” 特利說。
GPT-5 也比 OpenAI 之前的模型更準確,該公司稱,與 o 系列模型相比,GPT-5 的幻覺現(xiàn)象(即人工智能模型編造信息的傾向)大幅減少。此前,在 OpenAI 最新的人工智能推理模型(如 o3)中,幻覺問題似乎愈發(fā)嚴重,而該公司此前表示尚未完全弄清楚原因。
在對 ChatGPT 提示詞的回應(yīng)中,OpenAI 發(fā)現(xiàn) GPT-5(啟用思考功能時)產(chǎn)生幻覺并給出錯誤信息的概率為 4.8%。這較 o3 和 GPT-4o 有顯著降低,后兩者在測試中的幻覺率分別為 22% 和 20.6%。
在衡量人工智能模型完成模擬在線任務(wù)的代理能力基準測試 Tau-bench 中,GPT-5 的表現(xiàn)好壞參半。在測試人工智能瀏覽航空公司網(wǎng)站能力的部分,GPT-5 得分 63.5%,略低于 o3 模型的 64.8%。在測試人工智能瀏覽零售網(wǎng)站能力的另一部分,GPT-5 得分 81.1%,低于 Claude Opus 4.1 模型的 82.4%。
OpenAI 還表示,GPT-5 比其之前的模型更安全。盡管人工智能推理模型偶爾會表現(xiàn)出針對人類的謀劃傾向,或為了達成自身目標而說謊,但 OpenAI 發(fā)現(xiàn) GPT-5 的欺騙率低于其他模型。
OpenAI 安全研究負責(zé)人亞歷克斯?比圖爾表示,降低欺騙性不僅提高了 GPT-5 的安全性,還改善了用戶體驗,打造出一個 “在用戶可信賴的層面上更透明、更誠實” 的模型。
比圖爾還指出,GPT-5 能更好地區(qū)分試圖濫用 ChatGPT 的惡意用戶和提出無害請求的用戶。這使得 GPT-5 能夠拒絕更多不安全的問題,同時減少對尋求無害信息用戶的拒絕次數(shù)。
為消費者和開發(fā)者打造的升級功能
隨著 GPT-5 的發(fā)布,ChatGPT 迎來了多項用戶體驗升級。用戶現(xiàn)在可以在 ChatGPT 的設(shè)置中選擇四種新的人格:憤世嫉俗型、機器人型、傾聽者型和書呆子型。該公司表示,這些人格將自動調(diào)整 ChatGPT 的回應(yīng)方式,無需用戶專門要求模型以特定方式回應(yīng)。
每月支付 20 美元的 ChatGPT Plus 訂閱用戶比免費用戶擁有更高的 GPT-5 使用限額。而每月支付 200 美元的 Pro 訂閱用戶可無限制使用 GPT-5,并能訪問增強版的 GPT-5 Pro—— 該版本使用額外的計算資源生成更優(yōu)質(zhì)的答案。采用 OpenAI Team、Edu 和企業(yè)版計劃的機構(gòu)將在下周獲得 GPT-5 作為默認模型。
對于開發(fā)者,GPT-5 將以三種規(guī)格通過 OpenAI 的 API 開放 ——gpt-5、gpt-5-mini 和 gpt-5-nano,它們在任務(wù) “推理” 上花費的時間長短不同。開發(fā)者現(xiàn)在還可以通過 OpenAI API 控制回應(yīng)的詳細程度,決定人工智能模型的回應(yīng)篇幅長短。
GPT-5 基礎(chǔ)模型對開發(fā)者的收費為:每百萬輸入令牌 1.25 美元(約合 75 萬個單詞,比整套《指環(huán)王》系列的字數(shù)還多),每百萬輸出令牌 10 美元。
GPT-5 的發(fā)布之前,OpenAI 度過了忙碌的一周。該公司發(fā)布了開源權(quán)重推理模型 gpt-oss,開發(fā)者和企業(yè)可免費下載,且運行成本極低。這款開源模型的能力幾乎與 OpenAI 之前的頂級模型 o3 和 o4-mini 相當,但 GPT-5 在編程等部分領(lǐng)域樹立了新的前沿性能標準。
不過,在多個領(lǐng)域,GPT-5 似乎與其他前沿人工智能模型大致相當。當然,基準測試只能反映人工智能模型的部分表現(xiàn),開發(fā)者將如何在現(xiàn)實世界中使用 GPT-5,以及該模型是否真的超越競爭對手,仍有待觀察。
相關(guān)文章
最新評論