美東時間3月20日,OpenAI舉行了一場重磅的技術直播,發(fā)布了三款全新語音模型:語音轉文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe,以及文本轉語音模型GPT-4o MiniTTS。OpenAI聲稱,這些模型符合其更廣泛的“AI智能體(AI Agent)”的愿景:構建能夠代表用戶獨立完成任務的自動化系統(tǒng)。
在這次OpenAI掀起的語音智能體浪潮中,其最新發(fā)布的gpt-4o-transcribe模型作為當前性能最好的語音識別理解模型,將極大推進包括客服,個人助理,具身等多個智能體的市場規(guī)模。GPT-4o Transcribe再次刷新了行業(yè)標桿,同時行業(yè)的目光再次聚焦于一個核心指標:“識別錯誤率(WER)”。通過強化學習與海量高質量語音數(shù)據(jù)的深度融合,這款全新模型在LibriSpeech、FLEURS等多項權威基準測試中WER有效降低,并刷新了多語言WER記錄,尤其在嘈雜環(huán)境、多語速場景和非標準口音下的表現(xiàn)顯著優(yōu)于現(xiàn)有方案。
圖. OpenAI幾種大模型單詞錯誤率(引用來源OpenAI)
據(jù)OpenAI披露,GPT-4o Transcribe的突破性表現(xiàn)源于兩大關鍵技術:一方面,通過自博弈強化學習框架,模型在模擬真實交互中不斷優(yōu)化對語音細微特征的捕捉能力;另一方面,,基于超大規(guī)模、多語言、高保真的音頻數(shù)據(jù)集進行“中期訓練”。覆蓋超過50種語言、數(shù)千小時的真實對話與復雜聲學場景(如背景噪音、語速突變、口音混合等),使模型可以更好地捕捉語音的細微差別,減少誤認,并提高轉錄可靠性。這種“算法+數(shù)據(jù)”的雙輪驅動,將語音轉寫的可靠性提升至新高度。這一技術提升,預示著大模型的訓練階段,從基礎的預訓練階段,走向了更為復雜多樣化的中訓練階段。
這一突破不僅印證了語音技術向多模態(tài)、強魯棒性演進的趨勢,更揭示了底層數(shù)據(jù)的核心價值:高質量、多樣化、多語言的語音數(shù)據(jù),是構建下一代語音智能體的基石。
無限趨近于零錯誤率,是未來人類在大模型性能優(yōu)化方面的不懈追求,永不止步。OpenAI不斷更新的模型性能,印證了:語音智能的進化,本質是數(shù)據(jù)質量的進化。無論是強化學習所需的動態(tài)交互樣本,還是覆蓋全球語言與口音的多樣性語料,亦或是嚴格對齊的語音-文本標注,都要求數(shù)據(jù)集具備多維度、高精度、強泛化的特性。
值此技術躍遷之際,晴數(shù)智慧正式推出了非常適合用于語音大模型/端到端模型“中訓練階段”的「多語種高質量口語式語音數(shù)據(jù)集」(Multilingual high-quality Spoken Language Speech dataset)。該旨在為全球開發(fā)者與企業(yè)提供語音模型創(chuàng)新的“新燃料”。
多語種高質量口語式語音數(shù)據(jù)集核心價值:
1、覆蓋中文、英語、西班牙語、葡萄牙語、法語、日語、韓語等30+語種,每個語種上萬小時;
2、場景類型豐富,人數(shù)眾多,內容表達多樣,使模學習到優(yōu)秀的泛化能力;
3、主要為口語式自然風格訓練數(shù)據(jù),讓模型學會最自然的交流方式;
4、音字匹配的高質量數(shù)據(jù),字準率達98%+以上;
5、句子完整度高,利于準確分析句意;
6、標點合理,有助于模型學習人類的自然停頓和韻律特點。
該數(shù)據(jù)集可以極大程度幫助擴展語音大模型/端到端模型的多樣性、口語式、泛化性,幫助模型提升如下性能:
1、語言理解能力
(1)口音與風格適應:涵蓋多語言、多口音以及不同說話風格的數(shù)據(jù),可讓模型適應各種語音特征,準確理解不同地域、不同文化背景下用戶的語言表達,提升模型的泛化能力。
(2)上下文理解:通過對每位說話者語音的獨立分析以及分類標注,更好地把握語義。
(3)實時交互理解:數(shù)據(jù)完整保留了口語過程中自然的停頓、重音等動態(tài)過程,使模型能夠理解和適應真實場景下的實時交互模式,不再局限于僵化的一問一答模式。
2、語音生成能力
(1)自然度提升:基于真實場景下自然流暢的口語數(shù)據(jù)訓練,模型生成的語音在語調、語速、停頓等方面會更接近真人,讓用戶在與模型交互時感覺更加自然舒適。
(2)個性化生成:通過學習不同說話人的語音特點,模型可以根據(jù)用戶的身份、偏好等因素生成更加個性化的語音回應,滿足不同用戶的需求。
3、跨語言交互能力:多語言的數(shù)據(jù)集為模型提供了豐富的跨語言信息,有助于模型學習不同語言之間的轉換和映射關系,從而實現(xiàn)語音翻譯等跨語言交互功能,促進不同語言用戶之間的交流。
該數(shù)據(jù)集所具備的“多樣化、高質量、口語式”數(shù)據(jù)特質,將助力開發(fā)者訓練更具自然性與準確性的模型,推動語音智能在全球化場景中落地——無論是打破語言壁壘,還是賦予AI更自然的表達,高質量數(shù)據(jù)的支撐,終將成為智能語音時代的關鍵引擎。
數(shù)據(jù)定義邊界,語音連接世界——讓我們以開放、精準、多維的語音數(shù)據(jù),共同開啟智能交互的新篇章。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )