聲網(wǎng) AI 模型評(píng)測(cè)平臺(tái)新增多項(xiàng)評(píng)測(cè)維度 模型選擇數(shù)量提升3倍
聲網(wǎng) AI 模型評(píng)測(cè)平臺(tái)(對(duì)話式)2.0 版本近日正式上線,聲網(wǎng)數(shù)量評(píng)測(cè)維度迎來重磅升級(jí):測(cè)試區(qū)域新增至10個(gè),模型模型覆蓋全球各大洲核心城市;模型可選擇數(shù)量提升3倍;ASR 模型新增多種語言下的評(píng)測(cè)平臺(tái)評(píng)測(cè)錯(cuò)詞率評(píng)估;TTS 模型新增中英文場(chǎng)景下的詞錯(cuò)誤率和字母數(shù)字性能對(duì)比,同時(shí) TTS 功能支持用戶自主輸入中英文文本內(nèi)容,新增選擇一鍵生成語音效果。多項(xiàng)
AI 模型評(píng)測(cè)平臺(tái)(對(duì)話式)憑借提供 ASR+LLM+TTS 主流供應(yīng)商的維度延遲數(shù)據(jù)橫向測(cè)評(píng),上線以來受到眾多開發(fā)者的提升青睞,此次2.0版本新增多項(xiàng)對(duì)話式 AI 體驗(yàn)質(zhì)量評(píng)估維度,聲網(wǎng)數(shù)量不僅為開發(fā)者在級(jí)聯(lián)大模型選型時(shí)提供了更豐富的模型模型可視化參考,也讓選型決策更精準(zhǔn)、評(píng)測(cè)平臺(tái)評(píng)測(cè)更高效。新增選擇
測(cè)試區(qū)域覆蓋全球10大核心城市 模型數(shù)量提升3倍
AI 模型評(píng)測(cè)平臺(tái)(對(duì)話式)測(cè)試區(qū)域由原先的多項(xiàng)中國(guó)大陸-上海,新增了新加坡、維度日本、提升洛杉磯、聲網(wǎng)數(shù)量法蘭克福等9個(gè)全球主流城市,且ASR+LLM+TTS 的模型數(shù)量提升了3倍,例如 LLM 大模型新增了Step 2 mini、Llama 3.3 70B、GPT 4.1 mini、Gemini 2.0 Flash、Claude Haiku 3.5等國(guó)內(nèi)外主流的大模型,ASR 與 TTS 也新增了 OpenAI、Microsoft Azure、Cartesia 等知名 AI企業(yè)旗下的主流模型。
通過測(cè)試區(qū)域以及模型選擇數(shù)量的提升,可以精準(zhǔn)匹配不同地區(qū)開發(fā)者的需求與關(guān)注焦點(diǎn),為全球用戶提供更豐富的選擇空間。
圖:AI模型評(píng)測(cè)平臺(tái)右上角可選擇測(cè)試區(qū)域
ASR 新增9種語言錯(cuò)詞率評(píng)估 TTS 準(zhǔn)確性實(shí)現(xiàn)可量化
ASR 模型的橫向評(píng)測(cè)維度在末字延遲(TTLW)的基礎(chǔ)上新增了詞錯(cuò)誤率(WER)的評(píng)估,并支持在中文、英語、日語、法語等9種語言下的測(cè)試對(duì)比,全面反映模型在不同語言識(shí)別場(chǎng)景的精度。
AI 模型評(píng)測(cè)平臺(tái)的 ASR 錯(cuò)詞率檢測(cè)基于交互式測(cè)試方法(Turn Detect),以300ms的超時(shí)判定模擬用戶的感知閾值,旨在評(píng)估最佳對(duì)話體驗(yàn)下 ASR 模型的實(shí)際可用性。在測(cè)試中我們也發(fā)現(xiàn),在對(duì)話式場(chǎng)景下,ASR 模型需要在實(shí)時(shí)性和準(zhǔn)確性之間做出更精細(xì)的權(quán)衡,一些在非對(duì)話式場(chǎng)景下準(zhǔn)確率最高的模型(如OpenAI系列)并不一定是對(duì)話式場(chǎng)景的最佳選擇。
圖:ASR模型評(píng)測(cè)新增詞錯(cuò)誤率對(duì)比
同時(shí),TTS 模型了新增中英文場(chǎng)景下的詞錯(cuò)誤率(WER)和字母數(shù)字性能(AP) 指標(biāo),詞錯(cuò)誤率體現(xiàn)了TTS 模型在通用場(chǎng)景下的表現(xiàn),數(shù)值越低,TTS 準(zhǔn)確性越高。字母數(shù)字性能通過統(tǒng)計(jì) TTS 模塊對(duì)包含多音字、數(shù)字、縮寫、公式、標(biāo)點(diǎn)符號(hào)的復(fù)雜文本中每個(gè)字符的正確生成比例,全面衡量其對(duì)多類型特殊字符的精準(zhǔn)處理能力,數(shù)值越高,TTS 準(zhǔn)確性越高。
首字節(jié)延遲、詞錯(cuò)誤率,字母數(shù)字性能三類指標(biāo)的評(píng)測(cè)讓 TTS 語音合成的準(zhǔn)確性進(jìn)一步被量化,技術(shù)對(duì)比更具參考價(jià)值。
圖:TTS 模型評(píng)測(cè)新增字母數(shù)字性能對(duì)比
“競(jìng)技場(chǎng)”支持自主輸入文本并一鍵生成語音
AI 模型評(píng)測(cè)平臺(tái)的“競(jìng)技場(chǎng)”提供開發(fā)者自主選擇不同的 ASR、LLM、TTS 模型進(jìn)行延遲性能的對(duì)比,在新增詞錯(cuò)誤率與字母數(shù)字性能兩項(xiàng)指標(biāo)后,“競(jìng)技場(chǎng)”內(nèi)的模型評(píng)測(cè)結(jié)果也新增了這兩項(xiàng)指標(biāo)的對(duì)比。
同時(shí)在 TTS 的對(duì)比中,在原先支持語音合成測(cè)試語句試聽的基礎(chǔ)上,新增了支持用戶自主輸入文本內(nèi)容,一鍵生成語音合成效果的對(duì)比,并支持中英文。通過個(gè)性化試用場(chǎng)景,幫助用戶快速驗(yàn)證技術(shù)與實(shí)際需求的匹配度,讓選型決策更高效。
目前,新版 AI 模型評(píng)測(cè)平臺(tái)已正式上線聲網(wǎng)官網(wǎng),如您想進(jìn)一步體驗(yàn),可找到聲網(wǎng)官網(wǎng)的對(duì)話式AI頁面進(jìn)行體驗(yàn)。