11月14日,訊飛星火多模態(tài)交互大模型正式上線,不僅實(shí)現(xiàn)從語(yǔ)音交互拓展到音視頻流實(shí)時(shí)多模交互,新增“多模態(tài)、超擬人和個(gè)性化”能力,還實(shí)現(xiàn)語(yǔ)音、視覺(jué)、數(shù)字人交互三合一,支持一鍵調(diào)用。
01 一張照片打造“數(shù)字分身”
超擬人數(shù)字人栩栩如生,顏值與才華兼具。
首發(fā)超擬人數(shù)字人技術(shù),數(shù)字人軀干和四肢動(dòng)作精準(zhǔn)匹配語(yǔ)音內(nèi)容,表情和動(dòng)作快速生成,讓 AI自此栩栩如生。
統(tǒng)一文本、語(yǔ)音與表情,實(shí)現(xiàn)跨模態(tài)的語(yǔ)義一致性,讓大模型情感表達(dá)真實(shí)連貫,數(shù)字形象真實(shí)度和自然度達(dá)到4.0分。
02 讓機(jī)器表達(dá)有了“人情味”
超擬人極速交互告別機(jī)器味,聲音生動(dòng)且有溫度。
采用統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)語(yǔ)音到語(yǔ)音的端到端建模響應(yīng)更快速、流暢,不懼頻繁打斷。
既可敏銳感知情緒變化,也可根據(jù)指令自由變換聲音節(jié)奏、大小及人設(shè)。
03 解鎖“耳聰目明”的AI助手
多模態(tài)視覺(jué)交互既能聽(tīng)懂世界,也可認(rèn)清萬(wàn)物。
實(shí)時(shí)音視頻流的動(dòng)態(tài)多模交互,給大模型裝上一雙“慧眼更全面感知具體背景場(chǎng)景、物體狀態(tài)等信息,任務(wù)的理解更加精準(zhǔn),通過(guò)語(yǔ)音、手勢(shì)、行為、情緒等綜合判斷,做出合適回復(fù)。
多模態(tài)交互大模型適用于個(gè)人助理、智能陪練、情感陪伴、教育培訓(xùn)等應(yīng)用場(chǎng)景,帶來(lái)了全新人機(jī)交互體驗(yàn)助力開(kāi)發(fā)者打造新的創(chuàng)新應(yīng)用。
來(lái)源:訊飛開(kāi)放平臺(tái)