11月14日,訊飛星火多模態(tài)交互大模型正式上線,不僅實現(xiàn)從語音交互拓展到音視頻流實時多模交互,新增“多模態(tài)、超擬人和個性化”能力,還實現(xiàn)語音、視覺、數(shù)字人交互三合一,支持一鍵調用。
01 一張照片打造“數(shù)字分身”
超擬人數(shù)字人栩栩如生,顏值與才華兼具。
首發(fā)超擬人數(shù)字人技術,數(shù)字人軀干和四肢動作精準匹配語音內容,表情和動作快速生成,讓 AI自此栩栩如生。
統(tǒng)一文本、語音與表情,實現(xiàn)跨模態(tài)的語義一致性,讓大模型情感表達真實連貫,數(shù)字形象真實度和自然度達到4.0分。
02 讓機器表達有了“人情味”
超擬人極速交互告別機器味,聲音生動且有溫度。
采用統(tǒng)一神經(jīng)網(wǎng)絡直接實現(xiàn)語音到語音的端到端建模響應更快速、流暢,不懼頻繁打斷。
既可敏銳感知情緒變化,也可根據(jù)指令自由變換聲音節(jié)奏、大小及人設。
03 解鎖“耳聰目明”的AI助手
多模態(tài)視覺交互既能聽懂世界,也可認清萬物。
實時音視頻流的動態(tài)多模交互,給大模型裝上一雙“慧眼更全面感知具體背景場景、物體狀態(tài)等信息,任務的理解更加精準,通過語音、手勢、行為、情緒等綜合判斷,做出合適回復。
多模態(tài)交互大模型適用于個人助理、智能陪練、情感陪伴、教育培訓等應用場景,帶來了全新人機交互體驗助力開發(fā)者打造新的創(chuàng)新應用。
來源:訊飛開放平臺