击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了
击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了近日,由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别(ASR)模型 MOSS-Transcribe-Diarize,不但可以语音转文字,还可以将音频片段与对话中不同的说话者关联起来,性能超过了 GPT-4o、Gemini、豆包等一众模型。
来自主题: AI资讯
8138 点击 2026-01-21 12:05
近日,由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别(ASR)模型 MOSS-Transcribe-Diarize,不但可以语音转文字,还可以将音频片段与对话中不同的说话者关联起来,性能超过了 GPT-4o、Gemini、豆包等一众模型。
你是否想过,机器人也能像人一样,从失败中学习,不断自我提升?
播客、访谈、体育解说、新闻报道和电商直播中,语音对话已经无处不在。 当前的文本到语音(TTS)模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展,合成语音的自然度、清晰度和表现力都已显著提升,甚至接近真人水平。不过,由于缺乏整体的对话情境,这些 TTS 模型仍然无法合成高质量的对话语音。
大模型时代,一家AIoT企业如何寻找它的生态位?
从年初在《流浪地球2》中与Moss的第一次见面开始,人工智能这个词就迅速占领了我们的日常对话。站在2023年的末尾回顾这一整年,AI理所当然地成为年度高频词汇。