AI资讯新闻榜单内容搜索-语音模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语音模型
美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音

相似度超越Seed-TTS、MiniMax-Speech等知名模型。昨晚,美团LongCat团队发布了文本转语音模型LongCat-AudioDiT,并开源1B、3.5B参数量的版本。这一模型的最大特点,是彻底抛弃了梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音。通俗地说,这一模型直接根据声音本身的规律进行生成,“雕刻”出最原始的声音波形,从根源阻断数据转换的级联误差。

来自主题: AI资讯
8167 点击    2026-04-02 13:51
谷歌掀语音Agent新纪元!开口就是生产力,Siri的最强外挂来了?

谷歌掀语音Agent新纪元!开口就是生产力,Siri的最强外挂来了?

谷歌掀语音Agent新纪元!开口就是生产力,Siri的最强外挂来了?

昨日凌晨,谷歌正式推出其最高质量的音频和语音模型——实时语音模型Gemini 3.1 Flash Live,并在Gemini App、Search Live以及Google AI Studio中同步开放,其中后者以预览版本向开发者提供。

来自主题: AI资讯
10204 点击    2026-03-27 14:41
独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent

独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent

独家|VUI Labs宇生月伴完成数千万元天使+轮融资,同创伟业领投,打造行业领先的情感语音大模型和多模态Agent

VUI Labs(宇生月伴)宣布完成数千万元天使+轮融资。本轮投资由同创伟业领投、老股东靖亚资本、小苗朗程持续加注,心流资本FlowCapital担任长期财务顾问。公司半年累计获得近亿元投资,所募资金

来自主题: AI资讯
9306 点击    2026-02-28 10:59
百万围观、HuggingFace多模态登顶,华人团队FlashLabs开源语音模型Chroma 1.0

百万围观、HuggingFace多模态登顶,华人团队FlashLabs开源语音模型Chroma 1.0

百万围观、HuggingFace多模态登顶,华人团队FlashLabs开源语音模型Chroma 1.0

近期,FlashLabs 发布并开源了其实时语音模型 Chroma 1.0,其定位为全球首个开源的端到端语音到语音模型。Chroma 1.0 发布之后,便在社媒爆火,吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。

来自主题: AI资讯
9004 点击    2026-01-23 16:25
击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了

击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了

击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了

近日,由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别(ASR)模型 MOSS-Transcribe-Diarize,不但可以语音转文字,还可以将音频片段与对话中不同的说话者关联起来,性能超过了 GPT-4o、Gemini、豆包等一众模型。

来自主题: AI资讯
9115 点击    2026-01-21 12:05
语音模型公司做AI眼镜,拿下了红杉领投的2.5亿美元?

语音模型公司做AI眼镜,拿下了红杉领投的2.5亿美元?

语音模型公司做AI眼镜,拿下了红杉领投的2.5亿美元?

TechCrunch 报道,之前一直以 AI 语音初创公司示人的 Sesame,完成了 2.5 亿美元的 B 轮融资,投资方包括红杉资本、Spark Capital 及其他未公开的投资者。随后,Sesame 创始人 Brendan Iribe 也在个人社媒账号上发帖,证实该消息。

来自主题: AI资讯
10504 点击    2025-10-23 22:38
即梦悄悄上线数字人1.5,多人群演、听声变脸,还能跑会跳

即梦悄悄上线数字人1.5,多人群演、听声变脸,还能跑会跳

即梦悄悄上线数字人1.5,多人群演、听声变脸,还能跑会跳

数字人这赛道也越来越卷了, 大模型可以写剧本,语音模型可以配出百变语气,当我越来越不满足于只是把口型对上这件事之后, 那这个只会坐着、不能走路、表情都是提前预设好的、台词数字人,会如何进化?

来自主题: AI资讯
9237 点击    2025-09-30 15:55
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 ICL 的少样本泛化,并在预训练观察到明显的“涌现”行为。

来自主题: AI资讯
9494 点击    2025-09-21 19:22
B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

最近在 B 站上,你是否也刷到过一些 “魔性” 又神奇的 AI 视频?比如英文版《甄嬛传》、坦克飞天、曹操大战孙悟空…… 这些作品不仅完美复现了原角色的音色,连情感和韵律都做到了高度还原!更让人惊讶的是,它们居然全都是靠 AI 生成的!

来自主题: AI技术研报
8392 点击    2025-09-18 15:54