前百川智能联创的AI音频赌局:我要造“人”,造AI主播
前百川智能联创的AI音频赌局:我要造“人”,造AI主播上映于2013年的《Her》,是焦可最喜欢的一部电影。影片中的AI Samantha没有脸、没有形象,人们能感知的,只有她温柔沉静的声音。当Samantha说出,“最近你经历的事情太多了,你失去了一部分的自己”,男主角潸然泪下。
上映于2013年的《Her》,是焦可最喜欢的一部电影。影片中的AI Samantha没有脸、没有形象,人们能感知的,只有她温柔沉静的声音。当Samantha说出,“最近你经历的事情太多了,你失去了一部分的自己”,男主角潸然泪下。
英国AI音频独角兽ElevenLabs宣布完成5亿美元(约合人民币34.7亿元)的D轮融资,估值达110亿美元(约合人民币763.5亿元)。其估值较去年年初的33亿美元,实现了超230%的飞速增长。ElevenLabs联合创始人兼CEO Mati Staniszewski还透露,该公司已在考虑IPO事宜。
据我们独家获悉,ListenHub产品的母公司MarsWave完成了200万美元天使+轮融资。本轮由天际资本领投,小米联合创始人王川跟投。同时,MarsWave也对外公布了盈利状况:目前公司年经常性收入(ARR)已突破300万美元,并达到月度盈亏平衡,成为少数已跑通盈利模型的AI原生公司。
在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果:
图片来源:David AI Labs David AI Labs 这家初创公司通过出售音频数据集来帮助训练人工智能模型,近期在新一轮融资中从投资者处筹集了 5000 万美元——这表明为 AI 开发提供
全新一代 video-SALMONN 2/2+、首个开源推理增强型音视频理解大模型 video-SALMONN-o1(ICML 2025)、首个高帧率视频理解大模型 F-16(ICML 2025),以及无文本泄漏基准测试 AVUT(EMNLP 2025) 正式发布。新阵容在视频理解能力与评测体系全线突破,全面巩固 SALMONN 家族在开源音视频理解大模型赛道的领先地位。
自带声音的视频生成模型,开源版开卷! 最新赶到的是腾讯混元:刚刚正式开源端到端的视频音效生成模型HunyuanVideo-Foley。
打工人超超超实用利器来了!还在自己苦巴巴地做汇报,干巴巴地念PPT么? 谷歌NotebookLM最新功能,只需要输入数据、图表、旁白,就可以自动生成带AI音频的PPT,甚至不需要自己去讲。
据知情人士透露,Meta Platforms 已收购专注于人工智能情感识别与音频模拟的小型初创公司 WaveForms AI。
华强北推出低价AI眼镜,价格78-450元,截胡小米、Rokid等巨头产品。产品分为AI拍摄眼镜和AI音频眼镜,功能基础但销量火爆,月均数千台。厂商快速组装出货,靠价格优势和即买即得吸引消费者尝鲜,性能虽逊但性价比高。行业前景存疑,技术成熟需5年,海外市场更受欢迎。