AI资讯新闻榜单内容搜索-AI语音

阿里云发布AI语音输入法“CosyVoice”，我发现了它的短板

千问输入法APP没等到，阿里云的全新AI输入法先上线了。《读佳》获知，阿里云推出全新的AI语音输入法“CosyVoice”，这是一款以语音输入为主的智能语音输入法，支持多语种实时转写、方言识别、指令

来自主题: AI资讯

7275 点击 2026-06-28 10:55

实测豆包音频生成模型：语音模型的Seedance2.0时刻来了！

火山引擎今天上线了全新的语音模型—— 豆包音频生成模型 1.0（Seed-Audio 1.0）。

来自主题: AI产品测评

7972 点击 2026-06-24 10:29

干掉 Whisper：我把 VoiceVault 迁移到 FunASR，本地转录加总结爽的飞起，已然是一枚离线录音加待办神器

把 VoiceVault 的转录引擎从 Whisper 迁移到 FunASR（sherpa-onnx），中文识别速度提升 3x，不再需要 500MB 的模型文件。但"切个后端"这件听起来很简单的事，让我在 GitHub Release 的 404、Tauri 白屏、trait object 生命周期和 CSP 策略里翻滚了一整天。

来自主题: AI技术研报

5755 点击 2026-06-18 15:28

正在升温的 Voice AI 赛道，出现了一家初创团队 Hojo

当所有人都在盯着通用大模型时，Voice AI 这条相对安静的赛道里，也开始出现一些值得注意的新模型。最近，一家名为 Hojo 的创业团队公开披露了一组语音识别测试结果，似乎有成为「黑马」的趋势。

来自主题: AI资讯

10374 点击 2026-06-10 20:07

一个语音转文字的 AI 工具站，月访问量 3000 万

最近看到了一个音频转文字的 AI 工具站：turboscribe.ai。

来自主题: AI资讯

6897 点击 2026-06-08 15:27

速递｜Boson AI × SGLang 发布 Higgs Audio v3 TTS：让语音智能体实时可控

Boson AI 与 SGLang-Omni 团队宣布，SGLang-Omni 已完成对 Higgs Audio v3 TTS 的端到端 Serving 支持。作为一家成立于 2023 年的 AI 基础设施公司，李沐与 Alex Smola共同创立了 Boson AI，聚焦大模型时代的系统与基础设施创新。

来自主题: AI资讯

7974 点击 2026-06-06 10:18

AI 版的 Siri，可能长这样

Apple 必须面对它过去三年最难堪的一个问题——为什么全世界最贵的智能手机，装着一个最蠢的 AI 助手？当地时间 5 月 28 日，在发布会前十天，外媒率先曝光了答案。

来自主题: AI资讯

9417 点击 2026-05-29 15:12

速递｜OpenAI收购Weights.GG，拿下AI语音克隆技术，6名核心成员入职

据一位熟悉该收购的人士透露，OpenAI 在一月收购了 Weights.GG，这是一家开发了名为 Replay 的 AI 语音克隆工具的小型创业公司。大约六名员工加入了 OpenAI，OpenAI 收购了该创业公司的知识产权，但并不打算整合该创业公司的产品。

来自主题: AI资讯

9302 点击 2026-05-18 11:33

豆包输入法Mac版正式上线，所有人都该试试AI语音输入了。

豆包输入法的Mac版，终于正式上线了。我自己已经内测使用了快1个月了，但是我等这一天，也真的等了好久好久。因为这篇文章我想写很久了，但是一直没写就是因为，对于大众用户来说，之前还一直没有一个比较好的产品能让大家去随便的体验语音输入法，所以一直在等豆包输入法上线，然后再发，这样其实所有人就都可以开始把这种方式用起来了。

来自主题: AI资讯

8218 点击 2026-05-13 13:13

TTS也要真人感！首个字级内容、毫秒级停顿控制的语音合成系统

语音合成这两年发展迅速：把一段话顺顺当当地念完，已经不算难事；难的是该慢的时候慢，该顿的时候顿，该强调的时候真能把重点托出来。

来自主题: AI技术研报

5916 点击 2026-05-13 10:00