
从零到一:3小时用Cursor魔改WebRTC直播画面实录
从零到一:3小时用Cursor魔改WebRTC直播画面实录WebRTC(Web Real-Time Communication)是一个Google开源项目,允许浏览器/移动端直接进行实时音视频流传输,典型应用场景:视频会议、屏幕共享、文件传输、远程控制。
WebRTC(Web Real-Time Communication)是一个Google开源项目,允许浏览器/移动端直接进行实时音视频流传输,典型应用场景:视频会议、屏幕共享、文件传输、远程控制。
刚推出o3-mini的OpenAI没闲着,昨天又马不停蹄地发布了一个新东西:能为用户独立工作的AI研究助手「Deep Research」。
本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为 Google Gemini 等标志性项目的负责人。
在刚刚过去的 12 月,Google 的首席执行官 Sundar Pichai 在一场内部战略会上表示,「这将会是 2025 年的主题。」
Anthropic 的崛起是2024年全球 AI 产业最受瞩目的现象之一,它是 OpenAI 强有力的挑战者,令很多厌倦了 OpenAI 式虚张声势和夸大其词的 AI 研究者和开发者耳目一新。
今天和大家分享一个我最近搞定的小工具,简单来说,它可以一句话生成一个完整的网页应用,成本低到不可思议——一毛钱就能实现一句话生成应用,甚至配合之前文章提到过的 open router[1] 上的开源 Google 的 Gemini2.0 免费大模型,完全 0 成本!
2023年6月,理想汽车推出了自研认知大模型“Mind GPT”,它以“理想同学”App的形式出现在理想汽车的车机中,支持通过自然语言交流、发送指令。2024年,Mind GPT升级到3.0,带来了行业领先的自然语言任务执行功能。
这就是 Google DeepMind 的「DeepMind 部分」——重视它,是保护它的第一步。
上周发出《AI时代写Prompt应该用APPL:为Prompt工程打造的编程语言,来自清华姚班的博士》之后,文章中实现了一个Google DeepMind的OPRO简单版本的优化方法,这让很多读者非常着迷。
AI 生图工具,已经多得泛滥了,但 Google 最新推出的 Whisk,还是找到了一种很新的玩法,让见过世面的网友也直呼好玩。