AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

深度|OpenAI实时API技术细节揭秘,实时API支持函数调用和上下文管理,简化了多轮对话中的对话历史管理

OpenAI的实时API支持低延迟、双向音频流,使得多模态AI应用(如语音对话Agent)得以实现。它通过WebSocket连接管理对话状态,并提供短语结束检测和语音活动检测(VAD)功能,大大简化了实时语音应用的开发。

来自主题: AI资讯
7750 点击    2024-12-13 17:05
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务

Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务

Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务

Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。

来自主题: AI技术研报
4032 点击    2024-12-12 21:57
OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最强智能体组团击毙o1

OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最强智能体组团击毙o1

OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最强智能体组团击毙o1

昨天深夜,OpenAI彻底被谷歌狙击,震撼亮相的Gemini 2.0掀起智能体革命,原生多模态的多项惊人demo预示着:智能体时代,谷歌已经走在了最前面。

来自主题: AI资讯
7550 点击    2024-12-12 14:59
Sora终于来了,但多模态AI呼唤实用主义

Sora终于来了,但多模态AI呼唤实用主义

Sora终于来了,但多模态AI呼唤实用主义

随着ChatGPT等大语言模型的问世,人工智能进入了一个全新的时代。在这股浪潮中,多模态AI技术成为业界竞相追逐的目标,OpenAI的Sora更是将这股热情推向高潮。

来自主题: AI资讯
7231 点击    2024-12-12 14:27
谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态

谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态

谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态

继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了! 就在刚刚,谷歌新一代大模型Gemini 2.0突然登场,再次由谷歌CEO皮猜亲自官宣。

来自主题: AI资讯
5854 点击    2024-12-12 09:14
GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。

来自主题: AI技术研报
6184 点击    2024-12-11 16:46
Cell | 想做多模态和可解释性一定要看,这篇论文不仅方法可圈可点,图也绘制的非常漂亮!

Cell | 想做多模态和可解释性一定要看,这篇论文不仅方法可圈可点,图也绘制的非常漂亮!

Cell | 想做多模态和可解释性一定要看,这篇论文不仅方法可圈可点,图也绘制的非常漂亮!

Cell Reports Medicine近期的研究结合CT和病理图像,提出一种可解释的人工智能框架用于预测胃癌患者新辅助化疗的疗效。

来自主题: AI技术研报
6413 点击    2024-12-09 10:58
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

以 GPT4V 为代表的多模态大模型(LMMs)在大语言模型(LLMs)上增加如同视觉的多感官技能,以实现更强的通用智能。虽然 LMMs 让人类更加接近创造智慧,但迄今为止,我们并不能理解自然与人工的多模态智能是如何产生的。

来自主题: AI技术研报
6089 点击    2024-12-07 15:02