AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高,机器人使用多模态模型的障碍被解决了! 来自清华大学的研究者们设计了DeeR-VLA框架,一种适用于VLA的“动态推理”框架,能将LLM部分的相关计算、内存开销平均降低4-6倍。

来自主题: AI技术研报
6318 点击    2024-11-30 16:29
千亿市值上市公司高管离职创业AI CRM,首轮红杉资本投资

千亿市值上市公司高管离职创业AI CRM,首轮红杉资本投资

千亿市值上市公司高管离职创业AI CRM,首轮红杉资本投资

CRM作为企业软件中最大的板块之一,其价值毋庸置疑。传统CRM的本质是关系型数据库,在AI尤其是多模态技术的加成下,CRM从结构化数据向半结构化/非结构化数据的转变势在必行。

来自主题: AI资讯
5850 点击    2024-11-30 16:24
让具身智能机器人“下地干活”,「枢途科技」完成数百万天使轮融资

让具身智能机器人“下地干活”,「枢途科技」完成数百万天使轮融资

让具身智能机器人“下地干活”,「枢途科技」完成数百万天使轮融资

枢途科技(深圳)有限公司(以下简称「枢途科技」)近日完成数百万元天使轮融资,本轮由奇绩创坛投资,主要用于多模态大模型训练迭代、通用复合机器人结构升级等技术与产品的研发和交付。

来自主题: AI资讯
7109 点击    2024-11-30 16:05
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

BlueLM-V-3B 是一款由 vivo AI 研究院与香港中文大学联合研发的端侧多模态模型。该模型现已完成对天玑 9300 和 9400 芯片的初步适配,未来将逐步推出手机端应用,为用户带来更智能、更便捷的体验。

来自主题: AI技术研报
5373 点击    2024-11-29 15:30
周鸿祎黑客短剧震撼首秀,直接带火纳米搜索!搜学写创,开启AI搜索3.0时代

周鸿祎黑客短剧震撼首秀,直接带火纳米搜索!搜学写创,开启AI搜索3.0时代

周鸿祎黑客短剧震撼首秀,直接带火纳米搜索!搜学写创,开启AI搜索3.0时代

最近,奥特曼豪掷数千万美金购买域名、组建AI浏览器团队,展现了互联网的时代轮回,标志着AI互联网时代的来临。AI改造互联网,首当其冲的就是搜索引擎。几乎与奥特曼的动作同步,纳米搜索的出现,代表着我们正式进入「多模态内容创作引擎」的搜索引擎3.0时代。

来自主题: AI资讯
9301 点击    2024-11-28 21:01
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

尽管近期 Qwen2-VL 和 InternVL-2.0 的出现将开源多模态大模型的 SOTA 提升到了新高度,但巨大的计算开销限制了其在很多场景下的应用。

来自主题: AI技术研报
8471 点击    2024-11-28 14:16
Fixie AI 推出 Ultravox v0.4.1:专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

Fixie AI 推出 Ultravox v0.4.1:专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

Fixie AI 推出 Ultravox v0.4.1:专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

在人工智能领域,与AI进行无缝的实时交互一直是开发者和研究者面临的一大挑战。特别是将文本、图片、音频等多模态信息整合成一个连贯的对话系统,更是难上加难。尽管像GPT-4这样的语言模型在对话流畅性和上下文理解上取得了长足进步,但在实际应用中,这些模型仍然存在不足之处:

来自主题: AI技术研报
8566 点击    2024-11-28 09:53
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。

来自主题: AI技术研报
8479 点击    2024-11-27 16:50
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。

来自主题: AI技术研报
5272 点击    2024-11-27 14:41
阶跃星辰,悄咪咪上线了视频生成,附实测效果

阶跃星辰,悄咪咪上线了视频生成,附实测效果

阶跃星辰,悄咪咪上线了视频生成,附实测效果

不知道从何时起,脑海里就有着阶跃星辰的多模态能力遥遥领先的印象。 无论去哪旅游,以前是用谷歌地图,现在基本都用「跃问」,看到长得奇特的建筑就拍来问问,还能跟 AI Chat 一下历史。 这不,最近来新加坡出差了,顺便旅旅游,就又用上了「跃问」。

来自主题: AI资讯
6017 点击    2024-11-26 09:17