AI资讯新闻榜单内容搜索-Ava

幻觉不一定有害，新框架用AI的「幻觉」优化图像分割技术

在人工智能领域，大型预训练模型（如 GPT 和 LLaVA）的 “幻觉” 现象常被视为一个难以克服的挑战，尤其是在执行精确任务如图像分割时。

来自主题: AI技术研报

7490 点击 2024-11-03 17:53

专注金融领域的AI Agent平台Interface.ai宣布完成3000万美元首次融资，由Avataar Venture Partners领投。

来自主题: AI资讯

4228 点击 2024-11-01 15:07

Agent-to-Sim (ATS) 是一个创新的三维模拟系统，能够从日常视频集合中学习三维代理的交互行为模型，由 Meta Codec Avatar 实验室主导研发。

来自主题: AI技术研报

5274 点击 2024-11-01 12:19

GAGAvatar的出现正是为了解决这一瓶颈，通过一次前向传播就能生成3D高斯参数，实现高效的渲染与动画驱动。

来自主题: AI技术研报

4472 点击 2024-10-23 13:51

视频多模态大模型（LMMs）的发展受限于从网络获取大量高质量视频数据。为解决这一问题，我们提出了一种替代方法，创建一个专为视频指令跟随任务设计的高质量合成数据集，名为 LLaVA-Video-178K。

来自主题: AI技术研报

3372 点击 2024-10-21 14:33

随着对现有互联网数据的预训练逐渐成熟，研究的探索空间正由预训练转向后期训练（Post-training），OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报

4049 点击 2024-10-14 15:46

自从AI火起来之后，大模型一个接一个的出现，所有的语言、工具、产品似乎都能蹭一蹭大模型的热度。

来自主题: AI资讯

3953 点击 2024-09-24 10:26

扩展多模态大语言模型（MLLMs）的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化，包括模型架构、数据构建和训练策略，尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

来自主题: AI技术研报

7378 点击 2024-09-21 18:19

作为开发者，我们一直在寻找提升工作效率的方法。VS Code 无疑是目前最受欢迎的代码编辑器之一，它几乎成为了我们行业的标准。不过，由于它基于 Electron 和 JavaScript，处理大型代码库时可能会遇到一些性能问题。

来自主题: AI资讯

7654 点击 2024-09-03 16:45

随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。

来自主题: AI技术研报

10341 点击 2024-08-21 14:28