AI资讯新闻榜单内容搜索-多模态模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态模型
谢赛宁等新作上线,多模态理解生成大一统!思路竟与GPT-4o相似?

谢赛宁等新作上线,多模态理解生成大一统!思路竟与GPT-4o相似?

谢赛宁等新作上线,多模态理解生成大一统!思路竟与GPT-4o相似?

来自Meta和NYU的团队,刚刚提出了一种MetaQuery新方法,让多模态模型瞬间解锁多模态生成能力!令人惊讶的是,这种方法竟然如此简单,就实现了曾被认为需要MLLM微调才能具备的能力。

来自主题: AI技术研报
6015 点击    2025-04-13 14:11
首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

来自主题: AI技术研报
7063 点击    2025-04-10 10:20
用多模态模型,写新一代爬虫

用多模态模型,写新一代爬虫

用多模态模型,写新一代爬虫

字节有一个很实用但不怎么火的项目,叫 Midscene.js,Chrome 商店上的安装数仅有 1 万,它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到,但我发现它特别适合用来写爬虫……

来自主题: AI技术研报
8318 点击    2025-04-02 16:09
微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软开源多模态AI基础模型Magma!无需额外微调轻松拿捏网页、机器人

微软研究院官宣开源多模态AI——Magma模型。首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。

来自主题: AI技术研报
5979 点击    2025-03-10 22:22
司南首期多模态模型闭源榜单发布!48个模型同台竞技,谁将脱颖而出?

司南首期多模态模型闭源榜单发布!48个模型同台竞技,谁将脱颖而出?

司南首期多模态模型闭源榜单发布!48个模型同台竞技,谁将脱颖而出?

基于闭源评测基准,近期司南针对国内外主流多模态大模型进行了全面评测,现公布司南首期多模态模型闭源评测榜单。首期榜单共包含 48 个多模态模型,其中包含:3 个国内 API 模型:GLM-4v-Plus-20250111 (智谱),Step-1o (阶跃),BailingMM-Pro-0120 (蚂蚁)

来自主题: AI技术研报
8122 点击    2025-03-06 19:45
生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

近年来大语言模型(LLM)的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而,现有主流多模态大模型(MLLM)依赖复杂的外部视觉模块(如 CLIP 或扩散模型),导致系统臃肿、扩展受限,成为跨模态智能进化的核心瓶颈。

来自主题: AI技术研报
8180 点击    2025-03-04 09:52
全球最大开源视频模型,现在也Created in China了,阶跃出品

全球最大开源视频模型,现在也Created in China了,阶跃出品

全球最大开源视频模型,现在也Created in China了,阶跃出品

刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型!新模型共2款:全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。

来自主题: AI资讯
7035 点击    2025-02-18 14:43
Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

就在除夕前的晚上(2025 年 1 月 27 日),Deepseek 发布了多模态模型 Janus-Pro-7B,该模型在图像生成和多模态理解方面都超过了OpenAI的DALL-E 3(虽然也一般般),我相信能文生图功能一定很优秀了,今天搞点特殊的,测试下图像理解能力对专业的医学影像有没有应用的可行性,以下是常见的五种医学影像测试。

来自主题: AI资讯
6951 点击    2025-02-01 19:58
梁文锋就是AI界的黄峥

梁文锋就是AI界的黄峥

梁文锋就是AI界的黄峥

梁文锋带领着DeepSeek,还在继续搅动大模型行业。继用R1模型炸场之后,1月28日凌晨,除夕夜前一晚,DeepSeek又开源了其多模态模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基准测试中击败了DALL-E 3(来自 OpenAI)和Stable Diffusion。

来自主题: AI资讯
6912 点击    2025-01-30 12:40