AI资讯新闻榜单内容搜索-GPT-4

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。

来自主题: AI技术研报

8626 点击 2025-06-10 14:45

出海赚美金：用n8n搭建「Reddit商机搜索与洞察」 AI Agent自动化寻找蓝海市场，发现真实痛点

前天，生财有术的老板亦仁发布了一条「超级标」（至少价值千万以上的现象级行业机会）：随着GPT-4o图像革命而来的，是无数的创业机会。

来自主题: AI技术研报

10281 点击 2025-06-09 16:41

专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻

本期内容是拾象 CEO 李广密对大模型公司阶跃星辰首席科学家张祥雨的访谈。

来自主题: AI资讯

9800 点击 2025-06-08 15:06

生图效果媲美GPT-4o，一键搞定各类视觉生成任务丨港科广&字节全新框架

图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。有没有这样一个“AI创作大师”，你只需要用一句话描述脑海中的灵感，它就能自动为你搭建流程、选择工具、反复修改，最终交付高质量的视觉作品呢？

来自主题: AI技术研报

9475 点击 2025-06-07 14:49

首个多模态专用慢思考框架！超GPT-o1近7个百分点，强化学习教会VLM「三思而后行」

在文本推理领域，以GPT-o1、DeepSeek-R1为代表的 “慢思考” 模型凭借显式反思机制，在数学和科学任务上展现出远超 “快思考” 模型（如 GPT-4o）的优势。

来自主题: AI技术研报

9036 点击 2025-06-07 11:00

阿里智能体多轮推理超越GPT-4o，开源模型也能做Deep Research

能够完成多步信息检索任务，涵盖多轮推理与连续动作执行的智能体来了。通义实验室推出WebWalker（ACL2025）续作自主信息检索智能体WebDancer。

来自主题: AI技术研报

8337 点击 2025-06-06 16:31

GPT-4o连验证码都解不了？？SOTA模型成功率仅40%

当前最强多模态Agent连验证码都解不了？

来自主题: AI技术研报

8905 点击 2025-06-05 10:39

超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试

一项新的强化学习方法，直接让Qwen性能大增，GPT-4o被赶超！

来自主题: AI技术研报

7301 点击 2025-06-04 10:50

万帧？单卡！智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展，当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

来自主题: AI技术研报

8784 点击 2025-06-03 14:44

极低成本，复现GPT-4o图像风格化一致性！NUS推出OmniConsistency

不久前，GPT-4o 的最新图像风格化与编辑能力横空出世，用吉卜力等风格生成的效果令人惊艳，也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上的巨大差距。

来自主题: AI技术研报

9426 点击 2025-06-02 15:53

AI资讯新闻榜单内容搜索-GPT-4

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

出海赚美金：用n8n搭建「Reddit商机搜索与洞察」 AI Agent自动化寻找蓝海市场，发现真实痛点

专访张祥雨：多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻

生图效果媲美GPT-4o，一键搞定各类视觉生成任务丨港科广&字节全新框架

首个多模态专用慢思考框架！超GPT-o1近7个百分点，强化学习教会VLM「三思而后行」

阿里智能体多轮推理超越GPT-4o，开源模型也能做Deep Research

GPT-4o连验证码都解不了？？SOTA模型成功率仅40%

超越GPT-4o！华人团队新框架让Qwen跨领域推理提升10%，刷新12项基准测试

万帧？单卡！智源研究院开源轻量级超长视频理解模型Video-XL-2

极低成本，复现GPT-4o图像风格化一致性！NUS推出OmniConsistency

专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻