AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
JinaVDR: 一个图文混排文档搜索任务的基准集

JinaVDR: 一个图文混排文档搜索任务的基准集

JinaVDR: 一个图文混排文档搜索任务的基准集

大部分现有的文档检索基准(如MTEB)只考虑了纯文本。而一旦文档的关键信息蕴含在图表、截图、扫描件和手写标记中,这些基准就无能为力。为了更好的开发下一代向量模型和重排器,我们首先需要一个能评测模型在视觉复杂文档能力的基准集。

来自主题: AI技术研报
9363 点击    2025-08-07 14:43
刚刚,马斯克Grok4干翻谷歌Gemini!o3杀入首届大模型对抗赛决战

刚刚,马斯克Grok4干翻谷歌Gemini!o3杀入首届大模型对抗赛决战

刚刚,马斯克Grok4干翻谷歌Gemini!o3杀入首届大模型对抗赛决战

第二轮首届大模型对抗赛结果出炉了!o3轻而易举击败o4-mini,拿下100%胜率。Grok 4和Gemini 2.5 Pro激烈对决,最终在加赛中Grok 4成功晋级。明日,Grok 4和o3将迎来终局之战。

来自主题: AI资讯
7085 点击    2025-08-07 12:31
全网开测GPT-oss!技术架构也扒明白了

全网开测GPT-oss!技术架构也扒明白了

全网开测GPT-oss!技术架构也扒明白了

全网开扒GPT-oss,惊喜发现…… 奥特曼还是谦虚了,这性能岂止是o4-mini的水平,直接SOTA击穿一众开源模型。

来自主题: AI资讯
7400 点击    2025-08-07 12:20
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus

Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus

Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus

三天不开源,Qwen团队手就痒。 昨天深夜再次放出两个端侧模型: Qwen3-4B-Instruct-2507:非推理模型,大幅提升通用能力 Qwen3-4B-Thinking-2507:高级推理模型,专为专家级任务设计

来自主题: AI资讯
7015 点击    2025-08-07 12:12
爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰

爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰

爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰

AI国际象棋对抗?这次玩真的!谷歌Kaggle推出首届全球AI象棋争霸赛,八款顶级语言模型正面对抗,胜负只在一步之间!

来自主题: AI资讯
7751 点击    2025-08-07 12:05
a16z重磅预测:Vibe coding赢者通吃?错了,垂直专业化才是未来

a16z重磅预测:Vibe coding赢者通吃?错了,垂直专业化才是未来

a16z重磅预测:Vibe coding赢者通吃?错了,垂直专业化才是未来

你有没有发现,AI 应用生成平台们正在走向一条与大家预期完全不同的路?很多人原本以为这会是一场血腥的零和游戏,大家会在价格战中厮杀到底,最终只剩一家独大。但现实却让人意外:这些平台不但没有互相厮杀,反而开始各自寻找差异化的定位,在不同的细分市场中共存共荣。这让我想起了大语言模型市场的发展轨迹,同样出人意料,同样充满启发。

来自主题: AI资讯
5986 点击    2025-08-07 11:48
AI地图,“填坑”才能走得更远

AI地图,“填坑”才能走得更远

AI地图,“填坑”才能走得更远

拒绝“隐形陷阱”。 在互联网行业,尽管“一亏亏几十亿、一做做十几年”,可依赖于智慧交通、自动驾驶和本地生活的考量,地图,大厂一直都在“砸钱”。

来自主题: AI资讯
6304 点击    2025-08-07 11:09
腾讯AI Lab开源即王炸:GAIA同级最强Agent框架

腾讯AI Lab开源即王炸:GAIA同级最强Agent框架

腾讯AI Lab开源即王炸:GAIA同级最强Agent框架

当AI智能体(Agent)开发的浪潮涌来,很多一线工程师却发现自己站在一个尴尬的十字路口:左边是谷歌、OpenAI等巨头深不可测的“技术黑盒”,右边是看似开放却暗藏“付费墙”的开源社区。大家空有场景和想法,却缺少一把能打开未来的钥匙。

来自主题: AI资讯
6090 点击    2025-08-07 11:04
Flux.1 Krea Dev超大杯实测:开源模型能否撼动Midjourney V7 ?

Flux.1 Krea Dev超大杯实测:开源模型能否撼动Midjourney V7 ?

Flux.1 Krea Dev超大杯实测:开源模型能否撼动Midjourney V7 ?

7月底 Black Forest Labs 和 Krea 合作开发的高级文本到图像生成模型 Flux.1 Krea Dev,最近终于有时间进行测评了。Flux.1 Krea Dev 是基于FLUX.1 dev 模型进行蒸馏的,参数规模12B,专注于提升图像的美学和真实感,避免了常见的 AI 生成痕迹(过度饱和或不自然高光等等),更倾向于追求自然细节、照片级真实感和多样性。

来自主题: AI资讯
6993 点击    2025-08-07 10:54
AI竞技场,归根到底只是一门生意

AI竞技场,归根到底只是一门生意

AI竞技场,归根到底只是一门生意

AI模型排行榜分两类:以高考式标准化测试衡量特定能力的客观基准测试(如AAII、MMLU-Pro),以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场(如LMArena)。两者各有优劣和局限性,且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型,实用性至上。

来自主题: AI资讯
8836 点击    2025-08-07 10:45