
阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源
阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源Agent能“看懂网页”,像人类一样上网?阿里发布WebDancer,就像它的名字一样,为“网络舞台”而生。
Agent能“看懂网页”,像人类一样上网?阿里发布WebDancer,就像它的名字一样,为“网络舞台”而生。
LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?
当地时间 6 月 26 日,在上个月的 Google I/O 上首次亮相预览后,谷歌如今正式发布了 Gemma 3n 完整版,可以直接在本地硬件上运行。
刚刚,OpenAI 研究员Aidan McLaughlin的一条推文引爆了网友们的关注。
前段时间,沉寂了很久的Flux官方团队Black Forest Labs发布了新模型:FLUX.1 Kontext,这是一套支持生成与编辑图像的流匹配(flow matching)模型。FLUX.1 Kontext不仅支持文生图,还实现了上下文图像生成功能,可以同时使用文本和图像作为提示词,并能无缝提取修改视觉元素,生成全新且协调一致的画面。
一年提升上百分,这可能是最后一代能被考住的「AI」。
如果说眼睛是心灵之窗,那么语言或许就是通往心灵的门户。
今天,我们正式发布 jina-embeddings-v4,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。
LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。
Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward