AI资讯新闻榜单内容搜索-Qwen2

全球首个射频大模型发布，6G网络的认知大脑有了雏形

2026 年，阿联酋哈利法大学的邹航博士和他所在的团队，做出了全世界第一个射频大模型，名字叫 RF GPT。这个模型能直接看懂无线信号，就像 GPT 4o 能看懂图片、Qwen2 Audio 能听懂声音一样。你把无线信号扔给它，它不仅能告诉你这里面有几种信号、分别是什么技术，还能分析出有没有信号在打架、哪个是 5G 哪个是蓝牙、甚至能数出来 WiFi 网络里有多少个用户同时在用。

来自主题: AI资讯

9204 点击 2026-04-05 11:08

Qwen3.5-397B+Milvus+ColQwen2，如何做基于PDF的多模态RAG知识库

最近关于Qwen3.5还有其幕后团队，市场上的讨论沸沸扬扬，但今天我们不聊八卦，主要讲讲干货。

来自主题: AI技术研报

9460 点击 2026-03-06 09:33

原神Agent，字节出品Lumine

糟糕！现在Agent也会这招了：原神，启动！咳咳，这其实是字节最新手搓出来的原神Agent——Lumine。不仅在《原神》里玩得很6，跑图开荒以及动辄几个小时的长主线任务，Lumine都能自己搞定，而且水平还不菜。

来自主题: AI资讯

8756 点击 2025-11-15 17:53

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务，创新的以实用性重新定义 image captioning 的 reward。

来自主题: AI技术研报

10614 点击 2025-10-29 10:24

十亿级参数，千亿级性能，上海AI Lab发布新一代文档解析大模型，复杂场景解析精度媲美人类专家

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5。作为MinerU系列最新成果，该模型仅以1.2B参数规模，就在OmniDocBench、olmOCR-bench、Ocean-OCR等权威评测上，全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型，以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具。

来自主题: AI技术研报

9995 点击 2025-09-30 10:45

扩散语言模型有MoE版了！蚂蚁&人大从头训练LLaDA-MoE，将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑：蚂蚁集团和人大联合团队用 20T 数据，从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B，但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B，而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。

来自主题: AI技术研报

9744 点击 2025-09-15 08:30

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

来自斯坦福的研究者们最近发布的一篇论文（https://arxiv.org/abs/2509.01684）直指RL强化学习在机器学习工程（Machine Learning Engineering）领域的两个关键问题，并克服了它们，最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示（prompting）的、规模更大的静态语言模型Claude3.5。

来自主题: AI资讯

8742 点击 2025-09-06 11:35

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

今天，我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型，看得准、看得快，看得长！高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA，且性能超过 Qwen2.5-VL 72B，堪称最强端侧多模态模型。

来自主题: AI资讯

11323 点击 2025-08-26 23:30

刚刚，阿里图像编辑大杀器Qwen-Image-Edit上线，横扫像素与语义编辑，网友：再见PS

今天凌晨，阿里推出了最新图像编辑模型 Qwen-Image-Edit！该模型基于 200 亿参数的 Qwen-Image 架构构建，支持中英文双语精准文本编辑，在保持原有风格的同时完成修改。此外，Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL（实现视觉语义控制）和 VAE Encoder（实现视觉外观控制），兼具语义与外观的双重编辑能⼒。

来自主题: AI资讯

10731 点击 2025-08-19 08:52

小米模型实现声音理解新SOTA！数据吞吐效率暴增20倍，推理速度快4倍 | 全量开源

声音理解能力新SOTA，小米全量开源了模型。 MiDashengLM-7B，基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B Thinker作为自回归解码器，通过创新的通用音频描述训练策略，实现了对语音、环境声音和音乐的统一理解。

来自主题: AI技术研报

7830 点击 2025-08-06 12:11