AI资讯新闻榜单内容搜索-模型

千页只需7块钱，Mistral发布世界最强文件扫描API，实测仍有缺陷

法国大模型独角兽 Mistral AI 进军 OCR（光学字符识别）领域了。一出手就是号称「世界上最好的 OCR 模型」！新产品 Mistral OCR 是一种光学字符识别 API，它为文档理解树立了新标准。

来自主题: AI资讯

9645 点击 2025-03-07 14:51

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei，首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器，实现了对多角色外观、表情、动作的精确控制

来自主题: AI技术研报

11682 点击 2025-03-07 14:15

谷歌创始人拉里·佩奇出山成立大模型公司，目标智能制造

谷歌联合创始人、全球第七富豪拉里・佩奇 (Larry Page) 已经成立了一个 AI 创业公司。据外媒 The Information 本周四报道，拉里・佩奇成立了名为 Dynatomics 的创业公司，旨在用人工智能颠覆制造业。

来自主题: AI资讯

11061 点击 2025-03-07 14:10

独家｜获IDG数千万投资，米哈游逆熵AI研究负责人构建4D“数身智能”

据ZP独家获悉，半图科技（SemiGraph）近日完成了一轮数千万人民币的天使轮融资，全球知名投资机构IDG资本独家投资。据了解，半图科技正式成立于2024下半年，致力于通过创新的技术推动AI应用领域的变革，尤其聚焦于AI技术在游戏、内容、情感交互等领域的深度应用。此次融资的成功为公司3D动画大模型底层技术的突破提供了强有力的资金支持，并有望加速其产品和技术的市场落地。

来自主题: AI资讯

9105 点击 2025-03-07 13:04

打工人，被迷信AI的老板们坑惨了

只有享不了的福，\x0d\x0a没有受不了的罪。

来自主题: AI资讯

9129 点击 2025-03-07 12:17

Mistral发布了全世界最好的OCR，希望不是吹牛

今天，他们自称发布了世界上最好的 OCR API，它能够将复杂的 PDF 文件转换为文本文件，以便 AI 模型处理。现在，所有大模型的输入端格式都是文本，或者规整的、容易识别的文本文件，但这个世界上，还有很多文件是粗糙的，不规整的，难以识别的，它需要依赖强大的 OCR 功能才能转换为文本。

来自主题: AI资讯

11692 点击 2025-03-07 12:14

苹果最强M3 Ultra首发逆天，512GB“桌面超算”在家跑DeepSeek-R1

M3 Ultra终极引擎，可跑千亿模型

来自主题: AI资讯

11723 点击 2025-03-07 11:48

风格迁移重大突破！西湖大学等提出StyleStudio攻克「过拟合」难题 | CVPR 2025

StyleStudio能解决风格迁移中风格过拟合、文本对齐差和图像不稳定的问题，通过跨模态AdaIN技术融合文本和风格特征、用教师模型稳定布局、引入基于风格的无分类器引导，实现精准控制风格元素，提升生成图像的质量和稳定性，无需额外训练，使用门槛更低！

来自主题: AI技术研报

4802 点击 2025-03-07 11:04

开启空间智能问答新时代：Spatial-RAG框架来了

当涉及到空间推理任务时，LLMs 的表现却显得力不从心。空间推理不仅要求模型理解复杂的空间关系，还需要结合地理数据和语义信息，生成准确的回答。为了突破这一瓶颈，研究人员推出了 Spatial Retrieval-Augmented Generation (Spatial-RAG)—— 一个革命性的框架，旨在增强 LLMs 在空间推理任务中的能力。

来自主题: AI技术研报

8332 点击 2025-03-07 10:34

智源BGE-VL拍照提问即可精准搜，1/70数据击穿多模态检索天花板！

智源联手多所顶尖高校发布的多模态向量模型BGE-VL，重塑了AI检索领域的游戏规则。它凭借独创的MegaPairs合成数据技术，在图文检索、组合图像检索等多项任务中，横扫各大基准刷新SOTA。

来自主题: AI技术研报

6604 点击 2025-03-07 10:34