
AI带火浏览器,卷出个Manus
AI带火浏览器,卷出个ManusAI改变了浏览器的命运——大模型的战争,纷纷在浏览器里打响。比如这两天爆火的Manus,其背后团队就是通过浏览器进入的AI市场。在AI浏览器插件合计拥有700万用户后,他们才正式推出Manus项目。
AI改变了浏览器的命运——大模型的战争,纷纷在浏览器里打响。比如这两天爆火的Manus,其背后团队就是通过浏览器进入的AI市场。在AI浏览器插件合计拥有700万用户后,他们才正式推出Manus项目。
OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。
法国大模型独角兽 Mistral AI 进军 OCR(光学字符识别)领域了。一出手就是号称「世界上最好的 OCR 模型」!新产品 Mistral OCR 是一种光学字符识别 API,它为文档理解树立了新标准。
谷歌联合创始人、全球第七富豪拉里・佩奇 (Larry Page) 已经成立了一个 AI 创业公司。据外媒 The Information 本周四报道,拉里・佩奇成立了名为 Dynatomics 的创业公司,旨在用人工智能颠覆制造业。
据ZP独家获悉,半图科技(SemiGraph)近日完成了一轮数千万人民币的天使轮融资,全球知名投资机构IDG资本独家投资。据了解,半图科技正式成立于2024下半年,致力于通过创新的技术推动AI应用领域的变革,尤其聚焦于AI技术在游戏、内容、情感交互等领域的深度应用。此次融资的成功为公司3D动画大模型底层技术的突破提供了强有力的资金支持,并有望加速其产品和技术的市场落地。
只有享不了的福,\x0d\x0a没有受不了的罪。
今天,他们自称发布了世界上最好的 OCR API,它能够将复杂的 PDF 文件转换为文本文件,以便 AI 模型处理。现在,所有大模型的输入端格式都是文本,或者规整的、容易识别的文本文件,但这个世界上,还有很多文件是粗糙的,不规整的,难以识别的,它需要依赖强大的 OCR 功能才能转换为文本。
DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络(Multi-head Latent Attention, MLA)是其经济推理架构的核心之一,通过对键值缓存进行低秩压缩,显著降低推理成本 [1]。
腾讯AI助手腾讯元宝APP近期修改用户协议内容一事引发关注,成为热搜。焦点是使用AI应用或者产品的用户上传和生成内容的权利归属问题。自2月以来,有网友发现腾讯元宝的用户服务协议中,知识产权和其他权利的部分,包括了用户上传的内容,以及用元宝大模型生成的内容。
基于闭源评测基准,近期司南针对国内外主流多模态大模型进行了全面评测,现公布司南首期多模态模型闭源评测榜单。首期榜单共包含 48 个多模态模型,其中包含:3 个国内 API 模型:GLM-4v-Plus-20250111 (智谱),Step-1o (阶跃),BailingMM-Pro-0120 (蚂蚁)