
大模型推理成本降10倍、速度快20倍,AI Infra公司「趋境科技」在推理端开创模型落地新路径
大模型推理成本降10倍、速度快20倍,AI Infra公司「趋境科技」在推理端开创模型落地新路径2024年,落地,无疑是大模型最重要的主题。
2024年,落地,无疑是大模型最重要的主题。
千亿参数规模的大模型推理,服务器仅用4颗CPU就能实现!
最近,新加坡国立大学联合南洋理工大学和哈工深的研究人员共同提出了一个全新的视频推理框架,这也是首次大模型推理社区提出的面向视频的思维链框架(Video-of-Thought, VoT)。视频思维链VoT让视频多模态大语言模型在复杂视频的理解和推理性能上大幅提升。该工作已被ICML 2024录用为Oral paper。
微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。
如何在有限的内存下实现高效的大模型推理,是端侧AI发展的重要任务。
近日,一篇出自中国团队之手的AI论文在外网引发热议。论文中,研究团队提出了Q*模型算法,帮助Llama-2-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。
自 OpenAI 的 Q* 项目曝光后,引发业内众多讨论。据现有信息汇总,Q* 项目被视作 OpenAI 在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。
大模型推理速度提升50%以上,还能保证少样本学习性能!
近年来,大语言模型(Large Language Models, LLMs)受到学术界和工业界的广泛关注,得益于其在各种语言生成任务上的出色表现,大语言模型推动了各种人工智能应用(例如ChatGPT、Copilot等)的发展。然而,大语言模型的落地应用受到其较大的推理开销的限制,对部署资源、用户体验、经济成本都带来了巨大挑战。
以 OpenAI 的 GPT 系列模型为代表的大语言模型(LLM)掀起了新一轮 AI 应用浪潮,但是 LLM 推理的高昂成本一直困扰着业务团队。