AI资讯新闻榜单内容搜索-微调

1人顶1个Infra团队！OpenAI前CTO新招，让大模型训练跌成白菜价

当大模型竞争转向后训练，继续为闲置显卡烧钱无异于「慢性自杀」。如今，按Token计费的Serverless模式，彻底终结了算力租赁的暴利时代，让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报

7354 点击 2026-01-07 18:35

当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward，optimizer step 等⼀系列基本原语，分离了算法设计等部分与分布式训练基础设施关联，

来自主题: AI技术研报

8032 点击 2026-01-07 15:30

最近，APPSO 终于拿到了这台来自黄仁勋倾情推荐的个人超算，英伟达 DGX Spark；到手的第一感觉，就是「小而美」。这电脑也太小了，没有 Mac Studio 那般笨重，可能就和 Mac Mini 差不多大；然后是银色的亮和用来散热的金属丝网又让它有点不一样，是专属的硬核美感。

来自主题: AI资讯

7973 点击 2025-12-31 15:19

什么？决定 AI 上限的已不再是底座模型，而是外围的「推理编排」（Orchestration）。

来自主题: AI资讯

7384 点击 2025-12-25 14:19

在个性化视觉生成的实际应用中，通用视觉基础模型的表现往往难以满足精准需求。为实现高度定制化的生成效果，通常需对大模型进行针对性的自适应微调，但当前以 LoRA 为代表的主流方法，仍受限于定制化数据收集与冗长的优化流程，耗时耗力，难以在真实场景中广泛应用。

来自主题: AI技术研报

6011 点击 2025-12-18 09:12

当前，AI 领域的研究者与开发者在关注 OpenAI、Google 等领先机构最新进展的同时，也将目光投向了由前 OpenAI CTO Mira Murati 创办的 Thinking Machines Lab。

来自主题: AI技术研报

5652 点击 2025-12-16 16:31

南洋理工大学研究人员构建了EHRStruct基准，用于评测LLM处理结构化电子病历的能力。该基准涵盖11项核心任务，包含2200个样本，按临床场景、认知层级和功能类别组织。研究发现通用大模型优于医学专用模型，数据驱动任务表现更强，输入格式和微调方式对性能有显著影响。

来自主题: AI技术研报

9900 点击 2025-12-16 16:27

新加坡国立大学 LV Lab（颜水成团队）联合电子科技大学、浙江大学等机构提出 FeRA (Frequency-Energy Constrained Routing) 框架：首次从频域能量的第一性原理出发，揭示了扩散去噪过程具有显著的「低频到高频」演变规律，并据此设计了动态路由机制。

来自主题: AI技术研报

6882 点击 2025-12-12 15:34

当问题又深又复杂时，一味上最强模型既贵又慢。测试时扩展能想得更久，却不一定想得更对。

来自主题: AI技术研报

9724 点击 2025-12-08 08:51

刚刚，「欧洲的 DeepSeek」Mistral AI 刚刚发布了新一代的开放模型 Mistral 3 系列模型。该系列有多个模型，具体包括：「世界上最好的小型模型」：Ministral 3（14B、8B、3B），每个模型都发布了基础版、指令微调版和推理版。

来自主题: AI资讯

8247 点击 2025-12-03 08:26