行业大模型建设的若干思考
行业大模型建设的若干思考2022年底,OpenAI(美国人工智能研究公司)发布的大模型ChatGPT(对话生成式预训练大模型)引发了广泛关注。在“大模型+大数据+大算力”的加持下,ChatGPT能够通过自然语言交互完成多种任务,具备了多场景、多用 途、跨学科的任务处理能力。
2022年底,OpenAI(美国人工智能研究公司)发布的大模型ChatGPT(对话生成式预训练大模型)引发了广泛关注。在“大模型+大数据+大算力”的加持下,ChatGPT能够通过自然语言交互完成多种任务,具备了多场景、多用 途、跨学科的任务处理能力。
基于案例的推理助力大模型智能体挑战自动化数据科学任务,吉大、上交和汪军团队发布专注于数据科学的智能体构建框架 DS-Agent。
Claude 3不但数据集跑分领先,用户体验上也将成为最强大的LLM,GPT-5在哪里?
作为大模型的「记忆体」,向量数据库重要性不言而喻。GTC 2024上,全球首个GPU加速向量数据库诞生了,由英伟达CUDA加持,性能实现50倍提升。5年前上海厂房里的一行代码,竟开启了一个时代。
2023业绩报一发,美图的嘴角比“AK”还难压。数据显示,2023年总营收27亿,同比增长29%;经调整后净利润达3.7亿,同比增长233.2%。40多页的报告里,不仅多次出现“2023又是一个取得突破的年份”“表现大超预期”等表述,而且花费大幅笔墨,强调盈利来自公司“真正的实力”。
“Claude 3、Gemini 1.5,是要把RAG(检索增强生成)给搞死了吗?”
根据scaling law,模型越大,高质量数据越多,效果越好。 但还有一个很直观的情况,随着预训练样本的质量不断提升,训练手段的优化。新的模型,往往效果能轻松反超参数量两倍于它的模型。
深度学习模型因其能够从大量数据中学习潜在关系的能力而「彻底改变了科学研究领域」。然而,纯粹依赖数据驱动的模型逐渐暴露出其局限性,如过度依赖数据、泛化能力受限以及与物理现实的一致性问题。
不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同推进视频创作的新纪元。
最近,OpenAI CTO Murati接受采访时,对Sora训练数据语焉不详、支支吾吾的表现,已经成了全网热议的话题。毕竟,要是一个处理不好,OpenAI就又要陷入巨额赔偿金的诉讼之中了。