
小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器
小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器我们都知道,大语言模型(LLM)能够以一种无需模型微调的方式从少量示例中学习,这种方式被称为「上下文学习」(In-context Learning)。这种上下文学习现象目前只能在大模型上观察到。比如 GPT-4、Llama 等大模型在非常多的领域中都表现出了杰出的性能,但还是有很多场景受限于资源或者实时性要求较高,无法使用大模型。
我们都知道,大语言模型(LLM)能够以一种无需模型微调的方式从少量示例中学习,这种方式被称为「上下文学习」(In-context Learning)。这种上下文学习现象目前只能在大模型上观察到。比如 GPT-4、Llama 等大模型在非常多的领域中都表现出了杰出的性能,但还是有很多场景受限于资源或者实时性要求较高,无法使用大模型。
小羊驼团队的新研究火了。他们开发了一种新的解码算法,可以让模型预测100个token数的速度提高1.5-2.3倍,进而加速LLM推理。
AGI 到底离我们还有多远?在 ChatGPT 引发的新一轮 AI 爆发之后,伯克利和香港大学的马毅教授领导的一个研究团队给出了自己的最新研究结果:包括 GPT-4 在内的当前 AI 系统所做的正是压缩。
大模型能否理解自己所说,Hinton和LeCun再次吵起来了。LeCun新论文证明,GPT-4回答问题准确率仅为15%,自回归模型不及人类。AI大佬的激战再次掀起。Hinton在线直接点名LeCun,说他对AI接管风险的看法对人类的影响微乎其微。 这意味着,他把自己的意见看得很重,而把许多其他同样有资格的专家的意见看得很轻
用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
LeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习
知名投资机构coatue发布115页《2023年人工智能产业链》报告,就 AI 的现状、改善我们生活的预期、AI 对一些行业的巨大影响、开源 AI 模型现状以及以 AI 为中心的技术栈机会等做了分享,认为最好的 AI 人工智能还没有到来。
学术造假有了GPT-4,变得更容易了.这两天,一篇刊登在Nature上的新闻表示,GPT-4生成的造假数据集,第一眼还真不一定看得出来。
最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。
全面兼容Stable Diffusion生态,LCM模型成功实现5-10倍生成速度的提升,实时AI艺术时代即将到来,所想即所得!
Buddy Compiler 端到端 LLaMA2-7B 推理示例已经合并到 buddy-mlir仓库[1]主线。我们在 Buddy Compiler 的前端部分实现了面向 TorchDynamo 的第三方编译器,从而结合了 MLIR 和 PyTorch 的编译生态。
OpenAI开发者大会后不久,它的最强竞对Claude也宣布推出了重磅更新。更新后的Claude 2.1,上下文长度直接翻番到20万,重新超过了GPT-4。
GPT-4的图形推理能力,竟然连人类的一半都不到? 美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。
AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。
微软AI4Science部门发布230页报告,详细描述了GPT-4为代表的大语言模型在生物,药物发现,计算化学,偏微分方程,材料设计等5个科研领域的应用潜力。而且,作者还把目前GPT-4表现不好的地方也贴心地标记出来,防止科研人员踩雷。
良好的人设还原度是AI角色扮演的关键,研究人员对大五人格的NEO-FFI问卷和MBTI的16Personalities进行了改写,利用LLM将其中的问题从陈述句改写为了引导开放式问答的提问句,对AI角色进行测试。
计划训练一个10B的模型,想知道至少需要多大的数据?收集到了1T的数据,想知道能训练一个多大的模型?老板准备1个月后开发布会,给的资源是100张A100,那应该用多少数据训一个多大模型最终效果最好?
人工智能(AI)和加密货币是融合的技术,有潜力改变数字世界。AI可以解决加密货币的挑战,如波动性、安全性、可扩展性和能源消耗。
现代认知科学认为,人类会在头脑中构建关于周围真实世界的抽象模型——世界模型(world model)。获取“世界模型”的问题一直是人工智能研究的焦点。OpenAI 联合创始人兼首席科学家 Ilya Sutskever 认为, ChatGPT 已经学到了关于真实世界的复杂抽象模型。
有一部分业内人士开始专门钻研 AI 技术,并且尝试作为一个独立的团队与游戏厂商展开合作,为他们提供包括建立合理工作流、自主训练模型、AI 辅助概念设计等方面的解决方案。和 AI 技术一样,这种团队非常新兴,人们尚且不够全面了解他们所能做到的事情。
C-MCR利用现有多模态对比表征间可能存在的重叠模态,来连接不同的对比表征,从而学到更多模态间的对齐关系,实现了在缺乏配对数据的多模态间进行训练。
大模型正变得越来越“像人”,但事实真是如此吗?现在,一篇发表Nature上的文章,直接否决了这个观点——所有大模型,都不过是在玩角色扮演而已!
GPTs发布,也恰巧自己最近在梳理AI的发展历史,就去GPTs上建了一个叫《AI history Expert》的应用,和大家分享整个过程(文末有全程截图)。整体来说,我并不建议大家现在就去买账号建GPTs
11月18日,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告3.0》(以下简称报告)。报告显示,迭代风潮之下,大模型产品正在迅速适应并引领市场变革。其中,科大讯飞星火、商汤商量和智谱AI-ChatGLM等厂商表现总体优秀。
机器学习泰斗Michael Jordan发表了题为Contracts, Uncertainty, and Incentives in Decentralized Machine Learning(去中心化机器学习中的契约、不确定性和激励)的主旨报告,该报告从统计学、经济学和博弈论等独特视角阐释了如何应对机器学习中的不确定性。
提到视频生成,很多人首先想到的可能是 Gen-2、Pika Labs。但刚刚,Meta 宣布,他们的视频生成效果超过了这两家,而且编辑起来还更加灵活。
OpenAI assistant API 在代码解释和知识检索方面颠覆了AI Agent领域。assistant API的代码解释器功能是一个强大的工具,能够从代码执行生成各种文件类型,如图片和 CSV 文件。例如,当创建图像图表时,开发者可以通过助手消息响应中的 file_id 字段轻松访问它。这种无缝集成方便了生成内容的下载,无需额外操作。
AI图像生成,已经进入了秒速级别,只要4步推理就能完成绘制,最快更是能在1秒之内完成。现在,清华大学联合HuggingFace的研究人员,推出了全新的绘图模型加速模块。
如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。
面壁智能 联合 清华自然语言处理实验室 等机构的研究人员共同发布了新一代流程自动化范式 Agentic Process Automation,该范式不仅实现了工作流构建的自动化,更在工作流执行时引入了动态决策的自动化。