华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍
华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果,然而,Transformer 中自注意力带来的二次复杂度使得大模型的推理成本和内存占用十分巨大,特别是在长序列的场景中。
基于 Transformer 架构的大语言模型在 NLP 领域取得了令人惊艳的效果,然而,Transformer 中自注意力带来的二次复杂度使得大模型的推理成本和内存占用十分巨大,特别是在长序列的场景中。
不到 24 小时,Star 量突破 1400。
Anthropic 发现一种新型越狱漏洞并给出了高效的缓解方案,可以将攻击成功率从 61% 降至 2%。
苹果公司发布了一款参数量仅为80M的最新模型——ReALM,能够将各种形式的上下文转换为文本进行理解,包括解析屏幕、多轮对话以及上下文引用,提升了Siri等智能助手的反应速度和智能程度。
又一项针对AI模型的数学奥赛来了!只要在50道题中做出3道,就有可能把百万美元大奖抱回家。题目难度为人类的高中学术竞赛难度,包括基础算术、代数思维和几何推理。欢迎AI模型们踊跃报名。
AI人才争夺战拉响!谷歌四大高管挖走了OpenAI前开发者关系负责人Logan Kilpatrick。他将AI Studio产品,并为Gemini API提供支持。网友纷纷看好谷歌。
就在刚刚,Anthropic发现了大模型的惊人漏洞。经过256轮对话后,Claude 2逐渐被「灌醉」,开始疯狂越狱,帮人类造出炸弹!谁能想到,它的超长上下文,反而成了软肋。
世界首个AI程序员Devin诞生不足一个月,普林斯顿就推出了全新的「开源版本」——SWE-agent!在GPT-4的加持下,debug只需93秒,准确率几乎不相上下。
先上代码再发论文,腾讯新开源文生视频工具火了。名为MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。
用GPT-4打造的AI程序员,结果轻松追平Devin!普林斯顿打造的开源SWE-agent,直接开箱即用——修复GitHub存储库中真实bug。在25%的SWE-bench测试集上,它实现了与Devin相似的准确度—— 解决了12.29%的问题。
大模型厂商在上下文长度上卷的不可开交之际,一项最新研究泼来了一盆冷水——Claude背后厂商Anthropic发现,随着窗口长度的不断增加,大模型的“越狱”现象开始死灰复燃。无论是闭源的GPT-4和Claude 2,还是开源的Llama2和Mistral,都未能幸免。
AIGC,算是狠狠地震荡了一把音乐圈。就在刚刚,OpenAI官方账号发布的一支由Sora制作的MV(Music Video)——《Worldweight》,引发了不少网友们的围观。
AI被所有人使用的时代,正越来越近。如果说AI大模型之前已经用ChatGPT多轮的技术进展、国内的百模大战、Sora在视频大模型领域的突破,以及其他一系列大模型初步的应用探索证明了全新的AI更强大;那么最近悄然吹起的、厂商纷纷将最日常使用的消费电子终端套上AI之名的占位之风,则进一步宣告了AI普惠时代的加速到来。
解决最短路径算法,也能被扩散模型完成。
OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒地的巨响。
【新智元导读】Zoom AI通过独创的「联邦AI」的技术路线,联合多个大模型,在特定任务上超越GPT-4,体现出了多个大模型互帮互助的强大能力,而且成本也能控制在GPT-4一半的水品。
【新智元导读】老黄新GPU深夜炸场,超高规格的背后也付出了不小的代价,小编带大家深入了解一下新架构的硬件细节和成本,新显卡的售价究竟高不高?英伟达也不得不开始卷了
多模态文档理解能力新SOTA!阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。
尴了个大尬! 人们还在嘲讽有人用ChatGPT写论文忘了删掉“狐狸尾巴”,另一边审稿人也被曝出用ChatGPT写同行评论了 。而且,还是来自ICLR、NeurIPS等顶会的那种。
大模型长文本能力测试,又有新方法了!
扣子是字节跳动出品的 Agent 创作平台,不了解 Coze /扣子的朋友,可以先看看我们往期的文章
作为 Meta 的前 CTO,Quora CEO Adam D'Angelo 目前还是 OpenAI 的董事会成员,在 Quora 之外推出的 Poe,成为当下接入大模型最多的 Chatbot 平台:GPT-4、Claude3、Mistral 等模型都有,用户也可以在上面搭建自己的 Chatbot 机器人,如果有别的用户使用,还可以产生收益。
OpenAI狠狠地open了一把就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!
随着生成模型(如 ChatGPT、扩散模型)飞速发展,一方面,生成数据质量越来越高,到了以假乱真的程度;另一方面,随着模型越来越大,也使得人类世界的真实数据即将枯竭。
2022 年底,随着 ChatGPT 的爆火,人类正式进入了大模型时代。然而,训练大模型需要的时空消耗依然居高不下,给大模型的普及和发展带来了巨大困难。面对这一挑战,原先在计算机视觉领域流行的 LoRA 技术成功转型大模型 [1][2],带来了接近 2 倍的时间加速和理论最高 8 倍的空间压缩,将微调技术带进千家万户。
OpenAI 从未放慢前进的脚步,DALL・E 3 将支持对生成后的图片进行再次编辑。
搞 AI 大模型,实在太烧钱了。我们知道,如今的生成式 AI 有很大一部分是资本游戏,科技巨头利用自身强大的算力和数据占据领先位置,并正在使用先进 GPU 的并行算力将其推广落地。这么做的代价是什么?最近《华尔街日报》一篇有关明星创业公司的报道里给出了答案:投入是产出的 17 倍。
CLIP长文本能力被解锁,图像检索任务表现显著提升!一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。
【新智元导读】OpenAI机器人理解力虽强,却无法进行非语言交流。最近,哥伦比亚大学华人团队打造了全新的机器人Emo,不仅可以提前预测和模拟人类表情,还可以进行眼神交流。
【新智元导读】在英伟达统治AI时代硬件的当下,谷歌的TPU却开辟了另一条道路。今天,小编带你了解第一块TPU的前世今生,同时揭开TPU架构的神秘面纱。