AI技术研报-这里有最前沿的人工智能技术解读

SIGGRAPH2024｜上科大、影眸联合提出DressCode：从文本生成3D服装板片

3D生成是生成式人工智能和计算机图形学领域最引人注目的话题之一，符合影视、游戏标准的3D生成尤其受产业界关注。在生产流程中，一般品类的3D资产往往通过手工建模或者扫描的方式制作。但作为3D资产的一个重要类别，服装资产的往往来源于平面板片与物理模拟等流程，而不是直接在3D上建模。

来自主题: AI技术研报

7186 点击 2024-06-15 15:44

英伟达开源最强通用模型Nemotron-4 340B

性能超越 Llama-3，主要用于合成数据。

来自主题: AI技术研报

11011 点击 2024-06-15 15:40

大模型理解复杂表格，字节&中科大出手了

只要一个大模型，就能解决打工人遇到的表格难题！

来自主题: AI技术研报

8881 点击 2024-06-15 13:28

CVPR‘24全程满分+最佳论文候选！上交大港中文等提出神经场网格模型三大定理

在CV、ML等领域经常用到的神经场网格模型，如今有了理论框架描述其训练动力学和泛化性能。

来自主题: AI技术研报

5442 点击 2024-06-15 13:23

神经系统理解：人工智能与自然大脑交集之处

2023年3月，如果你偶然进入纽约大学的某个礼堂，可能会以为自己在参加一场纯粹的神经科学会议。事实上，这是一个关于人工智能的研讨会——但你的困惑是可以理解的。演讲者们谈论“切除术”，即常见于动物模型实验中的脑损伤创建手术。他们提到“探测”，比如使用电极来获取大脑信号。他们还展示了语言分析，并引用了心理学中长期以来关于“先天还是后天”的争论。

来自主题: AI技术研报

9329 点击 2024-06-15 13:06

大模型产品化，不过是三支舞

AI产品化的答案，才是AI商业化的起点

来自主题: AI技术研报

7376 点击 2024-06-14 11:45

在AI时代：重新理解PMF

PMF在AI时代需适应新变化，探索增长本质。

来自主题: AI技术研报

8522 点击 2024-06-14 11:33

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

奥本海默曾在新墨西哥州执行曼哈顿计划，只为拯救世界。并留下了一句：「他们不会对其敬畏，直至理解；而理解，唯有亲身体验之后。」

来自主题: AI技术研报

9620 点击 2024-06-14 10:50

万字综述大模型高效推理：无问芯穹与清华、上交最新联合研究全面解析大模型推理优化

近年来，大语言模型（Large Language Models, LLMs）受到学术界和工业界的广泛关注，得益于其在各种语言生成任务上的出色表现，大语言模型推动了各种人工智能应用（例如ChatGPT、Copilot等）的发展。然而，大语言模型的落地应用受到其较大的推理开销的限制，对部署资源、用户体验、经济成本都带来了巨大挑战。

来自主题: AI技术研报

9808 点击 2024-06-14 10:35

一句话手机自己打车，开源多智能体AI助手，非苹果手机也能玩

一句话让AI自动化操作手机，打个车已经不是难事了。从官方公布的演示视频来看，用户只需要说出目的地，Agent就能够通过规划、决策和反思的流程自动化帮用户完成目的地输入，呼叫车辆等操作，适用于老人及视障人群，解决他们不会使用或者无法使用手机APP的问题。

来自主题: AI技术研报

9532 点击 2024-06-13 21:27

2.5%KV缓存保持大模型90%性能，大模型金字塔式信息汇聚模式探秘｜开源

用KV缓存加速大模型的显存瓶颈，终于迎来突破。北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案，只用2.5%的KV cache，就能保持大模型90%的性能。这下再也不用担心KV占用的显存容量过高，导致显卡不够用了。

来自主题: AI技术研报

5920 点击 2024-06-13 21:21

GPT-4尚未出现自我意识！这项研究用「上帝之点」解读，迈向AGI局限无法克服

中国科学院大学和中科数字大脑研究院的研究人员，引入了上帝之点和死亡之点，构建了智能体演化的动力学模型——Flight Model。他们发现，以GPT-4为代表的AI已经接近了人类成人智能水平，但尚未表现出自我意识证据。并且，具有自我意识到AGI，在科学原理上存在目前无法克服的局限性。

来自主题: AI技术研报

7476 点击 2024-06-13 20:06

打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym

AI通用智能体的自我进化能力，并非遥不可及。

来自主题: AI技术研报

8757 点击 2024-06-13 10:41

改变传统，吴恩达开源了一个机器翻译智能体项目

前段时间，随着 GPT-4o、Sora 的陆续问世，多模态模型在生成式方面取得的成绩无可否认，而人工智能的下一个革命性突破将从何处涌现，引起了大量学者和相关人士的关注。

来自主题: AI技术研报

8327 点击 2024-06-13 10:07

苹果智能背后模型公布：3B模型优于Gemma-7B，服务器模型媲美GPT-3.5-Turbo

在刚刚结束的全球开发者大会上，苹果宣布了 Apple intelligence，这是一款深度集成于 iOS 18、iPadOS 18 和 macOS Sequoia 的全新个性化智能系统。

来自主题: AI技术研报

5019 点击 2024-06-13 10:01

手机流畅运行470亿大模型：上交大发布LLM手机推理框架PowerInfer-2，提速29倍

苹果一出手，在手机等移动设备上部署大模型不可避免地成为行业关注焦点。

来自主题: AI技术研报

6910 点击 2024-06-12 15:33

全华人团队推出多模态大模型新基准，GPT-4o准确率仅为65.5%，所有模型最易犯感知错误

GPT-4o再次掀起多模态大模型的浪潮。

来自主题: AI技术研报

8389 点击 2024-06-12 15:17

GPT-4o更容易越狱？北航&南洋理工上万次测试给出详细分析

GPT-4o，比上一代更容易被越狱攻击了？

来自主题: AI技术研报

9581 点击 2024-06-12 15:11

捣鼓了一年的LLM,我们学到了啥——Part II

一个常被许多领导者引用、但很可能是被杜撰出来的名言是：“外行谈战略和战术，内行谈运营。”战术视角看到的是一个个独特的难题，而运营视角看到的是组织中需要需要改变的不协调的模式。战略视角看到的是机会，运营视角则看的是挑战。

来自主题: AI技术研报

9347 点击 2024-06-12 15:05

捣鼓了一年的LLM应用,我们学到了啥——Part I

之前分享了我们在运营LLM应用时磨练出来的战术(tactics)【指之前的Part I 和Part II两篇文章】。战术是具体的：是为实现目标而采取的具体行动。我们还分享了对运营（Operations）的看法：为了执行战术，达到目标，而制定的更高层次的流程。

来自主题: AI技术研报

9060 点击 2024-06-11 20:02

拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开

国产大模型「日日新 5.0」已经在权威主流评测中鲨疯了。变强的背后原因竟是，来自商汤自研中文Embedding模型——Piccolo2。这是首个对标OpenAI向量长度的模型。

来自主题: AI技术研报

9846 点击 2024-06-11 16:16

GPT-4搞不定的图推理，港科大7B模型搞定｜KDD2024

大模型执行图推理任务，我们是希望大模型仅仅给出结果，还是在给出准确答案的同时，输出详细的推理过程？

来自主题: AI技术研报

8997 点击 2024-06-11 16:09

全面超越Transformer！清华蚂蚁推出纯MLP架构，长短程时序预测大幅提升

Transformer很强，Transformer很好，但Transformer在处理时序数据时存在一定的局限性。

来自主题: AI技术研报

9166 点击 2024-06-11 16:05

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。

来自主题: AI技术研报

8991 点击 2024-06-11 10:08

用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

大型语言模型（LLM）的一个主要特点是「大」，也因此其训练和部署成本都相当高，如何在保证 LLM 准确度的同时让其变小就成了非常重要且有价值的研究课题。

来自主题: AI技术研报

9181 点击 2024-06-11 10:06

CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型

360 度场景生成是计算机视觉的重要任务，主流方法主要可分为两类，一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识，这类方法无法有效生成多样的 360 度视角，导致场景内主要的目标被多次重复生成，如图 1 的床和雕塑。

来自主题: AI技术研报

9128 点击 2024-06-11 10:02

i人小助手：Meta推出多模态对话图，帮你轻松识别社交状态

近年来兴起的第一人称视角视频研究为理解人类社交行为提供了无法取代的直观视角，然而，绝大多数的既往工作都侧重于分析与摄像机佩戴者相关的行为，并未关注处于社交场景中其他社交对象的状态。

来自主题: AI技术研报

8659 点击 2024-06-10 15:02

偏微分方程有了基础模型：样本需求数量级减少，14项任务表现最佳

偏微分方程（PDEs）被称为物理学的语言，因为它们可以在广泛的时间 - 空间尺度上对各种各样的物理现象进行数学建模。常用的有限差分、有限元等数值方法通常用于近似或模拟偏微分方程。

来自主题: AI技术研报

8744 点击 2024-06-10 14:59

两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构LAION的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了LLM基准测试的盲区。

来自主题: AI技术研报

9261 点击 2024-06-10 14:23

GPT-4欺骗人类高达99.16%惊人率！PNAS重磅研究曝出，LLM推理越强欺骗值越高

最近，德国研究科学家发表的PANS论文揭示了一个令人担忧的现象：LLM已经涌现出「欺骗能力」，它们可以理解并诱导欺骗策。而且，相比前几年的LLM，更先进的GPT-4、ChatGPT等模型在欺骗任务中的表现显著提升。

来自主题: AI技术研报

8748 点击 2024-06-09 18:23