AI技术研报-这里有最前沿的人工智能技术解读

给NeRF开透视眼！稀疏视角下用X光进行三维重建，9类算法工具包全开源 | CVPR 2024

SAX-NeRF框架，一种专为稀疏视角下X光三维重建设计的新型NeRF方法，通过Lineformer Transformer和MLG采样策略显著提升了新视角合成和CT重建的性能。研究者还建立了X3D数据集，并开源了代码和预训练模型，为X光三维重建领域的研究提供了宝贵的资源和工具。

来自主题: AI技术研报

10521 点击 2024-06-20 10:27

AI大佬重磅预测：高阶模型不会开源，软件公司或消失，「单飞」创业者春天来了

深耕科技的早期投资机构蓝驰创投近期将AGI投资观迭代至2.0版本。一些比较亮眼的观点有：未来，软件公司或将消失，GenAI将催生出一大波一人十亿美金初创公司。而且，开源模型的优势也将慢慢褪去，模型应用需要两手抓，还有......

来自主题: AI技术研报

10513 点击 2024-06-20 10:12

黄仁勋提到的机器人世界，还需要AI数据来“调教” | CVPR 2024

本周，CVPR 2024正在美国西雅图拉开序幕。今年CVPR论文投稿数再次创下新纪录，可想而知本届会议的火热。

来自主题: AI技术研报

6257 点击 2024-06-20 10:08

AI生图可“量身定制”了，华为&清华联手打造个性化多模态生成方法PMG

苹果OpenAI官宣合作，GPT-4o加持Siri，让AI个性化生成赛道热度飙升。

来自主题: AI技术研报

9967 点击 2024-06-20 10:08

商汤披露：50篇论文入选CVPR 2024

CVPR正在进行中，中国科研力量再次成为场内外焦点之一。

来自主题: AI技术研报

11668 点击 2024-06-20 09:58

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

AI圈这遍地开花的大好局面，让吃瓜群众们甚是惊喜。

来自主题: AI技术研报

9626 点击 2024-06-19 23:44

单镜头16秒720p高清视频一键生成，开源版Sora又有新惊喜了

潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展，支持无缝产出任意风格的高质量短片，令人惊喜的是，他们选择再给开源社区带来亿点点震撼，继续全部开源。

来自主题: AI技术研报

10616 点击 2024-06-19 23:38

大模型压缩量化方案怎么选？无问芯穹Qllm-Eval量化方案全面评估：多模型、多参数、多维度

基于 Transformer架构的大型语言模型在各种基准测试中展现出优异性能，但数百亿、千亿乃至万亿量级的参数规模会带来高昂的服务成本。例如GPT-3有1750亿参数，采用FP16存储，模型大小约为350GB，而即使是英伟达最新的B200 GPU 内存也只有192GB ，更不用说其他GPU和边缘设备。

来自主题: AI技术研报

10730 点击 2024-06-19 23:30

字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

通过高保真合成语音与真人语音无异。

来自主题: AI技术研报

10062 点击 2024-06-19 23:24

清华等高校推出首个开源大模型水印工具包MarkLLM，支持近10种最新水印算法

本⽂介绍由清华等⾼校联合推出的⾸个开源的⼤模型⽔印⼯具包 MarkLLM。MarkLLM 提供了统⼀的⼤模型⽔印算法实现框架、直观的⽔印算法机制可视化⽅案以及系统性的评估模块，旨在⽀持研究⼈员⽅便地实验、理解和评估最新的⽔印技术进展。通过 MarkLLM，作者期望在给研究者提供便利的同时加深公众对⼤模型⽔印技术的认知，推动该领域的共识形成，进⽽促进相关研究的发展和推⼴应⽤。

来自主题: AI技术研报

9734 点击 2024-06-19 23:19

吴恩达团队新作：多模态多样本上下文学习，无需微调快速适应新任务

本研究评估了先进多模态基础模型在 10 个数据集上的多样本上下文学习，揭示了持续的性能提升。批量查询显著降低了每个示例的延迟和推理成本而不牺牲性能。这些发现表明：利用大量演示示例可以快速适应新任务和新领域，而无需传统的微调。

来自主题: AI技术研报

10441 点击 2024-06-19 23:13

ICLR 2024 Oral | 应对随时间变化的分布偏移，西安大略大学等提出学习时序轨迹方法

在现实世界的机器学习应用中，随时间变化的分布偏移是常见的问题。这种情况被构建为时变域泛化（EDG），目标是通过学习跨领域的潜在演变模式，并利用这些模式，使模型能够在时间变化系统中对未见目标域进行良好的泛化。然而，由于 EDG 数据集中时间戳的数量有限，现有方法在捕获演变动态和避免对稀疏时间戳的过拟合方面遇到了挑战，这限制了它们对新任务的泛化和适应性。

来自主题: AI技术研报

10686 点击 2024-06-19 23:11

Gemini视频推理遥遥领先GPT-4o，Jeff Dean连续转发三次，首个视频多模态基准Video-MME来了

OpenAI和谷歌接连两场发布会，把AI视频推理卷到新高度。但业界还缺少可以全面评估大模型视频推理能力的基准。终于，多模态大模型视频分析综合评估基准Video-MME，全面评估多模态大模型的综合视频理解能力，填补了这一领域的空白。

来自主题: AI技术研报

8061 点击 2024-06-17 23:41

8B模型奥数成绩比肩GPT-4！上海AI Lab出品

只要1/200的参数，就能让大模型拥有和GPT-4一样的数学能力？来自复旦和上海AI实验室的研究团队，刚刚研发出了具有超强数学能力的模型。它以Llama 3为基础，参数量只有8B，却在奥赛级别的题目上取得了比肩GPT-4的准确率。

来自主题: AI技术研报

11029 点击 2024-06-17 23:35

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

一张人像、一段音频参考，就能让霉霉在你面前唱碧昂丝的《Halo》。

来自主题: AI技术研报

12298 点击 2024-06-17 23:26

树莓派上部署RAG！微软Phi-3技术报告揭示「小而美」模型如何诞生

Build大会召开两周之后，微软更新了Phi-3系列模型的技术报告。不仅加入最新的基准测试结果，而且对小模型、高性能的实现机制做出了适当的揭示。

来自主题: AI技术研报

11571 点击 2024-06-17 21:49

《奇点临近》续作来了！雷·库兹韦尔预言人类「永生」，活120岁太短

雷·库兹韦尔即将出版《奇点临近》的全新续作——《奇点更近》。在书中，他更加大胆地承诺，人类可以获得「永生」，库兹韦尔认为在本世纪40-50年代，人类将重建自己的身体和大脑，使其远远超出我们生物体的能力。

来自主题: AI技术研报

8816 点击 2024-06-17 21:45

LLM最全「怪癖」首曝光！马里兰OpenAI等30+学者祭出75页提示报告

大语言模型提示中，竟有不少「怪癖」：重复某些内容，准确性就大大提高；人名变匿名，准确性就大大下降。最近，马里兰OpenAI等机构的30多位研究者，首次对LLM的提示技术进行了大规模系统研究，并发布75页详尽报告。

来自主题: AI技术研报

8790 点击 2024-06-17 21:41

拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」

DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器（NAR）的强大算法推理能力相结合，可以实现更加泛化、稳健、准确的LLM推理。

来自主题: AI技术研报

11187 点击 2024-06-17 21:30

答案抽取正确率达96.88%，xFinder断了大模型「作弊」的小心思

大语言模型（LLM）的迅速发展，引发了关于如何评估其公平性和可靠性的热议。

来自主题: AI技术研报

11203 点击 2024-06-17 19:37

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报

9584 点击 2024-06-17 19:35

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

通过算法层面的创新，未来大语言模型做数学题的水平会不断地提高。

来自主题: AI技术研报

11088 点击 2024-06-17 19:32

AI研究的主要推动力会是什么？ChatGPT团队研究科学家：算力成本下降

AI 研究发展的主要推动力是什么？在最近的一次演讲中，OpenAI 研究科学家 Hyung Won Chung 给出了自己的答案。

来自主题: AI技术研报

10791 点击 2024-06-17 19:30

2024人工智能指数报告（二）：技术性能

过去一年人工智能研究取得了重大突破

来自主题: AI技术研报

2440 点击 2024-06-17 09:51

高质量3D生成最有希望的一集？GaussianCube在三维生成中全面超越NeRF

在三维生成建模的研究领域，现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器，要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人员提出了 GaussianCube，这是一种具有强大拟合能力的显式结构化三维表示，并且可以无缝应用于目前主流的 3D 扩散模型中。

来自主题: AI技术研报

11259 点击 2024-06-16 18:15