AI资讯新闻榜单内容搜索-Token

7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

为什么说理解长视频难如 “大海捞针”？

来自主题: AI技术研报

10226 点击 2024-07-14 13:38

微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。

来自主题: AI技术研报

7081 点击 2024-07-09 17:24

下一代视觉模型会摒弃patch吗？Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构，让Transformer直接学习单个像素而不是16×16的patch，结果在多个下游任务中取得了全面超越ViT模型的性能。

来自主题: AI技术研报

5162 点击 2024-07-09 16:03

大模型之争，到了不只是拼技术的时刻。

来自主题: AI资讯

8629 点击 2024-07-09 00:16

只需Image Tokenizer，Llama也能做图像生成了，而且效果超过了扩散模型。

来自主题: AI资讯

9636 点击 2024-07-04 11:09

该来的还是来了。

来自主题: AI资讯

9784 点击 2024-06-25 18:15

今天凌晨，OpenAI 突然宣布终止对中国提供 API 服务，进一步收紧国内开发者访问 GPT 等高水平大模型。国内开发者真是太难了。

来自主题: AI资讯

9008 点击 2024-06-25 18:12

在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RLHF）来管理这些模型，成效显著，标志着向更加人性化 AI 迈出的关键一步。

来自主题: AI技术研报

4778 点击 2024-06-23 19:39

在生成式模型的迅速发展中，Image Tokenization 扮演着一个很重要的角色，例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间（latent space），使得生成高分辨率图像更有效率。

来自主题: AI技术研报

10769 点击 2024-06-22 23:00

当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报

8998 点击 2024-06-17 19:35