AI资讯新闻榜单内容搜索-编码器

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 编码器
超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

多模态对齐模型借助对比学习在检索与生成任务中大放异彩。最新趋势是用冻结的大语言模型替换自训文本编码器,从而在长文本与大数据场景中降低算力成本。LIFT首次系统性地剖析了此范式的优势来源、数据适配性、以及关键设计选择,在组合语义理解与长文本任务上观察到大幅提升。

来自主题: AI技术研报
5847 点击    2025-07-03 11:00
DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制

DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制

DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制

推理模型与普通大语言模型有何本质不同?它们为何会「胡言乱语」甚至「故意撒谎」?Goodfire最新发布的开源稀疏自编码器(SAEs),基于DeepSeek-R1模型,为我们提供了一把「AI显微镜」,窥探推理模型的内心世界。

来自主题: AI技术研报
5859 点击    2025-04-19 15:29
4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

当前,所有主流的视觉基础模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下进行预训练。对比人类视觉系统可以轻松达到 10K 等效分辨率,这种低分辨率预训练极大地限制了视觉模型对于高清细节的理解能力。

来自主题: AI技术研报
5920 点击    2025-04-17 13:54
MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

MIT三人团队:用Transformer解决经验贝叶斯问题,比经典方法快100倍

Transformer 很成功,更一般而言,我们甚至可以将(仅编码器)Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布(iid)采用假设构建的,因此很自然可以尝试将 Transformer 用于它们。

来自主题: AI技术研报
6041 点击    2025-03-02 13:22
ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队,专注于开源语音基础引擎研发,从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路,旨在提高智能语音任务的准确率和效率。

来自主题: AI技术研报
5813 点击    2025-02-07 16:02
OpenAI Cusor 已破解低调使用

OpenAI Cusor 已破解低调使用

OpenAI Cusor 已破解低调使用

Cusor,一个AI编码器,如果仅仅是一个编码器,在chatGPT,百度,阿里,腾讯,字节等众多同类AI编辑器中不是最早的AI编辑器,也不是最先AI赋能的插件或者程序,但是一个支持自然语言,更适合程序员体质的Cusor凭什么脱颖而出?

来自主题: AI资讯
6421 点击    2025-01-16 13:57
港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。

来自主题: AI技术研报
5047 点击    2024-12-30 13:51
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL 提出了使用生成式视觉编码器 Florence-2 作为多模态模型的视觉信息输入,克服了传统视觉编码器(如 CLIP)仅提供单一视觉表征而往往忽略图片中关键的局部信息。

来自主题: AI技术研报
7127 点击    2024-12-18 14:21
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。

来自主题: AI技术研报
8459 点击    2024-11-27 16:50