AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!

CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!

CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!

3D场景理解让人形机器人「看得见」周身场景,使汽车自动驾驶功能能够实时感知行驶过程中可能出现的情形,从而做出更加智能化的行为和反应。而这一切需要大量3D场景的详细标注,从而急剧提升时间成本和资源投入。

来自主题: AI技术研报
8506 点击    2024-06-23 19:44
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显著,标志着向更加人性化 AI 迈出的关键一步。

来自主题: AI技术研报
4365 点击    2024-06-23 19:39
ACM最新论文戳破大公司「开源」谎言,GenAI时代到底如何定义「开源模型」

ACM最新论文戳破大公司「开源」谎言,GenAI时代到底如何定义「开源模型」

ACM最新论文戳破大公司「开源」谎言,GenAI时代到底如何定义「开源模型」

如何判断一个AI模型是否属于开源阵营?开源or闭源,到底哪种系统才更安全?最近,两位荷兰学者发表的一篇ACM FAccT论文给出了富有卓见的回答。

来自主题: AI技术研报
7028 点击    2024-06-23 19:14
字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。

来自主题: AI技术研报
10160 点击    2024-06-22 23:00
打开黑盒神经网络!港大推出全新「会说话」的推荐系统大模型XRec,从黑盒预测到可解释

打开黑盒神经网络!港大推出全新「会说话」的推荐系统大模型XRec,从黑盒预测到可解释

打开黑盒神经网络!港大推出全新「会说话」的推荐系统大模型XRec,从黑盒预测到可解释

香港大学推出的XRec模型通过融合大型语言模型的语义理解和协同过滤技术,增强了推荐系统的可解释性,使用户能够理解推荐背后的逻辑。这一创新成果不仅提升了用户体验,也为推荐技术的未来发展提供了新方向和动力。

来自主题: AI技术研报
9735 点击    2024-06-21 21:16
零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成本和质量问题。Calibrated Self-Rewarding(CSR)框架通过自我增强学习,利用模型自身输出构造更可靠的偏好数据,结合视觉约束提高学习效率和准确性。

来自主题: AI技术研报
6805 点击    2024-06-21 14:05
清华推出首个通用城市时空预测模型UniST,零样本场景开箱即用|KDD2024

清华推出首个通用城市时空预测模型UniST,零样本场景开箱即用|KDD2024

清华推出首个通用城市时空预测模型UniST,零样本场景开箱即用|KDD2024

城市时空的预测,迎来GPT时刻。 清华大学电子系城市科学与计算研究中心推出了第一个无需自然语言的纯时空通用模型——UniST,首次展示了纯时空模型本身的通用性和可扩展性,研究成果已被KDD2024接收。

来自主题: AI技术研报
9050 点击    2024-06-20 23:21
给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024

给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024

给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024

SAX-NeRF框架,一种专为稀疏视角下X光三维重建设计的新型NeRF方法,通过Lineformer Transformer和MLG采样策略显著提升了新视角合成和CT重建的性能。研究者还建立了X3D数据集,并开源了代码和预训练模型,为X光三维重建领域的研究提供了宝贵的资源和工具。

来自主题: AI技术研报
9125 点击    2024-06-20 10:27
AI大佬重磅预测:高阶模型不会开源,软件公司或消失,「单飞」创业者春天来了

AI大佬重磅预测:高阶模型不会开源,软件公司或消失,「单飞」创业者春天来了

AI大佬重磅预测:高阶模型不会开源,软件公司或消失,「单飞」创业者春天来了

深耕科技的早期投资机构蓝驰创投近期将AGI投资观迭代至2.0版本。一些比较亮眼的观点有:未来,软件公司或将消失,GenAI将催生出一大波一人十亿美金初创公司。而且,开源模型的优势也将慢慢褪去,模型应用需要两手抓,还有......

来自主题: AI技术研报
9787 点击    2024-06-20 10:12
黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024

黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024

黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024

本周,CVPR 2024正在美国西雅图拉开序幕。今年CVPR论文投稿数再次创下新纪录,可想而知本届会议的火热。

来自主题: AI技术研报
5661 点击    2024-06-20 10:08
商汤披露:50篇论文入选CVPR 2024

商汤披露:50篇论文入选CVPR 2024

商汤披露:50篇论文入选CVPR 2024

CVPR正在进行中,中国科研力量再次成为场内外焦点之一。

来自主题: AI技术研报
10324 点击    2024-06-20 09:58
单镜头16秒720p高清视频一键生成,开源版Sora又有新惊喜了

单镜头16秒720p高清视频一键生成,开源版Sora又有新惊喜了

单镜头16秒720p高清视频一键生成,开源版Sora又有新惊喜了

潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展,支持无缝产出任意风格的高质量短片,令人惊喜的是,他们选择再给开源社区带来亿点点震撼,继续全部开源。

来自主题: AI技术研报
9187 点击    2024-06-19 23:38
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度

大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度

大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度

基于 Transformer架构的大型语言模型在各种基准测试中展现出优异性能,但数百亿、千亿乃至万亿量级的参数规模会带来高昂的服务成本。例如GPT-3有1750亿参数,采用FP16存储,模型大小约为350GB,而即使是英伟达最新的B200 GPU 内存也只有192GB ,更不用说其他GPU和边缘设备。

来自主题: AI技术研报
9245 点击    2024-06-19 23:30
清华等高校推出首个开源大模型水印工具包MarkLLM,支持近10种最新水印算法

清华等高校推出首个开源大模型水印工具包MarkLLM,支持近10种最新水印算法

清华等高校推出首个开源大模型水印工具包MarkLLM,支持近10种最新水印算法

本⽂介绍由清华等⾼校联合推出的⾸个开源的⼤模型⽔印⼯具包 MarkLLM。MarkLLM 提供了统⼀的⼤模型⽔印算法实现框架、直观的⽔印算法机制可视化⽅案以及系统性的评估模块,旨在⽀持研究⼈员⽅便地实验、理解和评估最新的⽔印技术进展。通过 MarkLLM,作者期望在给研究者提供便利的同时加深公众对⼤模型⽔印技术的认知,推动该领域的共识形成,进⽽促进相关研究的发展和推⼴应⽤。

来自主题: AI技术研报
8568 点击    2024-06-19 23:19