AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新

为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新

为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新

4 月 26 日,科大讯飞发布讯飞星火大模型 V3.5 的功能上新,其中一个重点就是面向用户各种场景中高效获取信息需求,发布首个长文本、长图文、长语音的大模型,能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习,还能够结合各种行业场景知识给出专业、准确回答。

来自主题: AI技术研报
7211 点击    2024-04-26 17:15
对话王田苗:万亿市场之下,大模型+机器人还有四大问题未解决 | 硬氪专访

对话王田苗:万亿市场之下,大模型+机器人还有四大问题未解决 | 硬氪专访

对话王田苗:万亿市场之下,大模型+机器人还有四大问题未解决 | 硬氪专访

今年3月,一段两分半钟的视频点击量破百万。没有太多花哨的情节,白色背景前,一个人形机器人遵照人类指令,递给对方苹果,归置好桌上的杯子和餐碟,并解释这样做的原因。

来自主题: AI技术研报
11451 点击    2024-04-26 17:00
姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

姚前:行业大模型语料库建设与治理

大模型语料是指用于训练和评估大模型的一系列文本、语音或其他模态的数据。语料规模和质量对大模型性能以及应用的深度、广度有着至关重要的影响。

来自主题: AI技术研报
9457 点击    2024-04-26 16:56
在钉钉AI Agent 商店,寻找未来TOB 应用的答案

在钉钉AI Agent 商店,寻找未来TOB 应用的答案

在钉钉AI Agent 商店,寻找未来TOB 应用的答案

基于大模型知识库的问答类应用早已在全球溢满,不再成为新鲜事。AI Agent项目成为新的锚点,承载着创业者、投资人、从业者对未来应用的厚望。

来自主题: AI技术研报
8561 点击    2024-04-26 13:06
揭秘腾讯混元大模型:400+场景落地,协作SaaS产品全面接入

揭秘腾讯混元大模型:400+场景落地,协作SaaS产品全面接入

揭秘腾讯混元大模型:400+场景落地,协作SaaS产品全面接入

进入2024,大模型的风向变了。 当初“百模大战”时,只要简单粗暴拿个Demo搞MaaS(模型即服务),也就是让用户直接和大模型交互就足以上牌桌。

来自主题: AI技术研报
8098 点击    2024-04-26 12:55
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

近期,多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展,尤其是多个闭源模型,例如:GPT4V 和 Gemini,甚至在某些方面展现了超越人类能力的表现。

来自主题: AI技术研报
10280 点击    2024-04-25 19:32
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型

仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型

仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型

Snowflake 发布高「企业智能」模型 Arctic,专注于企业内部应用。

来自主题: AI技术研报
8471 点击    2024-04-25 19:28
Open-Sora全面开源升级:支持16s视频生成和720p分辨率

Open-Sora全面开源升级:支持16s视频生成和720p分辨率

Open-Sora全面开源升级:支持16s视频生成和720p分辨率

Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。

来自主题: AI技术研报
7376 点击    2024-04-25 18:37
首批中文版Llama3模型来了,解释成语、答弱智吧问题

首批中文版Llama3模型来了,解释成语、答弱智吧问题

首批中文版Llama3模型来了,解释成语、答弱智吧问题

最近,Meta 推出了 Llama 3,为开源大模型树立了新的标杆。

来自主题: AI技术研报
11166 点击    2024-04-25 17:25
AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

在人工智能的前沿领域,大语言模型(Large Language Models,LLMs)由于其强大的能力正吸引着全球研究者的目光。在 LLMs 的研发流程中,预训练阶段占据着举足轻重的地位,它不仅消耗了大量的计算资源,还蕴含着许多尚未揭示的秘密。

来自主题: AI技术研报
8129 点击    2024-04-25 17:22
硬控设计人一分钟,加持大模型的Adobe,PS起来更香了

硬控设计人一分钟,加持大模型的Adobe,PS起来更香了

硬控设计人一分钟,加持大模型的Adobe,PS起来更香了

刚刚,Adobe 正式宣布推出新的图像生成模型 Firefly Image 3,即日起在 Firefly Web 应用程序、Adobe Photoshop 和 Adobe InDesign 中提供测试版,并在「今年晚些时候」全面上市,旨在让创作者能够提高工作效率,生成更高质量、更详细的图像。

来自主题: AI技术研报
11346 点击    2024-04-25 17:19
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。

来自主题: AI技术研报
10292 点击    2024-04-25 17:17
加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

最近,扩散模型(Diffusion Model)在图像生成领域取得了显著的进展,为图像生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果,扩散模型在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。

来自主题: AI技术研报
8235 点击    2024-04-25 17:13
MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型 abab 6.5。根据 MiniMax 发布的技术报告,在各类核心能力测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。

来自主题: AI技术研报
10656 点击    2024-04-25 17:06
快速低成本构建应用,浪潮信息把企业大模型落地门槛打下来了

快速低成本构建应用,浪潮信息把企业大模型落地门槛打下来了

快速低成本构建应用,浪潮信息把企业大模型落地门槛打下来了

百模大战愈演愈烈,各大厂商卷出了不同形态: 有的大秀肌肉,在文本长度上一骑绝尘;有的与搜索等功能深度融合,成为了全能型AI助手……琳琅满目的大模型产品令人目不暇接。

来自主题: AI技术研报
4168 点击    2024-04-25 16:46
一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕

一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕

一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕

在人物说话的过程中,每一个细微的动作和表情都可以表达情感,都能向观众传达出无声的信息,也是影响生成结果真实性的关键因素。

来自主题: AI技术研报
7314 点击    2024-04-24 17:26
Meta智能眼镜用上多模态Llama 3!国内AR眼镜机会来了

Meta智能眼镜用上多模态Llama 3!国内AR眼镜机会来了

Meta智能眼镜用上多模态Llama 3!国内AR眼镜机会来了

科幻大片中的AR黑科技,竟走进了现实! 就在刚刚,Meta自家的雷朋智能眼镜,已经开始支持多模态版的Llama 3了!要知道,Llama 3的开源版本还没支持多模态呢。

来自主题: AI技术研报
7713 点击    2024-04-24 17:22
AI成功改写人类DNA,全球首个基因编辑器震撼开源!近5倍蛋白质宇宙LLM全生成

AI成功改写人类DNA,全球首个基因编辑器震撼开源!近5倍蛋白质宇宙LLM全生成

AI成功改写人类DNA,全球首个基因编辑器震撼开源!近5倍蛋白质宇宙LLM全生成

AI,能够重写人类基因组了? 就在刚刚,初创公司Profluent宣布,完全由AI设计的基因编辑器,已经成功编辑了人类细胞中的DNA。

来自主题: AI技术研报
6882 点击    2024-04-24 17:18
CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

图像融合的目的是将同一场景中不同传感器捕获的多源图像的互补信息整合到单个图像上。这种方式通常被用于提取图片重要信息和提高视觉质量。

来自主题: AI技术研报
5362 点击    2024-04-24 10:00
加州理工华人用AI颠覆数学证明!提速5倍震惊陶哲轩,80%数学步骤全自动化

加州理工华人用AI颠覆数学证明!提速5倍震惊陶哲轩,80%数学步骤全自动化

加州理工华人用AI颠覆数学证明!提速5倍震惊陶哲轩,80%数学步骤全自动化

Lean Copilot,让陶哲轩等众多数学家赞不绝口的这个形式化数学工具,又有超强进化了? 就在刚刚,加州理工教授Anima Anandkumar宣布,团队发布了Lean Copilot论文的扩展版本,并且更新了代码库。

来自主题: AI技术研报
7750 点击    2024-04-23 15:01
微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人

微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人

微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人

在人物说话的过程中,每一个细微的动作和表情都可以表达情感,都能向观众传达出无声的信息,也是影响生成结果真实性的关键因素。

来自主题: AI技术研报
8027 点击    2024-04-23 14:43
对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

当下,AI代码生成领域正在野蛮式生长,巨头涌入,AI员工频频上线企业;首个AI程序员Devin被曝造假…… 面对风起云涌的代码生成变革,李建国给出了这样一个明确论断。

来自主题: AI技术研报
4347 点击    2024-04-23 14:30