AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
Sora训练数据疑暴露,网友:绝对用了UE5

Sora训练数据疑暴露,网友:绝对用了UE5

Sora训练数据疑暴露,网友:绝对用了UE5

好消息,好消息,真·Sora视频上新了!走过路过不要错过!

来自主题: AI资讯
8177 点击    2024-02-25 15:45
补齐Transformer规划短板,田渊栋团队的Searchformer火了

补齐Transformer规划短板,田渊栋团队的Searchformer火了

补齐Transformer规划短板,田渊栋团队的Searchformer火了

最近几年,基于 Transformer 的架构在多种任务上都表现卓越,吸引了世界的瞩目。使用这类架构搭配大量数据,得到的大型语言模型(LLM)等模型可以很好地泛化用于真实世界用例。

来自主题: AI技术研报
8041 点击    2024-02-24 14:51
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向

模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向

模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向

在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。

来自主题: AI技术研报
6049 点击    2024-02-22 15:31
爆火Sora背后的技术,一文综述扩散模型的最新发展方向

爆火Sora背后的技术,一文综述扩散模型的最新发展方向

爆火Sora背后的技术,一文综述扩散模型的最新发展方向

为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。

来自主题: AI技术研报
10354 点击    2024-02-22 15:25
金融研报数据魔改Yi-34B & DeepSeek 67B 谁更强? Deepmoney金融大模型魔改方案分享&在线实测

金融研报数据魔改Yi-34B & DeepSeek 67B 谁更强? Deepmoney金融大模型魔改方案分享&在线实测

金融研报数据魔改Yi-34B & DeepSeek 67B 谁更强? Deepmoney金融大模型魔改方案分享&在线实测

在微调大型模型的过程中,一个常用的策略是“知识蒸馏”,这意味着借助高性能模型,如GPT-4,来优化性能较低的开源模型。这种方法背后隐含的哲学理念与logos中心论相似,把GPT-4等模型视为更接近唯一的逻辑或真理的存在。

来自主题: AI资讯
8574 点击    2024-02-21 16:49
离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千

离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千

离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千

过去几天,OpenAI 非常热闹,先有 AI 大牛 Andrej Karpathy 官宣离职,后有视频生成模型 Sora 撼动 AI 圈。

来自主题: AI资讯
9969 点击    2024-02-18 15:37
让视觉语言模型搞空间推理,谷歌又整新活了

让视觉语言模型搞空间推理,谷歌又整新活了

让视觉语言模型搞空间推理,谷歌又整新活了

视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。

来自主题: AI技术研报
8973 点击    2024-02-18 15:10
人类偏好优化算法哪家强?跟着高手一文学懂DPO、IPO和KTO

人类偏好优化算法哪家强?跟着高手一文学懂DPO、IPO和KTO

人类偏好优化算法哪家强?跟着高手一文学懂DPO、IPO和KTO

尽管收集人类对模型生成内容的相对质量的标签,并通过强化学习从人类反馈(RLHF)来微调无监督大语言模型,使其符合这些偏好的方法极大地推动了对话式人工智能的发展。

来自主题: AI技术研报
8445 点击    2024-02-18 12:25