字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。
来自主题: AI技术研报
9229 点击 2024-06-17 19:35
当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。
只要一个大模型,就能解决打工人遇到的表格难题!
字节跳动的扣子(coze.cn),给国产大模型们组了个大局—— 在同一个“擂台”上,两个大模型为一组,直接以匿名的方式PK效果!
每家国产大模型都说自己是第一,该信谁的?最近,字节推出了扣子模型广场,全体国产LLM开启大混战!你一票,我一票,谁是第一,大众说了算。投票连小朋友都能参与,模型生态从此彻底从黑盒到白盒。
新方向还是伪需求?
第一款产品——小黄蕉,来自咱们的老朋友字节跳动。 据了解,该商标注册主体与番茄小说是同一个,小黄蕉项目由徐旸带队。 很难想象字节除了豆包,又在内测这样一款 AI 虚拟陪伴产品,还取了这么个“可爱”的名字。
大模型应用开卷,连一向保守的苹果,都已释放出发展端侧大模型的信号。
字节的豆包,悄悄成了国内用户最多的原生 AI 应用。
我是万万没想到,现在的AI内容生态,居然也活成了一种“赛博投喂”的无限循环。
AI教育出海外卷,北京厂商正面硬刚字节、作业帮。