
中科大等意外发现:大模型不看图也能正确回答视觉问题!
中科大等意外发现:大模型不看图也能正确回答视觉问题!大模型不看图,竟也能正确回答视觉问题?!中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是闭源还是开源,语言模型还是多模态,竟然只根据在多模态基准MMMU测试中的问题和选项文本,就能获得不错的成绩。
大模型不看图,竟也能正确回答视觉问题?!中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是闭源还是开源,语言模型还是多模态,竟然只根据在多模态基准MMMU测试中的问题和选项文本,就能获得不错的成绩。
随着现代医学的进步,机器人辅助手术技术日益成为业界焦点。手术机器人不仅提升了手术的精準度,也為为疗专业人员及患者带来了更优质的治疗经验
以上效果来自一个新的图生视频模型Follow-Your-Click,由腾讯混元、清华大学和香港科技大学联合推出。任意一张照片输入模型,只需要点击对应区域,加上少量简单的提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。
近日,来自香港大学的Jihan Yang和纽约大学的谢赛宁等人发表了新的成果,将真实世界的地图、街景等各种信息融入Agent所在的虚拟世界,为智能体的未来赋予了无限可能。
近日,获悉多模态大模型初创公司香港 Weitu AI 公司完成了天使轮融资,天使轮估值一亿美金。天使轮投资人为拥有全球数亿月活的互联网科技公司和著名天使投资人。据了解,该公司目前刚刚成立,超过半数成员来自北美名校毕业并拥有海外大厂的工作经验。
最近来自香港科技大学(HKUST)、南洋理工大学(NTU)与加利福尼亚大学洛杉矶分校(UCLA)的研究者们提供了新的思路:他们发现大语言模型如 ChatGPT 可以理解传感器信号进而完成物理世界中的任务。该项目初步成果发表于 ACM HotMobile 2024。
一家跨国公司香港分公司的财务人员被Deepfake假CFO骗走了1.8个亿人民币。通过视频会议,骗子使用了模仿真人的数字克隆技术,以及虚拟形象下达指令进行诈骗。
这几天,古老的AI应用——「AI换脸」多次破圈,屡屡登上热搜。
由香港科技大学(港科大)领导的一支国际研究团队,以人工智能技术(AI)研发出一个机器学习模型,能有效促进全球农田的氨减排。
来自香港大学、阿里巴巴和蚂蚁集团的新成果 Anydoor 为图片编辑打开了一扇「任意门」。任何物品,只需要一张照片,就能被传送到另一张图片的世界中。