中科大等意外发现:大模型不看图也能正确回答视觉问题!
中科大等意外发现:大模型不看图也能正确回答视觉问题!大模型不看图,竟也能正确回答视觉问题?!中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是闭源还是开源,语言模型还是多模态,竟然只根据在多模态基准MMMU测试中的问题和选项文本,就能获得不错的成绩。
搜索
大模型不看图,竟也能正确回答视觉问题?!中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是闭源还是开源,语言模型还是多模态,竟然只根据在多模态基准MMMU测试中的问题和选项文本,就能获得不错的成绩。
来自UC berkeley的研究人员开源了首个世界模型,多模态性能优秀,长视频理解吊打GPT-4,同时将上下文长度增加到百万级别
不到 24 小时,Star 量突破 1400。
Anthropic 发现一种新型越狱漏洞并给出了高效的缓解方案,可以将攻击成功率从 61% 降至 2%。
苹果公司发布了一款参数量仅为80M的最新模型——ReALM,能够将各种形式的上下文转换为文本进行理解,包括解析屏幕、多轮对话以及上下文引用,提升了Siri等智能助手的反应速度和智能程度。
世界首个AI程序员Devin诞生不足一个月,普林斯顿就推出了全新的「开源版本」——SWE-agent!在GPT-4的加持下,debug只需93秒,准确率几乎不相上下。
用GPT-4打造的AI程序员,结果轻松追平Devin!普林斯顿打造的开源SWE-agent,直接开箱即用——修复GitHub存储库中真实bug。在25%的SWE-bench测试集上,它实现了与Devin相似的准确度—— 解决了12.29%的问题。
大模型厂商在上下文长度上卷的不可开交之际,一项最新研究泼来了一盆冷水——Claude背后厂商Anthropic发现,随着窗口长度的不断增加,大模型的“越狱”现象开始死灰复燃。无论是闭源的GPT-4和Claude 2,还是开源的Llama2和Mistral,都未能幸免。
今天,特工女巫将为大家带来 ThinkAny,这是一款由个人独立开发但小而美的 AI 搜索产品,一起看看它的产品功能设计和技术实现。
OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒地的巨响。