AI模型守法率提升11%,港科大首次用法案构建安全benchmark
AI模型守法率提升11%,港科大首次用法案构建安全benchmark香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。
香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。
这世上有太多 AI benchmark 了,但没有一个 benchmark 能让你心跳加速。 直到近日,AlphaArena 出现了。 这是由初创团队 NOF1 推出的一个「AI 炒币实盘竞技场」,现在已开放全网围观:竞技场地址:https://nof1.ai/
美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。
利用人类皮肤细胞也能造出 AI 处理器?一家名为 FinalSpark 的瑞士公司,认为生物计算是 AI 的下一次进化飞跃。该公司开发了一款生物处理器,这些处理器利用人体神经元来代替传统的硅基芯片,使用由人类皮肤细胞培育出的类脑器官作为计算单元。
英伟达桌面超算,邪修玩法来了!两台DGX Spark串联一台苹果Mac Studio,就能让大模型推理速度提升至2.77倍。
英伟达面向个人的AI超算DGX Spark已上市!128GB统一内存(常规系统内存+GPU显存),加上允许将两台DGX Spark连起来,直接可以跑起来405B的大模型(FP4精度),而这已经逼近目前开源的最大模型!如此恐怖的实力却格外安静优雅,大小与Mac mini相仿,3999美元带回家!
今天星舰第十一飞圆满收官,没想到黄仁勋也闪现到了现场。 原来,黄仁勋亲自飞到了德州的星际基地(Starbase),在冲天的星舰旁边,就是为了把一台刚出炉的新「核弹」交到了马斯克手上。 这就是大家从年初
Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径,提出了一个不同的问题:如果环境从一开始就不会造成计算量的二次级增长呢?他们提出了一种新的范式,其中策略会在基于一个固定大小的状态上进行推理。他们将这样的策略命名为马尔可夫式思考机(Markovian Thinker)。
近日,全球权威咨询机构IDC发布《IDC MarketScape: 中国工业大模型及智能体解决方案 2025年厂商评估》。报告选取了中国市场18家工业大模型及智能体解决方案的典型服务商进行重点研究,从现有能力和未来战略两个层面对厂商进行评估,为工业企业选择大模型、智能体服务提供了参考。
采访时间不到1小时,信息密度却堪称爆炸! OpenAI首席科学家Jakub Pachocki和首席研究官Mark Chen开启同台爆料模式:氛围编码的下一步或许是氛围研究(Vibe Researching);