
单帧标注视频就能学到片段特征,达到全监督性能!华科拿下时序行为检测新SOTA|AAAI24
单帧标注视频就能学到片段特征,达到全监督性能!华科拿下时序行为检测新SOTA|AAAI24如何从一段视频中找出感兴趣的片段?时序行为检测(Temporal Action Localization,TAL)是一种常用方法。过去TAL中的建模是片段甚至实例级的,而现在只要视频里的一帧就能实现,效果媲美全监督。
如何从一段视频中找出感兴趣的片段?时序行为检测(Temporal Action Localization,TAL)是一种常用方法。过去TAL中的建模是片段甚至实例级的,而现在只要视频里的一帧就能实现,效果媲美全监督。
大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。
Creatify是一个使用人工智能技术生成高质量营销视频的应用程序。用户只需输入产品链接或上传相关描述和图片,Creatify即可生成引人注目的视频广告。
12 月 16 日-17 日,由极客公园主办、751 联合主办的「极客公园创新大会 2024」(GeekPark Innovation Festival,以下简称「IF」),在北京 751 园区·传导空间成功举办。这也是 IF 大会时隔两年后再次回到北京举办。
甲方说的话太模糊,让你全靠想象?最新模型Creative Agents帮你实现创造式任务!
随着大型语言模型(LLM)的发展,从业者面临更多挑战。如何避免 LLM 产生有害回复?如何快速删除训练数据中的版权保护内容?如何减少 LLM 幻觉(hallucinations,即错误事实)? 如何在数据政策更改后快速迭代 LLM?这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下,对于 LLM 的安全可信部署至关重要。
本文中,上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态医疗基础模型,首次支持 2D/3D 放射影像输入。
当地时间周六,The Information援引两位知情人士报道,谷歌已将人工智能模型Gemini的发布时间推迟到2024年1月份。
今年 4 月 7 日,斯坦福大学发表的《Generative Agents: Interactive Simulacra of Human Behavior》论文出来之后的几天内,其中提到了一个很有趣的细节是信息的传递:一个 agent 想要举办情人节派对的消息会在小镇中逐渐扩散开来。
Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。