AI资讯新闻榜单内容搜索-Mark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Mark
NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

市场不是机器,而是人群;不是公式,而是故事。TwinMarket让AI学会讲述这些故事。 1994年,美国圣塔菲研究所(Santa Fe Institute)推出了一个野心勃勃的项目:人工股票市场(A

来自主题: AI技术研报
6788 点击    2025-11-16 10:40
Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Sasha Rush 在分享开头就提到,Cursor Composer 在他们的内部 benchmark 上的表现几乎与最好的 Frontier 模型(前沿模型)持平,并且优于去年夏天发布的所有模型。它的表现明显好于最好的开源模型,以及那些被标榜为"快速"的模型。

来自主题: AI技术研报
7769 点击    2025-11-11 11:12
他发明了价值万亿的AGI,如今穷困潦倒

他发明了价值万亿的AGI,如今穷困潦倒

他发明了价值万亿的AGI,如今穷困潦倒

1997年首提AGI的马克·古布鲁德(Mark Gubrud),从地下室论文到被遗忘的命名者;而今AGI成巨头博弈与数千亿美元资本的关键开关,微软与OpenAI以其为合同枢纽与控制权杠杆,标准却愈发模糊。

来自主题: AI资讯
6418 点击    2025-11-05 09:56
Cursor 联创宣布离职,公开声明仅写了 72 个单词

Cursor 联创宣布离职,公开声明仅写了 72 个单词

Cursor 联创宣布离职,公开声明仅写了 72 个单词

美国当地时间 10 月 29 日,据外媒消息,AI 编码工具 Cursor 背后的公司 Anysphere 的联合创始人 Arvid Lunnemark 已离职。Cursor 最初由四位联合创始人创立,除了 Lunnemark 之外,还有 Aman Sanger、Michael Truell 和 Sualeh Asif。

来自主题: AI资讯
6808 点击    2025-10-31 09:39
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 为填补这一空白,复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报
6896 点击    2025-10-23 16:22
AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。

来自主题: AI技术研报
8354 点击    2025-10-23 12:20
6个AI,6万美金,玩真的炒币,DeepSeek赚钱第一名

6个AI,6万美金,玩真的炒币,DeepSeek赚钱第一名

6个AI,6万美金,玩真的炒币,DeepSeek赚钱第一名

这世上有太多 AI benchmark 了,但没有一个 benchmark 能让你心跳加速。 直到近日,AlphaArena 出现了。 这是由初创团队 NOF1 推出的一个「AI 炒币实盘竞技场」,现在已开放全网围观:竞技场地址:https://nof1.ai/

来自主题: AI资讯
8050 点击    2025-10-20 15:32
AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。

来自主题: AI技术研报
6739 点击    2025-10-20 10:13
算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性

算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性

算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性

Mila 和微软研究院等多家机构的一个联合研究团队却另辟蹊径,提出了一个不同的问题:如果环境从一开始就不会造成计算量的二次级增长呢?他们提出了一种新的范式,其中策略会在基于一个固定大小的状态上进行推理。他们将这样的策略命名为马尔可夫式思考机(Markovian Thinker)。

来自主题: AI技术研报
8505 点击    2025-10-11 11:31
卡奥斯位居IDC中国工业大模型及智能体解决方案领导者

卡奥斯位居IDC中国工业大模型及智能体解决方案领导者

卡奥斯位居IDC中国工业大模型及智能体解决方案领导者

近日,全球权威咨询机构IDC发布《IDC MarketScape: 中国工业大模型及智能体解决方案 2025年厂商评估》。报告选取了中国市场18家工业大模型及智能体解决方案的典型服务商进行重点研究,从现有能力和未来战略两个层面对厂商进行评估,为工业企业选择大模型、智能体服务提供了参考。

来自主题: AI资讯
8054 点击    2025-10-01 13:10