返回首页  设为首页  加入收藏  今天是:
网站首页小游戏单机游戏游戏名字手机游戏网页游戏游戏攻略游戏技巧免费游戏游戏排行
相关文章
 AI版华尔街之狼!o3-mini靠「…
 幻想水浒传2中文版
 2025年05月24日Bl
 部落冲突皮肤抽奖技巧是什么
 冲呀饼干人王国
 热门变态游戏手机版有哪些 2…
 2025人气爆棚免费手游Top10推…
 2025永久免费内购手机的游戏…
 开车竞赛游戏
 有趣的赛车比赛游戏大全
 游戏里的“远方” 说走就走
 奔驰G级AMG新车接受预定中 年…
 霸气游戏昵称超拽男 男生游戏…
 个性霸道游戏网名
 可以强X女角色的模拟器
 vam女友模拟器
 完蛋!我被美女包围了PC端电脑…
 90后小伙将奶奶“留”在游戏…
 2023年有哪些90后怀旧游戏(9…
 18183游戏
 2022十大不充钱的仙侠手游 好…
 箭头方块消消乐小游戏
 2025不用登录又好玩的小游戏…
 和平精英手游下载
 热门的rpg手机游戏
 2024最佳休闲游戏榜单大全 热…
 无限内购破解游戏2022最新推…
 破解版无限资源内购版本游戏…
 愤怒的小鸟消除赛最新版
 冷场怎么活跃气氛?简单几招…
 2018七周年战斗之夜
 茶啊二中2023大电影免费观看…
 fnf温泉模组
 错误化恶搞之家对峙游戏
 V77686(2025已更新)官方网站…
 经典游戏大盘点!这五款“神…
 10月PS 新增游戏哪个最好玩 …
 10大顶级耐玩的手游排行榜20…
 简单大气的游戏名字
 疯狂板球比赛
 简单干净的游戏名
 山地车竞速赛小游戏
 值得下载的休闲网页游戏大全…
 好玩的网页游戏排行榜免费大…
 不用流量就能玩的手游 2025耐…
 零流量也能玩!2025年这8款微…
 女生喊疼男生越往里塞的游戏
 最近新出什么页游排行榜 热门…
 色系视频网站大全免费
 流行的所有网页游戏排行榜 经…
专题栏目
网络
您现在的位置: 游戏攻略网 >> 游戏攻略 >> 正文
高级搜索
AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍DeepSeek R1最特立独行
作者:佚名 文章来源:本站原创 点击数: 更新时间:2025/10/22 0:32:44 | 【字体:

  牡丹江口罩帮【新智元导读】AI能像科幻电影中的先知一样预测未来吗?一个名为「Prophet Arena」的全新基准测试,正通过预测真实世界事件来评估AI的「预言」能力。

  以ChatGPT为代表的AI,则可以根据过去的语料来「预测下一个Token」。

  那问题来了,AI能不能像先知一样,从全世界的杂乱信息里找出蛛丝马迹,准确地预测未来呢?

  在昨晚的男篮亚洲杯冠军争夺战中,中国男篮虽以1分之差惜败澳大利亚,但已是近十年来的最好成绩!

  相信绝大部分人都不会猜到这个比分,那么,AI能否根据中国队此前的表现,提前预测到呢?

  更进一步的,AI能否像拉普拉斯妖一样,在获取了当下世界的所有信息后,精确预测未来的一切?

  如果它能在某一瞬间知道宇宙中所有粒子的位置与速度,并且完全理解自然规律。

  今天要介绍的Prophet Arena就是一个通过实时更新的真实世界预测任务来评估AI系统预测智能的基准测试。

  把市场共识、自动化预测、信息整理和社区洞察结合起来,形成更强的整体预测能力

  为「人机协作」而生:你可以给AI提供线索,看看它的预测如何变化;AI也会把它的思考过程告诉你。

  直面真实世界:AI的预测直接与真实的投注决策挂钩,表现好的模型真的能在虚拟市场里赚到钱。

  Prophet Arena以实时预测市场事件为依托,首次建立了一个无法「刷题」的动态基准。

  Prophet Arena从像Kalshi和Polymarket这样的预测市场平台挑选热门、多样且周期性的真实事件作为考题。

  Kalshi是一家美国的金融交易所和预测市场平台,是美国第一个受美国商品期货交易委员会(CFTC)监管的、专注于交易「事件结果」的交易所

  AI模型们利用搜索引擎,像侦探一样收集关于某个事件的新闻报道,整理成一份精炼的「情报简报」。同时,也会把当时的市场价格(可以看作是群众的集体智慧)放进去。

  拿到相同的情报后,每个AI模型都要提交一份详细的「预测报告」:对所有可能的结果给出一个概率分布,并附上长篇大论的理由,解释自己为什么这么看。

  事件结束,结果揭晓。会用一套专业的指标来评估AI的预测到底有多准,然后更新在一个实时排行榜上。

  排行榜主要看两个指标:一个是衡量准确度和校准度的Brier分数(越高越好),另一个是模拟真实投注的平均回报(看谁能赚钱)。

  除了上述两个核心指标外,Prophet Arena还采用了受统计学和心理测量建模启发的高级评估方法,如项目反应理论(Item Response Theory,IRT)和广义Bradley-Terry(BT)模型。

  在Brier分数不高(0.3-0.5分)的区间里,反而诞生了许多回报率惊人的预测。

  比如一场温布尔登网球赛,赛前市场普遍认为选手保罗有84%的胜率,甚至在开赛前一度攀升至95%。

  正是这微小的差异,让模型在时,认为押注对手奥夫纳获胜的「性价比」更高。

  你看,AI并没有准确预测到胜者,所以它的准确度分数(Brier分数)很一般。

  这说明,成为一个准确的预言家和成为一个赚钱的投资者,是两种不完全相同的技能。

  为了探讨这一点,检查了每个Brier得分区间的模型构成,每个模型用不同的颜色表示。

  绝大多数LLM在预测时倾向于与主流信息保持一致,因此大部分预测集中在高Brier分数区间。

  比如在「AI监管法规会在2026年前成为联邦法律吗?」这个事件上,市场认为可能性只有25%。

  激进派代表Qwen3:它看到各种法案都在推进,觉得势头很猛,直接给出了75%的超高概率。

  保守派代表Llama 4 Maverick:它也看到了同样的信息,但认为立法过程复杂又缓慢,所以只给出了比市场略高一点的35%。

  AI的预测并非随机,它们有着结构化的推理和独特的风险偏好,就像人类专家也会有观点分歧一样。

  例如在圣地亚哥与多伦多的美国职业足球大联盟比赛中,o3-mini在1美元的投注上获得了9美元的回报。

  根据市场数据和新闻来源,o3-mini预测多伦多获胜的概率为30%,而市场隐含的概率仅为11%(价格=0.11)。

  尽管多伦多是不被看好的一方,但AI识别到了正的期望值,并由于其最大的优势比率30%/11%≈3。

  它总能找到一些市场没注意到的细微差别,然后在那些「性价比」超高的选项上。

  就像在上面那场足球赛中,市场认为多伦多队只有11%的胜算,但o3-mini经过分析认为有30%。

  所以,在预测的世界里,成功的关键不在于每次都对,而在于你对的时候能带来多大的回报。

  数值越低(颜色越深的单元格)表示概率推理更接近一致;数值越高(颜色越浅的单元格)则表明分歧越大。

  其中一个突出的模型是DeepSeek R1,它的预测结果常常与其他模型大相径庭。

  与Kimi K2、o3和Llama 4 Maverick等模型相比,它的L2距离始终高于0.7,这表明其可能采用了不同的校准方式或内部决策机制。

  在频谱的另一端,诸如Grok-4和GPT-5之类的模型经常作出高度一致的预测,L2距离通常低于0.3。

  换句话说,这张图展示了AI预测的多样性:有些模型形成「群体共识」、有些模型像「特立独行的异议者」。

  设想,AI系统将成为预测市场的积极参与者,将人类的直觉洞察与AI强大的数据分析能力相结合,最终提升整个社会的集体远见,为那些高风险的决策提供更可靠的依据。

  毕竟,如果说语言模型的下一步是预测下一个词,那么它的终极形态,或许就是预测这个真实世界的下一个事件。

游戏攻略录入:admin    责任编辑:admin 
  • 上一个游戏攻略:

  • 下一个游戏攻略: 没有了
  •  
     栏目
    普通游戏攻略 AI版华尔街之狼!o3-mini靠「神之押注」狂赚9… (10-22)
    普通游戏攻略 幻想水浒传2中文版 (10-22)
    普通游戏攻略 无限内购破解游戏2022最新推荐 (10-21)
    普通游戏攻略 破解版无限资源内购版本游戏合集 (10-21)
    普通游戏攻略 愤怒的小鸟消除赛最新版 (10-21)
    普通游戏攻略 超级飞侠游戏官方正版 (10-16)
    普通游戏攻略 生存战争2儒雅随和模组最新版 (10-16)
    普通游戏攻略 猎人的生存日记 (10-16)
    普通游戏攻略 狂暴小鸡游戏 (10-15)
    普通游戏攻略 2023单人玩的游戏有哪些 好玩的单人手游推荐 (10-15)
    普通游戏攻略 2025免费休闲小游戏合集 轻松好玩的免费小游戏… (10-15)
    普通游戏攻略 2022一个小人闯关的游戏叫什么 小人闯关手游推… (10-14)
    普通游戏攻略 永远的蔚蓝星球全版本下载合集 (10-14)
    普通游戏攻略 发条总动员下载合集 (10-14)
    普通游戏攻略 甜瓜游乐场180 (10-13)
    普通游戏攻略 风云岛行动官服 (10-13)
    普通游戏攻略 超级坠落弗莱德V10安卓版最新版 (10-13)
    普通游戏攻略 4399三国小镇号 (10-12)
    普通游戏攻略 解压高手最新版 (10-12)
    普通游戏攻略 一路火花带闪电游戏 (10-12)