在人工智慧(ai)领域,用于评估模型能力的基准测试(benchmarks)持续推陈出新,但眼下最引人瞩目的竞技舞台,竟是一款已发行近三十年的任天堂经典rpg——《宝可梦》(pokémon)。据《华尔街日报》披露,google、openai 与 anthropic 正全力投入这场别开生面的「ai 宝可梦大师」竞赛,借由该游戏高度动态的虚拟世界,检验模型在真实感任务中的逻辑推演、多目标权衡及长程规划等核心能力。
这场风潮起源于去年,由 Anthropic 应用 AI 负责人 David Hershey 主导的「Claude 玩宝可梦」Twitch |直播|项目。Hershey 强调,《宝可梦》所呈现的开放性与系统深度,远超早期 AI 测试常采用的《乓》(Pong,一款二维电子乒乓球游戏)等简化环境。玩家需在训练现有队伍、搜寻稀有宝可梦、规划路线穿越城镇与洞窟、以及挑战道馆馆主之间反复权衡——这对 AI 的不确定性应对、资源分配与长期目标拆解能力,提出了远超单步决策的严苛要求。
如今,这项原本自发性的实验性测试,已跃升为科技巨头正式布局的技术验证场域。OpenAI 与 Google 的研究团队甚至会依据|直播|中模型的实际操作表现,针对性地调整推理路径与提示策略。公开资讯显示,GPT 系列与 Gemini 模型均已顺利通关《宝可梦 红/蓝》,并陆续推进至《黄版》《金/银》等后续作品;而 Anthropic 推出的最新模型 Claude 4.5,目前仍在关键道馆战与野外捕捉环节持续优化中。
延伸阅读:
手把也能量心跳?Anbernic内建心率计与2.5吋萤幕 玩游戏同步监测健康
10秒揪出办公室异常!恐怖游戏《P0: Byte-Sized Brilliance》挑战眼力极限
学界将此类高阶游戏代

相较过往以《踩地雷》等规则极简游戏为主的初级验证方式,在融合角色成长、属性克制、迷宫探索、剧情分支与随机事件的RPG环境中展现稳定策略输出能力,如今已成为判断AI是否真正迈向「拟人化战略思维」的核心标尺。
