OpenAI o1-preview AI推理模型“不讲武德”：国际象棋对垒跳出规则外“作弊”取胜

科技 > 人工智能 > 正文

OpenAI o1-preview AI推理模型“不讲武德”：国际象棋对垒跳出规则外“作弊”取胜

IT之家

下载客户端
独家抢先看

2024年12月31日 12:34:11 来自山东

IT之家 12 月 31 日消息，科技媒体 The Decoder 昨日（12 月 30 日）发布博文，报道称 AI 安全研究公司 Palisade Research 实测 OpenAI 的 o1-preview 模型，在和专业国际象棋引擎 Stockfish 的 5 场比赛中，通过“作弊”手段取胜。

在和 Stockfish 的 5 场国际象棋对弈中，OpenAI 的 o1-preview 模型并非通过正面较量取胜，均通过修改记录棋局数据的文本文件（FEN 表示法）迫使 Stockfish 认输。

IT之家援引新闻稿，研究人员仅在提示中提及 Stockfish 是“强大的”对手，o1-preview 就自行采取了这种“作弊”行为。而 GPT-4o 和 Claude 3.5 并无这种“作弊”行为，只有在研究人员特别建议后才尝试破解系统。

该公司称 o1-preview 的行为，与 Anthropic 发现的“对齐伪造”（alignment faking）现象相符，即 AI 系统表面遵循指令，暗地里却执行其它操作。

Anthropic 的研究表明，AI 模型 Claude 有时会故意给出错误答案以避免不想要的结果，发展出自身隐藏的策略。

研究人员计划公开实验代码、完整记录和详细分析，并表示确保 AI 系统真正符合人类价值观和需求，而非仅仅表面顺从，仍是 AI 行业面临的重大挑战。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

OpenAI o1-preview AI推理模型“不讲武德”：国际象棋对垒跳出规则外“作弊”取胜

亲爱的凤凰网用户:

第三方浏览器推荐: