KuRRe8 · June 6, 2025 17:35 · KuRRe8 · May 8, 2025
diff --git a/_intro.md b/_intro.md
diff --git a/app_deploy_tutorial.ipynb b/app_deploy_tutorial.ipynb
diff --git a/asyncio_tutorial.ipynb b/asyncio_tutorial.ipynb
diff --git a/boosting_libs_tutorial.ipynb b/boosting_libs_tutorial.ipynb
diff --git a/c_extensions_tutorial.ipynb b/c_extensions_tutorial.ipynb
diff --git a/concurrency_tutorial.ipynb b/concurrency_tutorial.ipynb
diff --git a/context_managers_tutorial.ipynb b/context_managers_tutorial.ipynb
diff --git a/design_patterns_tutorial.ipynb b/design_patterns_tutorial.ipynb
diff --git a/dunder_methods_tutorial.ipynb b/dunder_methods_tutorial.ipynb
diff --git a/experiment_tracking_tutorial.ipynb b/experiment_tracking_tutorial.ipynb
diff --git a/faiss_tutorial.ipynb b/faiss_tutorial.ipynb
diff --git a/generics_tutorial.ipynb b/generics_tutorial.ipynb
diff --git a/gymnasium_tutorial.ipynb b/gymnasium_tutorial.ipynb
 {
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Gymnasium - 强化学习环境标准接口教程\n",
    "\n",
    "欢迎来到 Gymnasium 教程！Gymnasium 是一个用于开发和比较强化学习 (RL) 算法的开源 Python 库。它提供了一个标准化的 API 来与各种模拟环境交互，从简单的经典控制问题到更复杂的模拟器。\n",
    "\n",
    "**背景**: Gymnasium 是由 OpenAI Gym 项目分叉而来，并由 Farama Foundation 维护。对于大多数用户来说，它现在是推荐使用的库，因为它得到了更积极的维护和更新。\n",
    "\n",
    "**为什么 Gymnasium 对 RL 很重要？**\n",
    "\n",
    "1.  **标准化接口**: 提供了一个统一的方式来与不同的 RL 环境进行交互 (`reset`, `step`)，使得算法的实现和测试更加通用。\n",
    "2.  **丰富的测试环境**: 内置了大量经典的 RL 基准测试环境（如 CartPole, MountainCar, Atari 游戏, MuJoCo 模拟等），方便算法的开发和比较。\n",
    "3.  **可扩展性**: 允许用户创建自己的自定义环境，并遵循相同的 API。\n",
    "4.  **社区标准**: 是 RL 研究和开发领域广泛接受的标准工具包。\n",
    "\n",
    "**本教程将涵盖 Gymnasium 的核心概念和基本用法：**\n",
    "\n",
    "1.  环境创建 (`gymnasium.make`)\n",
    "2.  核心 API: `reset`, `step`\n",
    "3.  观测空间 (`observation_space`) 与动作空间 (`action_space`)\n",
    "4.  理解 `step` 返回值: `observation`, `reward`, `terminated`, `truncated`, `info`\n",
    "5.  一个基本的 RL 交互循环 (随机 Agent)\n",
    "6.  环境渲染 (`render`)\n",
    "7.  常见环境示例\n",
    "8.  环境包装器 (Wrappers) 简介"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 准备工作：导入 Gymnasium\n",
    "\n",
    "确保你已经安装了 Gymnasium (`pip install gymnasium`). 你可能还需要安装一些包含特定环境的额外包 (例如 `pip install gymnasium[classic_control] gymnasium[toy_text]`)."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "import gymnasium as gym # 常用别名仍是 gym\n",
    "import time\n",
    "import numpy as np\n",
    "\n",
    "print(f\"Gymnasium version: {gym.__version__}\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 1. 环境创建 (`gymnasium.make`)\n",
    "\n",
    "使用 `gymnasium.make()` 函数，通过环境 ID 字符串来创建环境实例。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "print(\"--- Creating Environments ---\")\n",
    "\n",
    "# 创建 CartPole 环境 (经典控制)\n",
    "try:\n",
    "    env_cartpole = gym.make('CartPole-v1')\n",
    "    print(\"Successfully created 'CartPole-v1' environment.\")\n",
    "except gym.error.NameNotFound as e:\n",
    "    print(f\"Error creating CartPole-v1: {e}\")\n",
    "    print(\"You might need to install classic control environments: pip install gymnasium[classic_control]\")\n",
    "    env_cartpole = None\n",
    "\n",
    "# 创建 FrozenLake 环境 (文本/离散)\n",
    "try:\n",
    "    env_frozenlake = gym.make('FrozenLake-v1', map_name=\"4x4\", is_slippery=True)\n",
    "    # 可以传递参数来配置环境，如此处的 map_name 和 is_slippery\n",
    "    print(\"\\nSuccessfully created 'FrozenLake-v1' environment.\")\n",
    "except gym.error.NameNotFound as e:\n",
    "    print(f\"\\nError creating FrozenLake-v1: {e}\")\n",
    "    print(\"You might need to install toy text environments: pip install gymnasium[toy_text]\")\n",
    "    env_frozenlake = None\n",
    "\n",
    "# 查看可用环境 (部分，可能很长)\n",
    "# from gymnasium.envs.registration import registry\n",
    "# print(\"\\nSome available environments:\")\n",
    "# print(list(registry.keys())[:20])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 2. 核心 API: `reset` 和 `step`\n",
    "\n",
    "这是与环境交互的两个最基本的方法。\n",
    "\n",
    "*   **`env.reset(seed=None, options=None)`**: \n",
    "    *   重置环境到初始状态。\n",
    "    *   返回一个包含两个元素的元组：`(initial_observation, info)`。\n",
    "        *   `initial_observation`: 环境的初始观测值。\n",
    "        *   `info`: 包含环境信息的字典 (通常在 `reset` 时为空或包含调试信息)。\n",
    "    *   在每个新的回合 (episode) 开始时必须调用。\n",
    "    *   可以设置 `seed` 以获得可复现的起始状态。\n",
    "\n",
    "*   **`env.step(action)`**: \n",
    "    *   在环境中执行给定的 `action`。\n",
    "    *   返回一个包含五个元素的元组：`(observation, reward, terminated, truncated, info)`。\n",
    "        *   `observation`: 执行动作后的新观测值。\n",
    "        *   `reward`: 执行动作后获得的奖励 (通常是浮点数)。\n",
    "        *   `terminated`: 一个布尔值，表示回合是否因为达到某个终止状态而结束 (例如，CartPole 倒下，或者到达 FrozenLake 目标)。\n",
    "        *   `truncated`: 一个布尔值，表示回合是否因为达到时间限制或其他外部条件而被截断 (例如，CartPole 运行了 500 步)。\n",
    "        *   `info`: 包含环境诊断信息的字典 (例如，底层模拟器的状态)。\n",
    "    *   **重要**: 一个回合结束的条件是 `terminated` 或 `truncated` 为 `True`。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3. 观测空间 (`observation_space`) 与动作空间 (`action_space`)\n",
    "\n",
    "每个环境都有明确定义的观测空间和动作空间，它们描述了环境的有效观测和智能体可以采取的有效动作。\n",
    "\n",
    "*   `env.observation_space`: 定义了观测值的结构、类型和范围 (例如，`Box` 表示连续值，`Discrete` 表示离散值)。\n",
    "*   `env.action_space`: 定义了智能体可以采取的动作的结构、类型和范围。\n",
    "\n",
    "这两个属性通常是 `gymnasium.spaces` 模块中定义的空间对象。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "print(\"--- Observation and Action Spaces ---\")\n",
    "\n",
    "if env_cartpole:\n",
    "    print(\"\\nCartPole-v1:\")\n",
    "    print(f\"  Observation Space: {env_cartpole.observation_space}\")\n",
    "    # Box(4,) 表示一个包含4个连续值的向量\n",
    "    # print(f\"    Shape: {env_cartpole.observation_space.shape}\")\n",
    "    # print(f\"    Low bounds: {env_cartpole.observation_space.low}\")\n",
    "    # print(f\"    High bounds: {env_cartpole.observation_space.high}\")\n",
    "    \n",
    "    print(f\"  Action Space: {env_cartpole.action_space}\")\n",
    "    # Discrete(2) 表示两个离散动作 (0 或 1)\n",
    "    # print(f\"    Number of actions: {env_cartpole.action_space.n}\")\n",
    "    # 我们可以从中采样一个随机动作\n",
    "    random_action_cartpole = env_cartpole.action_space.sample()\n",
    "    print(f\"    Sample random action: {random_action_cartpole}\")\n",
    "else:\n",
    "    print(\"\\nCartPole environment not created, skipping space info.\")\n",
    "\n",
    "if env_frozenlake:\n",
    "    print(\"\\nFrozenLake-v1:\")\n",
    "    print(f\"  Observation Space: {env_frozenlake.observation_space}\")\n",
    "    # Discrete(16) 表示 16 个离散状态 (0 到 15)\n",
    "    # print(f\"    Number of states: {env_frozenlake.observation_space.n}\")\n",
    "    \n",
    "    print(f\"  Action Space: {env_frozenlake.action_space}\")\n",
    "    # Discrete(4) 表示 4 个离散动作 (通常是 0:左, 1:下, 2:右, 3:上)\n",
    "    # print(f\"    Number of actions: {env_frozenlake.action_space.n}\")\n",
    "    random_action_frozenlake = env_frozenlake.action_space.sample()\n",
    "    print(f\"    Sample random action: {random_action_frozenlake}\")\n",
    "else:\n",
    "    print(\"\\nFrozenLake environment not created, skipping space info.\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 4. 理解 `step` 返回值\n",
    "\n",
    "`step()` 返回的五个值 `(observation, reward, terminated, truncated, info)` 是 RL 循环的核心。\n",
    "\n",
    "*   `observation`: Agent 根据这个观测来决定下一个动作。\n",
    "*   `reward`: Agent 的目标是最大化累积奖励。\n",
    "*   `terminated`: 表示回合因任务本身的原因（如成功、失败）而结束。\n",
    "*   `truncated`: 表示回合因外部原因（如时间限制）而结束，但任务本身可能还未完成。\n",
    "*   **重要区分**: 在许多算法中（特别是进行价值估计时），`terminated` 和 `truncated` 的处理方式可能不同。例如，如果回合被 `truncated`，我们通常仍然会用学习到的价值函数来估计下一个状态的价值 (bootstrap)；但如果回合 `terminated`，下一个状态的价值通常被认为是 0。\n",
    "*   `info`: 通常包含对调试有用的额外信息，但不应用于训练 Agent。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 5. 一个基本的 RL 交互循环 (随机 Agent)\n",
    "\n",
    "让我们用一个简单的循环来模拟 Agent 与 CartPole 环境的交互，其中 Agent 每次都随机选择动作。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "print(\"--- Basic Interaction Loop (Random Agent on CartPole) ---\")\n",
    "\n",
    "if env_cartpole:\n",
    "    num_episodes = 3\n",
    "    max_steps_per_episode = 100\n",
    "\n",
    "    for episode in range(num_episodes):\n",
    "        print(f\"\\nStarting Episode {episode + 1}\")\n",
    "        # 重置环境获取初始观测\n",
    "        observation, info = env_cartpole.reset(seed=episode) # Use different seed for variation\n",
    "        # print(f\"  Initial Observation: {observation}\")\n",
    "        # print(f\"  Initial Info: {info}\")\n",
    "        \n",
    "        total_reward = 0\n",
    "        terminated = False\n",
    "        truncated = False\n",
    "        step_count = 0\n",
    "        \n",
    "        while not terminated and not truncated and step_count < max_steps_per_episode:\n",
    "            # 1. 选择一个动作 (这里是随机的)\n",
    "            action = env_cartpole.action_space.sample()\n",
    "            \n",
    "            # 2. 执行动作并获取结果\n",
    "            observation, reward, terminated, truncated, info = env_cartpole.step(action)\n",
    "            \n",
    "            total_reward += reward\n",
    "            step_count += 1\n",
    "            \n",
    "            # 打印一些信息 (可选)\n",
    "            # if step_count % 20 == 0:\n",
    "            #     print(f\"  Step {step_count}: Action={action}, Reward={reward:.2f}, Term={terminated}, Trunc={truncated}\")\n",
    "            # print(f\"    Obs: {observation.round(2)}\")\n",
    "\n",
    "        print(f\"Episode {episode + 1} finished after {step_count} steps.\")\n",
    "        print(f\"  Total Reward: {total_reward}\")\n",
    "        if terminated:\n",
    "            print(\"  Reason: Episode Terminated (e.g., pole fell)\")\n",
    "        elif truncated:\n",
    "            print(\"  Reason: Episode Truncated (e.g., time limit reached)\")\n",
    "        else:\n",
    "             print(f\"  Reason: Reached max steps ({max_steps_per_episode})\")\n",
    "            \n",
    "    # 关闭环境 (释放资源)\n",
    "    env_cartpole.close()\n",
    "    print(\"\\nCartPole environment closed.\")\n",
    "else:\n",
    "    print(\"CartPole environment not available, skipping interaction loop.\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 6. 环境渲染 (`render`)\n",
    "\n",
    "许多 Gymnasium 环境支持将环境状态可视化渲染出来。\n",
    "\n",
    "*   **`env = gym.make(env_id, render_mode=\"human\")`**: 在创建环境时指定 `render_mode=\"human\"`，通常会弹出一个窗口显示环境。\n",
    "*   **`env.render()`**: 在 `step` 之后调用 `env.render()` 来更新显示。 (在 v0.26 之前的 Gym 版本中，`render()` 用于返回图像数组或渲染到屏幕；在 Gymnasium 中，渲染模式在 `make` 时指定，`render()` 的行为取决于该模式)。\n",
    "*   `render_mode=\"rgb_array\"`: `env.render()` 会返回一个 NumPy 数组表示的图像帧。\n",
    "\n",
    "**注意**: 在 Jupyter Notebook 中直接使用 `render_mode=\"human\"` 可能效果不佳或无法工作，因为它通常需要一个活动的显示窗口。在本地 Python 脚本中运行通常效果更好。获取 `rgb_array` 并在 Notebook 中用 `matplotlib` 显示是另一种方法。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "print(\"--- Environment Rendering Example (CartPole, getting RGB array) ---\")\n",
    "\n",
    "try:\n",
    "    # 创建环境并指定渲染模式为 rgb_array\n",
    "    env_render = gym.make('CartPole-v1', render_mode='rgb_array')\n",
    "    \n",
    "    observation, info = env_render.reset()\n",
    "    \n",
    "    # 获取初始帧\n",
    "    frame = env_render.render()\n",
    "    \n",
    "    print(f\"Rendered frame type: {type(frame)}\")\n",
    "    print(f\"Rendered frame shape: {frame.shape}\") # (Height, Width, Channels)\n",
    "\n",
    "    # 使用 matplotlib 显示第一帧\n",
    "    plt.figure(figsize=(5, 4))\n",
    "    plt.imshow(frame)\n",
    "    plt.title(\"Initial Frame from CartPole (render_mode='rgb_array')\")\n",
    "    plt.axis('off')\n",
    "    plt.show()\n",
    "    \n",
    "    # 模拟几步并获取帧 (通常用于制作动画或记录)\n",
    "    frames = [frame] # Store the first frame\n",
    "    for _ in range(5):\n",
    "        action = env_render.action_space.sample()\n",
    "        env_render.step(action)\n",
    "        frames.append(env_render.render()) \n",
    "        \n",
    "    print(f\"Collected {len(frames)} frames.\")\n",
    "    \n",
    "    env_render.close()\n",
    "    print(\"Render environment closed.\")\n",
    "\n",
    "except Exception as e:\n",
    "    print(f\"Error during rendering example (maybe CartPole not installed or display issue): {e}\")\n",
    "\n",
    "# 如果你想尝试 'human' 模式 (可能无法在所有 notebook 环境下工作):\n",
    "# try:\n",
    "#     env_human = gym.make('CartPole-v1', render_mode='human')\n",
    "#     env_human.reset()\n",
    "#     for _ in range(50):\n",
    "#         action = env_human.action_space.sample()\n",
    "#         env_human.step(action)\n",
    "#         # Rendering is handled implicitly by the environment window in 'human' mode\n",
    "#         # time.sleep(0.05) # Add a small delay to see it\n",
    "#     env_human.close()\n",
    "# except Exception as e:\n",
    "#     print(f\"Error running 'human' mode rendering: {e}\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 7. 常见环境示例\n",
    "\n",
    "*   **`CartPole-v1`**: 经典控制问题。目标是通过左右移动推车来平衡杆子。观测是推车位置、速度、杆子角度、角速度。动作是向左或向右推。回合在杆子倾斜过大、推车移出边界或达到步数限制时结束。\n",
    "*   **`MountainCar-v0`**: 经典控制问题。小车动力不足，无法直接开上右侧山顶，需要通过来回晃动积累动能。观测是小车位置和速度。动作是向左、不动、向右施力。目标是到达山顶旗帜处。\n",
    "*   **`FrozenLake-v1`**: 网格世界问题。在一个冰冻湖面上从起点 (S) 移动到目标 (G)，避开冰洞 (H)。观测是当前所在的格子编号 (0-15)。动作是上/下/左/右。环境可以是光滑的 (`is_slippery=False`) 或打滑的 (`is_slippery=True`)。\n",
    "*   **Atari 环境 (需要 `gymnasium[atari]` 和 ALE)**: 基于 Atari 2600 游戏的环境，通常使用屏幕像素作为观测。\n",
    "*   **MuJoCo 环境 (需要 `gymnasium[mujoco]` 和 MuJoCo 引擎)**: 基于物理引擎的连续控制环境，如机器人运动。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 8. 环境包装器 (Wrappers) 简介\n",
    "\n",
    "Gymnasium 提供了包装器 (Wrapper) 机制，允许你修改现有环境的行为，而无需更改环境本身的源代码。\n",
    "\n",
    "**常见用途：**\n",
    "*   **观测修改**: 归一化观测值、裁剪观测范围、堆叠帧 (Frame Stacking，用于捕捉动态信息)。\n",
    "*   **动作修改**: 改变动作空间或动作的解释方式。\n",
    "*   **奖励修改**: 改变奖励函数 (Reward Shaping)。\n",
    "*   **时间限制**: 添加最大步数限制。\n",
    "\n",
    "**示例 (概念):**\n",
    "```python\n",
    "# import gymnasium as gym\n",
    "# from gymnasium.wrappers import NormalizeObservation, FrameStack\n",
    "\n",
    "# env = gym.make('SomeEnv-v0')\n",
    "# # 应用包装器\n",
    "# env = NormalizeObservation(env)\n",
    "# env = FrameStack(env, num_stack=4)\n",
    "\n",
    "# # 现在使用包装后的 env 进行交互\n",
    "# observation, info = env.reset()\n",
    "# # observation 现在是归一化的，并且可能包含了堆叠的帧\n",
    "```"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 总结\n",
    "\n",
    "Gymnasium 是强化学习领域的基础库，它通过标准化的 API 和丰富的测试环境，极大地促进了 RL 算法的开发、测试和比较。\n",
    "\n",
    "**关键要点：**\n",
    "*   使用 `gymnasium.make(env_id)` 创建环境。\n",
    "*   理解 `observation_space` 和 `action_space`。\n",
    "*   核心交互通过 `env.reset()` 和 `env.step(action)` 完成。\n",
    "*   区分 `step()` 返回的 `terminated` 和 `truncated` 对于回合结束处理很重要。\n",
    "*   环境可以通过 `render()` 进行可视化 (方式取决于 `render_mode`)。\n",
    "*   包装器 (Wrappers) 可用于修改环境行为。\n",
    "\n",
    "掌握 Gymnasium 的基本用法是进行强化学习实践的第一步。"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.12"
  },
  "orig_nbformat": 4
 },
 "nbformat": 4,
 "nbformat_minor": 5
 }
diff --git a/hpo_tutorial.ipynb b/hpo_tutorial.ipynb
diff --git a/iterators_generators_tutorial.ipynb b/iterators_generators_tutorial.ipynb
diff --git a/langchain_tutorial.ipynb b/langchain_tutorial.ipynb
diff --git a/llamaindex_tutorial.ipynb b/llamaindex_tutorial.ipynb
diff --git a/matplotlib_tutorial.ipynb b/matplotlib_tutorial.ipynb
diff --git a/metaprogramming_tutorial.ipynb b/metaprogramming_tutorial.ipynb
diff --git a/numpy_tutorial.ipynb b/numpy_tutorial.ipynb
diff --git a/opencv_tutorial.ipynb b/opencv_tutorial.ipynb
diff --git a/pandas_tutorial.ipynb b/pandas_tutorial.ipynb
diff --git a/pattern_matching_tutorial.ipynb b/pattern_matching_tutorial.ipynb
diff --git a/python_internals_performance_tutorial.ipynb b/python_internals_performance_tutorial.ipynb
diff --git a/pytorch_tutorial.ipynb b/pytorch_tutorial.ipynb
diff --git a/scikit_learn_tutorial.ipynb b/scikit_learn_tutorial.ipynb
diff --git a/seaborn_tutorial.ipynb b/seaborn_tutorial.ipynb
diff --git a/shap_tutorial.ipynb b/shap_tutorial.ipynb
diff --git a/sigh.md b/sigh.md
diff --git a/stable_baselines3_tutorial.ipynb b/stable_baselines3_tutorial.ipynb
diff --git a/standard_library_tutorial.ipynb b/standard_library_tutorial.ipynb
diff --git a/transformers_tutorial.ipynb b/transformers_tutorial.ipynb
	{
	"cells": [
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"# Gymnasium - 强化学习环境标准接口教程\n",
	"\n",
	"欢迎来到 Gymnasium 教程！Gymnasium 是一个用于开发和比较强化学习 (RL) 算法的开源 Python 库。它提供了一个标准化的 API 来与各种模拟环境交互，从简单的经典控制问题到更复杂的模拟器。\n",
	"\n",
	"背景: Gymnasium 是由 OpenAI Gym 项目分叉而来，并由 Farama Foundation 维护。对于大多数用户来说，它现在是推荐使用的库，因为它得到了更积极的维护和更新。\n",
	"\n",
	"为什么 Gymnasium 对 RL 很重要？\n",
	"\n",
	"1. 标准化接口: 提供了一个统一的方式来与不同的 RL 环境进行交互 (`reset`, `step`)，使得算法的实现和测试更加通用。\n",
	"2. 丰富的测试环境: 内置了大量经典的 RL 基准测试环境（如 CartPole, MountainCar, Atari 游戏, MuJoCo 模拟等），方便算法的开发和比较。\n",
	"3. 可扩展性: 允许用户创建自己的自定义环境，并遵循相同的 API。\n",
	"4. 社区标准: 是 RL 研究和开发领域广泛接受的标准工具包。\n",
	"\n",
	"本教程将涵盖 Gymnasium 的核心概念和基本用法：\n",
	"\n",
	"1. 环境创建 (`gymnasium.make`)\n",
	"2. 核心 API: `reset`, `step`\n",
	"3. 观测空间 (`observation_space`) 与动作空间 (`action_space`)\n",
	"4. 理解 `step` 返回值: `observation`, `reward`, `terminated`, `truncated`, `info`\n",
	"5. 一个基本的 RL 交互循环 (随机 Agent)\n",
	"6. 环境渲染 (`render`)\n",
	"7. 常见环境示例\n",
	"8. 环境包装器 (Wrappers) 简介"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"## 准备工作：导入 Gymnasium\n",
	"\n",
	"确保你已经安装了 Gymnasium (`pip install gymnasium`). 你可能还需要安装一些包含特定环境的额外包 (例如 `pip install gymnasium[classic_control] gymnasium[toy_text]`)."
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"import gymnasium as gym # 常用别名仍是 gym\n",
	"import time\n",
	"import numpy as np\n",
	"\n",
	"print(f\"Gymnasium version: {gym.__version__}\")"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"## 1. 环境创建 (`gymnasium.make`)\n",
	"\n",
	"使用 `gymnasium.make()` 函数，通过环境 ID 字符串来创建环境实例。"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"print(\"--- Creating Environments ---\")\n",
	"\n",
	"# 创建 CartPole 环境 (经典控制)\n",
	"try:\n",
	" env_cartpole = gym.make('CartPole-v1')\n",
	" print(\"Successfully created 'CartPole-v1' environment.\")\n",
	"except gym.error.NameNotFound as e:\n",
	" print(f\"Error creating CartPole-v1: {e}\")\n",
	" print(\"You might need to install classic control environments: pip install gymnasium[classic_control]\")\n",
	" env_cartpole = None\n",
	"\n",
	"# 创建 FrozenLake 环境 (文本/离散)\n",
	"try:\n",
	" env_frozenlake = gym.make('FrozenLake-v1', map_name=\"4x4\", is_slippery=True)\n",
	" # 可以传递参数来配置环境，如此处的 map_name 和 is_slippery\n",
	" print(\"\\nSuccessfully created 'FrozenLake-v1' environment.\")\n",
	"except gym.error.NameNotFound as e:\n",
	" print(f\"\\nError creating FrozenLake-v1: {e}\")\n",
	" print(\"You might need to install toy text environments: pip install gymnasium[toy_text]\")\n",
	" env_frozenlake = None\n",
	"\n",
	"# 查看可用环境 (部分，可能很长)\n",
	"# from gymnasium.envs.registration import registry\n",
	"# print(\"\\nSome available environments:\")\n",
	"# print(list(registry.keys())[:20])"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"## 2. 核心 API: `reset` 和 `step`\n",
	"\n",
	"这是与环境交互的两个最基本的方法。\n",
	"\n",
	"* `env.reset(seed=None, options=None)`: \n",
	" * 重置环境到初始状态。\n",
	" * 返回一个包含两个元素的元组：`(initial_observation, info)`。\n",
	" * `initial_observation`: 环境的初始观测值。\n",
	" * `info`: 包含环境信息的字典 (通常在 `reset` 时为空或包含调试信息)。\n",
	" * 在每个新的回合 (episode) 开始时必须调用。\n",
	" * 可以设置 `seed` 以获得可复现的起始状态。\n",
	"\n",
	"* `env.step(action)`: \n",
	" * 在环境中执行给定的 `action`。\n",
	" * 返回一个包含五个元素的元组：`(observation, reward, terminated, truncated, info)`。\n",
	" * `observation`: 执行动作后的新观测值。\n",
	" * `reward`: 执行动作后获得的奖励 (通常是浮点数)。\n",
	" * `terminated`: 一个布尔值，表示回合是否因为达到某个终止状态而结束 (例如，CartPole 倒下，或者到达 FrozenLake 目标)。\n",
	" * `truncated`: 一个布尔值，表示回合是否因为达到时间限制或其他外部条件而被截断 (例如，CartPole 运行了 500 步)。\n",
	" * `info`: 包含环境诊断信息的字典 (例如，底层模拟器的状态)。\n",
	" * 重要: 一个回合结束的条件是 `terminated` 或 `truncated` 为 `True`。"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"## 3. 观测空间 (`observation_space`) 与动作空间 (`action_space`)\n",
	"\n",
	"每个环境都有明确定义的观测空间和动作空间，它们描述了环境的有效观测和智能体可以采取的有效动作。\n",
	"\n",
	"* `env.observation_space`: 定义了观测值的结构、类型和范围 (例如，`Box` 表示连续值，`Discrete` 表示离散值)。\n",
	"* `env.action_space`: 定义了智能体可以采取的动作的结构、类型和范围。\n",
	"\n",
	"这两个属性通常是 `gymnasium.spaces` 模块中定义的空间对象。"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"print(\"--- Observation and Action Spaces ---\")\n",
	"\n",
	"if env_cartpole:\n",
	" print(\"\\nCartPole-v1:\")\n",
	" print(f\" Observation Space: {env_cartpole.observation_space}\")\n",
	" # Box(4,) 表示一个包含4个连续值的向量\n",
	" # print(f\" Shape: {env_cartpole.observation_space.shape}\")\n",
	" # print(f\" Low bounds: {env_cartpole.observation_space.low}\")\n",
	" # print(f\" High bounds: {env_cartpole.observation_space.high}\")\n",
	" \n",
	" print(f\" Action Space: {env_cartpole.action_space}\")\n",
	" # Discrete(2) 表示两个离散动作 (0 或 1)\n",
	" # print(f\" Number of actions: {env_cartpole.action_space.n}\")\n",
	" # 我们可以从中采样一个随机动作\n",
	" random_action_cartpole = env_cartpole.action_space.sample()\n",
	" print(f\" Sample random action: {random_action_cartpole}\")\n",
	"else:\n",
	" print(\"\\nCartPole environment not created, skipping space info.\")\n",
	"\n",
	"if env_frozenlake:\n",
	" print(\"\\nFrozenLake-v1:\")\n",
	" print(f\" Observation Space: {env_frozenlake.observation_space}\")\n",
	" # Discrete(16) 表示 16 个离散状态 (0 到 15)\n",
	" # print(f\" Number of states: {env_frozenlake.observation_space.n}\")\n",
	" \n",
	" print(f\" Action Space: {env_frozenlake.action_space}\")\n",
	" # Discrete(4) 表示 4 个离散动作 (通常是 0:左, 1:下, 2:右, 3:上)\n",
	" # print(f\" Number of actions: {env_frozenlake.action_space.n}\")\n",
	" random_action_frozenlake = env_frozenlake.action_space.sample()\n",
	" print(f\" Sample random action: {random_action_frozenlake}\")\n",
	"else:\n",
	" print(\"\\nFrozenLake environment not created, skipping space info.\")"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"## 4. 理解 `step` 返回值\n",
	"\n",
	"`step()` 返回的五个值 `(observation, reward, terminated, truncated, info)` 是 RL 循环的核心。\n",
	"\n",
	"* `observation`: Agent 根据这个观测来决定下一个动作。\n",
	"* `reward`: Agent 的目标是最大化累积奖励。\n",
	"* `terminated`: 表示回合因任务本身的原因（如成功、失败）而结束。\n",
	"* `truncated`: 表示回合因外部原因（如时间限制）而结束，但任务本身可能还未完成。\n",
	"* 重要区分: 在许多算法中（特别是进行价值估计时），`terminated` 和 `truncated` 的处理方式可能不同。例如，如果回合被 `truncated`，我们通常仍然会用学习到的价值函数来估计下一个状态的价值 (bootstrap)；但如果回合 `terminated`，下一个状态的价值通常被认为是 0。\n",
	"* `info`: 通常包含对调试有用的额外信息，但不应用于训练 Agent。"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"## 5. 一个基本的 RL 交互循环 (随机 Agent)\n",
	"\n",
	"让我们用一个简单的循环来模拟 Agent 与 CartPole 环境的交互，其中 Agent 每次都随机选择动作。"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"print(\"--- Basic Interaction Loop (Random Agent on CartPole) ---\")\n",
	"\n",
	"if env_cartpole:\n",
	" num_episodes = 3\n",
	" max_steps_per_episode = 100\n",
	"\n",
	" for episode in range(num_episodes):\n",
	" print(f\"\\nStarting Episode {episode + 1}\")\n",
	" # 重置环境获取初始观测\n",
	" observation, info = env_cartpole.reset(seed=episode) # Use different seed for variation\n",
	" # print(f\" Initial Observation: {observation}\")\n",
	" # print(f\" Initial Info: {info}\")\n",
	" \n",
	" total_reward = 0\n",
	" terminated = False\n",
	" truncated = False\n",
	" step_count = 0\n",
	" \n",
	" while not terminated and not truncated and step_count < max_steps_per_episode:\n",
	" # 1. 选择一个动作 (这里是随机的)\n",
	" action = env_cartpole.action_space.sample()\n",
	" \n",
	" # 2. 执行动作并获取结果\n",
	" observation, reward, terminated, truncated, info = env_cartpole.step(action)\n",
	" \n",
	" total_reward += reward\n",
	" step_count += 1\n",
	" \n",
	" # 打印一些信息 (可选)\n",
	" # if step_count % 20 == 0:\n",
	" # print(f\" Step {step_count}: Action={action}, Reward={reward:.2f}, Term={terminated}, Trunc={truncated}\")\n",
	" # print(f\" Obs: {observation.round(2)}\")\n",
	"\n",
	" print(f\"Episode {episode + 1} finished after {step_count} steps.\")\n",
	" print(f\" Total Reward: {total_reward}\")\n",
	" if terminated:\n",
	" print(\" Reason: Episode Terminated (e.g., pole fell)\")\n",
	" elif truncated:\n",
	" print(\" Reason: Episode Truncated (e.g., time limit reached)\")\n",
	" else:\n",
	" print(f\" Reason: Reached max steps ({max_steps_per_episode})\")\n",
	" \n",
	" # 关闭环境 (释放资源)\n",
	" env_cartpole.close()\n",
	" print(\"\\nCartPole environment closed.\")\n",
	"else:\n",
	" print(\"CartPole environment not available, skipping interaction loop.\")"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"## 6. 环境渲染 (`render`)\n",
	"\n",
	"许多 Gymnasium 环境支持将环境状态可视化渲染出来。\n",
	"\n",
	"* `env = gym.make(env_id, render_mode=\"human\")`: 在创建环境时指定 `render_mode=\"human\"`，通常会弹出一个窗口显示环境。\n",
	"* `env.render()`: 在 `step` 之后调用 `env.render()` 来更新显示。 (在 v0.26 之前的 Gym 版本中，`render()` 用于返回图像数组或渲染到屏幕；在 Gymnasium 中，渲染模式在 `make` 时指定，`render()` 的行为取决于该模式)。\n",
	"* `render_mode=\"rgb_array\"`: `env.render()` 会返回一个 NumPy 数组表示的图像帧。\n",
	"\n",
	"注意: 在 Jupyter Notebook 中直接使用 `render_mode=\"human\"` 可能效果不佳或无法工作，因为它通常需要一个活动的显示窗口。在本地 Python 脚本中运行通常效果更好。获取 `rgb_array` 并在 Notebook 中用 `matplotlib` 显示是另一种方法。"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": [
	"print(\"--- Environment Rendering Example (CartPole, getting RGB array) ---\")\n",
	"\n",
	"try:\n",
	" # 创建环境并指定渲染模式为 rgb_array\n",
	" env_render = gym.make('CartPole-v1', render_mode='rgb_array')\n",
	" \n",
	" observation, info = env_render.reset()\n",
	" \n",
	" # 获取初始帧\n",
	" frame = env_render.render()\n",
	" \n",
	" print(f\"Rendered frame type: {type(frame)}\")\n",
	" print(f\"Rendered frame shape: {frame.shape}\") # (Height, Width, Channels)\n",
	"\n",
	" # 使用 matplotlib 显示第一帧\n",
	" plt.figure(figsize=(5, 4))\n",
	" plt.imshow(frame)\n",
	" plt.title(\"Initial Frame from CartPole (render_mode='rgb_array')\")\n",
	" plt.axis('off')\n",
	" plt.show()\n",
	" \n",
	" # 模拟几步并获取帧 (通常用于制作动画或记录)\n",
	" frames = [frame] # Store the first frame\n",
	" for _ in range(5):\n",
	" action = env_render.action_space.sample()\n",
	" env_render.step(action)\n",
	" frames.append(env_render.render()) \n",
	" \n",
	" print(f\"Collected {len(frames)} frames.\")\n",
	" \n",
	" env_render.close()\n",
	" print(\"Render environment closed.\")\n",
	"\n",
	"except Exception as e:\n",
	" print(f\"Error during rendering example (maybe CartPole not installed or display issue): {e}\")\n",
	"\n",
	"# 如果你想尝试 'human' 模式 (可能无法在所有 notebook 环境下工作):\n",
	"# try:\n",
	"# env_human = gym.make('CartPole-v1', render_mode='human')\n",
	"# env_human.reset()\n",
	"# for _ in range(50):\n",
	"# action = env_human.action_space.sample()\n",
	"# env_human.step(action)\n",
	"# # Rendering is handled implicitly by the environment window in 'human' mode\n",
	"# # time.sleep(0.05) # Add a small delay to see it\n",
	"# env_human.close()\n",
	"# except Exception as e:\n",
	"# print(f\"Error running 'human' mode rendering: {e}\")"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"## 7. 常见环境示例\n",
	"\n",
	"* `CartPole-v1`: 经典控制问题。目标是通过左右移动推车来平衡杆子。观测是推车位置、速度、杆子角度、角速度。动作是向左或向右推。回合在杆子倾斜过大、推车移出边界或达到步数限制时结束。\n",
	"* `MountainCar-v0`: 经典控制问题。小车动力不足，无法直接开上右侧山顶，需要通过来回晃动积累动能。观测是小车位置和速度。动作是向左、不动、向右施力。目标是到达山顶旗帜处。\n",
	"* `FrozenLake-v1`: 网格世界问题。在一个冰冻湖面上从起点 (S) 移动到目标 (G)，避开冰洞 (H)。观测是当前所在的格子编号 (0-15)。动作是上/下/左/右。环境可以是光滑的 (`is_slippery=False`) 或打滑的 (`is_slippery=True`)。\n",
	"* Atari 环境 (需要 `gymnasium[atari]` 和 ALE): 基于 Atari 2600 游戏的环境，通常使用屏幕像素作为观测。\n",
	"* MuJoCo 环境 (需要 `gymnasium[mujoco]` 和 MuJoCo 引擎): 基于物理引擎的连续控制环境，如机器人运动。"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"## 8. 环境包装器 (Wrappers) 简介\n",
	"\n",
	"Gymnasium 提供了包装器 (Wrapper) 机制，允许你修改现有环境的行为，而无需更改环境本身的源代码。\n",
	"\n",
	"常见用途：\n",
	"* 观测修改: 归一化观测值、裁剪观测范围、堆叠帧 (Frame Stacking，用于捕捉动态信息)。\n",
	"* 动作修改: 改变动作空间或动作的解释方式。\n",
	"* 奖励修改: 改变奖励函数 (Reward Shaping)。\n",
	"* 时间限制: 添加最大步数限制。\n",
	"\n",
	"示例 (概念):\n",
	"```python\n",
	"# import gymnasium as gym\n",
	"# from gymnasium.wrappers import NormalizeObservation, FrameStack\n",
	"\n",
	"# env = gym.make('SomeEnv-v0')\n",
	"# # 应用包装器\n",
	"# env = NormalizeObservation(env)\n",
	"# env = FrameStack(env, num_stack=4)\n",
	"\n",
	"# # 现在使用包装后的 env 进行交互\n",
	"# observation, info = env.reset()\n",
	"# # observation 现在是归一化的，并且可能包含了堆叠的帧\n",
	"```"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": [
	"## 总结\n",
	"\n",
	"Gymnasium 是强化学习领域的基础库，它通过标准化的 API 和丰富的测试环境，极大地促进了 RL 算法的开发、测试和比较。\n",
	"\n",
	"关键要点：\n",
	"* 使用 `gymnasium.make(env_id)` 创建环境。\n",
	"* 理解 `observation_space` 和 `action_space`。\n",
	"* 核心交互通过 `env.reset()` 和 `env.step(action)` 完成。\n",
	"* 区分 `step()` 返回的 `terminated` 和 `truncated` 对于回合结束处理很重要。\n",
	"* 环境可以通过 `render()` 进行可视化 (方式取决于 `render_mode`)。\n",
	"* 包装器 (Wrappers) 可用于修改环境行为。\n",
	"\n",
	"掌握 Gymnasium 的基本用法是进行强化学习实践的第一步。"
	]
	}
	],
	"metadata": {
	"kernelspec": {
	"display_name": "Python 3 (ipykernel)",
	"language": "python",
	"name": "python3"
	},
	"language_info": {
	"codemirror_mode": {
	"name": "ipython",
	"version": 3
	},
	"file_extension": ".py",
	"mimetype": "text/x-python",
	"name": "python",
	"nbconvert_exporter": "python",
	"pygments_lexer": "ipython3",
	"version": "3.10.12"
	},
	"orig_nbformat": 4
	},
	"nbformat": 4,
	"nbformat_minor": 5
	}