{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Notebook 02: Agents in Grid World\n",
"\n",
"Trong notebook này, chúng ta sẽ cài đặt và so sánh ba loại agent:\n",
"- Reflex agent (tác nhân phản xạ)\n",
"- Goal-based agent (tác nhân dựa trên mục tiêu)\n",
"- Utility-based agent (tác nhân dựa trên hàm hữu dụng)\n",
"\n",
"Môi trường minh họa là **Grid World**."
]
},
{
"cell_type": "code",
"execution_count": 184,
"metadata": {},
"outputs": [],
"source": [
"import random\n",
"import matplotlib.pyplot as plt\n",
"import numpy as np\n",
"\n",
"class GridWorld:\n",
" def __init__(self, size=5, start=(0,0), goal=(4,4), obstacles=[]):\n",
" self.size = size\n",
" self.start = start\n",
" self.goal = goal\n",
" self.obstacles = obstacles\n",
" self.reset()\n",
"\n",
" def reset(self):\n",
" self.agent_pos = self.start\n",
" return self.agent_pos\n",
"\n",
" def step(self, action):\n",
" x, y = self.agent_pos\n",
" if action == 'UP':\n",
" new_pos = (x-1, y)\n",
" elif action == 'DOWN':\n",
" new_pos = (x+1, y)\n",
" elif action == 'LEFT':\n",
" new_pos = (x, y-1)\n",
" elif action == 'RIGHT':\n",
" new_pos = (x, y+1)\n",
" else:\n",
" new_pos = self.agent_pos\n",
"\n",
" # Kiểm tra biên và chướng ngại vật\n",
" if (0 <= new_pos[0] < self.size and 0 <= new_pos[1] < self.size and new_pos not in self.obstacles):\n",
" self.agent_pos = new_pos\n",
" \n",
" reward = -1\n",
" done = False\n",
" if self.agent_pos == self.goal:\n",
" reward = 10\n",
" done = True\n",
" return self.agent_pos, reward, done\n",
"\n",
" def render(self, trajectory=None, agent_pos=None, show=True):\n",
" fig, ax = plt.subplots(figsize=(5,5))\n",
" ax.set_xticks(range(self.size))\n",
" ax.set_yticks(range(self.size))\n",
" ax.grid(True)\n",
" ax.set_xlim(-0.5, self.size - 0.5)\n",
" ax.set_ylim(-0.5, self.size - 0.5)\n",
" ax.invert_yaxis()\n",
"\n",
" # Vẽ chướng ngại vật\n",
" for (x,y) in self.obstacles:\n",
" ax.text(y, x, \"X\", ha=\"center\", va=\"center\", fontsize=14, color=\"red\")\n",
"\n",
" # Vẽ start & goal\n",
" ax.text(self.start[1], self.start[0], \"S\", ha=\"center\", va=\"center\", fontsize=14, color=\"blue\")\n",
" ax.text(self.goal[1], self.goal[0], \"G\", ha=\"center\", va=\"center\", fontsize=14, color=\"green\")\n",
"\n",
" # Vẽ quỹ đạo\n",
" if trajectory is not None and len(trajectory) > 1:\n",
" xs, ys = zip(*trajectory)\n",
" ax.plot(ys, xs, marker=\"o\", linestyle=\"--\", alpha=0.7, color=\"orange\")\n",
"\n",
" # Vẽ agent\n",
" cur = agent_pos if agent_pos is not None else self.agent_pos\n",
" ax.text(cur[1], cur[0], \"A\", ha=\"center\", va=\"center\", fontsize=14, color=\"purple\")\n",
"\n",
" # Tiêu đề: số bước\n",
" steps = (len(trajectory)-1) if trajectory else 0\n",
" ax.set_title(f\"Agent at {cur} | Steps: {steps}\")\n",
"\n",
" if show:\n",
" plt.show()\n",
" else:\n",
" return fig, ax\n",
"\n"
]
},
{
"cell_type": "code",
"execution_count": 185,
"metadata": {},
"outputs": [],
"source": [
"class ReflexAgent:\n",
" def __init__(self, env):\n",
" self.env = env\n",
"\n",
" def act(self):\n",
" # Chọn hành động ngẫu nhiên nhưng tránh va chạm\n",
" possible_actions = ['UP','DOWN','LEFT','RIGHT']\n",
" random.shuffle(possible_actions)\n",
" for action in possible_actions:\n",
" x, y = self.env.agent_pos\n",
" if action == 'UP': new_pos = (x-1, y)\n",
" elif action == 'DOWN': new_pos = (x+1, y)\n",
" elif action == 'LEFT': new_pos = (x, y-1)\n",
" else: new_pos = (x, y+1)\n",
" if (0 <= new_pos[0] < self.env.size and 0 <= new_pos[1] < self.env.size and new_pos not in self.env.obstacles):\n",
" return action\n",
" return 'UP'"
]
},
{
"cell_type": "code",
"execution_count": 186,
"metadata": {},
"outputs": [],
"source": [
"class GoalBasedAgent:\n",
" def __init__(self, env):\n",
" self.env = env\n",
"\n",
" def act(self):\n",
" # Di chuyển tham lam hướng về goal\n",
" ax, ay = self.env.agent_pos\n",
" gx, gy = self.env.goal\n",
" if gx > ax:\n",
" return 'DOWN'\n",
" elif gx < ax:\n",
" return 'UP'\n",
" elif gy > ay:\n",
" return 'RIGHT'\n",
" elif gy < ay:\n",
" return 'LEFT'\n",
" else:\n",
" return random.choice(['UP','DOWN','LEFT','RIGHT'])"
]
},
{
"cell_type": "code",
"execution_count": 187,
"metadata": {},
"outputs": [],
"source": [
"class UtilityBasedAgent:\n",
" def __init__(self, env):\n",
" self.env = env\n",
"\n",
" def act(self):\n",
" # Chọn hành động dựa trên hàm hữu dụng (khoảng cách Manhattan)\n",
" actions = ['UP','DOWN','LEFT','RIGHT']\n",
" best_action = None\n",
" best_utility = -float('inf')\n",
" for action in actions:\n",
" x, y = self.env.agent_pos\n",
" if action == 'UP': new_pos = (x-1, y)\n",
" elif action == 'DOWN': new_pos = (x+1, y)\n",
" elif action == 'LEFT': new_pos = (x, y-1)\n",
" else: new_pos = (x, y+1)\n",
"\n",
" if (0 <= new_pos[0] < self.env.size and 0 <= new_pos[1] < self.env.size and new_pos not in self.env.obstacles):\n",
" # Utility = - khoảng cách đến goal\n",
" gx, gy = self.env.goal\n",
" utility = - (abs(new_pos[0]-gx) + abs(new_pos[1]-gy))\n",
" if utility > best_utility:\n",
" best_utility = utility\n",
" best_action = action\n",
" return best_action if best_action else random.choice(actions)"
]
},
{
"cell_type": "code",
"execution_count": 188,
"id": "64ceb558",
"metadata": {},
"outputs": [],
"source": [
"import random\n",
"\n",
"# Định nghĩa RandomAgent thật sự ngẫu nhiên\n",
"class RandomAgent:\n",
" def __init__(self, env):\n",
" self.env = env\n",
"\n",
" def act(self):\n",
" possible_actions = ['UP', 'DOWN', 'LEFT', 'RIGHT']\n",
" return random.choice(possible_actions)\n",
"\n"
]
},
{
"cell_type": "code",
"execution_count": 189,
"id": "179405bb",
"metadata": {},
"outputs": [],
"source": [
"import random\n",
"import numpy as np\n",
"\n",
"class LearningAgent:\n",
" def __init__(self, env,\n",
" alpha=0.5, gamma=0.9,\n",
" epsilon=1.0, epsilon_min=0.1, epsilon_decay=0.9995,\n",
" episodes=20000, max_steps=50):\n",
" self.env = env\n",
" self.alpha = alpha # Learning rate\n",
" self.gamma = gamma # Discount factor\n",
" self.epsilon = epsilon # Exploration rate\n",
" self.epsilon_min = epsilon_min\n",
" self.epsilon_decay = epsilon_decay\n",
" self.episodes = episodes\n",
" self.max_steps = max_steps # giới hạn bước mỗi episode\n",
" self.actions = ['UP','DOWN','LEFT','RIGHT']\n",
" self.q_table = {} # {(state, action): value}\n",
"\n",
" def get_q(self, state, action):\n",
" return self.q_table.get((state, action), 0.0)\n",
"\n",
" def choose_action(self, state):\n",
" \"\"\"Epsilon-greedy policy\"\"\"\n",
" if random.random() < self.epsilon:\n",
" return random.choice(self.actions)\n",
" qs = [self.get_q(state, a) for a in self.actions]\n",
" return self.actions[np.argmax(qs)]\n",
"\n",
" def learn(self):\n",
" \"\"\"Huấn luyện nhiều episode\"\"\"\n",
" for ep in range(self.episodes):\n",
" self.env.reset()\n",
" state = self.env.agent_pos\n",
" done = False\n",
" steps = 0\n",
"\n",
" while not done and steps < self.max_steps:\n",
" action = self.choose_action(state)\n",
" next_state, _, done = self.env.step(action)\n",
"\n",
" # 🎯 Reward shaping\n",
" if next_state == self.env.goal:\n",
" reward = 100\n",
" done = True\n",
" elif next_state in self.env.obstacles:\n",
" reward = -50\n",
" done = True\n",
" else:\n",
" reward = -1\n",
"\n",
" # Q-learning update\n",
" max_q_next = max([self.get_q(next_state, a) for a in self.actions])\n",
" old_q = self.get_q(state, action)\n",
" new_q = old_q + self.alpha * (reward + self.gamma * max_q_next - old_q)\n",
" self.q_table[(state, action)] = new_q\n",
"\n",
" state = next_state\n",
" steps += 1\n",
"\n",
" # Decay epsilon (khám phá ít dần)\n",
" self.epsilon = max(self.epsilon_min, self.epsilon * self.epsilon_decay)\n",
"\n",
" # Decay alpha nhẹ (tránh overfitting)\n",
" self.alpha = max(0.01, self.alpha * 0.999)\n",
"\n",
" def act(self):\n",
" \"\"\"Chọn hành động greedy khi chạy thử nghiệm\"\"\"\n",
" state = self.env.agent_pos\n",
" qs = [self.get_q(state, a) for a in self.actions]\n",
" return self.actions[np.argmax(qs)]\n"
]
},
{
"cell_type": "code",
"execution_count": 190,
"metadata": {},
"outputs": [],
"source": [
"def run_episode(env, agent, max_steps=50):\n",
" pos = env.reset()\n",
" done = False\n",
" trajectory = [pos]\n",
" for _ in range(max_steps):\n",
" action = agent.act()\n",
" pos, reward, done = env.step(action)\n",
" trajectory.append(pos)\n",
" if done:\n",
" break\n",
" return trajectory"
]
},
{
"cell_type": "code",
"execution_count": 191,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Running Reflex agent:\n",
"Trajectory: [(0, 0), (1, 0), (2, 0), (3, 0), (4, 0), (5, 0), (6, 0), (6, 1), (6, 2), (6, 1), (6, 2), (5, 2), (4, 2), (3, 2), (4, 2), (4, 1), (4, 0), (4, 1), (4, 0), (3, 0), (4, 0), (5, 0), (6, 0), (6, 1), (5, 1), (5, 0), (6, 0), (6, 1), (5, 1), (4, 1), (5, 1), (5, 2), (5, 3), (6, 3), (5, 3), (5, 2), (5, 1), (5, 0), (5, 1), (6, 1), (5, 1), (4, 1), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 4), (5, 5), (4, 5), (3, 5)]\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Running GoalBased agent:\n",
"Trajectory: [(0, 0), (1, 0), (2, 0), (3, 0), (4, 0), (4, 1), (4, 2), (4, 3), (4, 4)]\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Running UtilityBased agent:\n",
"Trajectory: [(0, 0), (1, 0), (2, 0), (3, 0), (4, 0), (4, 1), (4, 2), (4, 3), (4, 4)]\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Running Random agent:\n",
"Trajectory: [(0, 0), (0, 0), (1, 0), (1, 0), (2, 0), (2, 0), (2, 1), (2, 0), (1, 0), (1, 0), (0, 0), (0, 1), (0, 1), (0, 2), (0, 1), (0, 0), (1, 0), (1, 0), (1, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (1, 0), (0, 0), (0, 0), (0, 1), (0, 0), (0, 1), (0, 1), (0, 1), (0, 1), (0, 1), (0, 1), (0, 2), (1, 2), (1, 2), (1, 2), (1, 2), (1, 3), (2, 3), (1, 3), (2, 3), (2, 4), (1, 4), (0, 4), (0, 5), (1, 5), (0, 5), (0, 6)]\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"Running Learning agent:\n",
"Trajectory: [(0, 0), (1, 0), (2, 0), (3, 0), (4, 0), (4, 1), (4, 2), (4, 3), (4, 4)]\n"
]
},
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"\n",
"=== Evaluation Results ===\n",
"Reflex: Steps=51, Collisions=0, Revisits=31\n",
"GoalBased: Steps=9, Collisions=0, Revisits=0\n",
"UtilityBased: Steps=9, Collisions=0, Revisits=0\n",
"Random: Steps=51, Collisions=0, Revisits=36\n",
"Learning: Steps=9, Collisions=0, Revisits=0\n"
]
}
],
"source": [
"# Khởi tạo environment\n",
"env = GridWorld(\n",
" size=7, \n",
" start=(0,0), \n",
" goal=(4,4), \n",
" obstacles=[(1,1),(2,2),(3,1)]\n",
")\n",
"\n",
"# Tạo LearningAgent và huấn luyện trước\n",
"learning_agent = LearningAgent(env, episodes=5000)\n",
"learning_agent.learn() # ✅ huấn luyện\n",
"\n",
"# Thêm vào danh sách agent\n",
"agents = {\n",
" 'Reflex': ReflexAgent(env),\n",
" 'GoalBased': GoalBasedAgent(env),\n",
" 'UtilityBased': UtilityBasedAgent(env),\n",
" 'Random': RandomAgent(env),\n",
" 'Learning': learning_agent # đã train\n",
"}\n",
"\n",
"results = {}\n",
"\n",
"# Chạy thử nghiệm cho từng agent\n",
"for name, agent in agents.items():\n",
" print(f\"\\nRunning {name} agent:\")\n",
" traj = run_episode(env, agent)\n",
" print(\"Trajectory:\", traj)\n",
" env.render()\n",
"\n",
" # --- Thống kê ---\n",
" steps = len(traj)\n",
" collisions = sum(1 for pos in traj if pos in env.obstacles)\n",
" revisits = steps - len(set(traj))\n",
"\n",
" results[name] = {\n",
" \"steps\": steps,\n",
" \"collisions\": collisions,\n",
" \"revisits\": revisits\n",
" }\n",
"\n",
"# In kết quả so sánh\n",
"print(\"\\n=== Evaluation Results ===\")\n",
"for name, stats in results.items():\n",
" print(f\"{name}: Steps={stats['steps']}, Collisions={stats['collisions']}, Revisits={stats['revisits']}\")\n"
]
},
{
"cell_type": "code",
"execution_count": 192,
"metadata": {},
"outputs": [],
"source": [
"from IPython.display import clear_output, display\n",
"import time\n",
"\n",
"def animate_episode(env, agent, max_steps=50, delay=0.3):\n",
" \"\"\"Chạy và trực quan hóa đường đi của agent theo từng bước.\n",
" - clear_output để cập nhật khung hình\n",
" - env.render(show=False) để lấy fig/ax và hiển thị ngay trong cell\n",
" \"\"\"\n",
" pos = env.reset()\n",
" done = False\n",
" steps = 0\n",
" trajectory = [pos]\n",
" while not done and steps < max_steps:\n",
" action = agent.act()\n",
" pos, reward, done = env.step(action)\n",
" trajectory.append(pos)\n",
" clear_output(wait=True)\n",
" fig, ax = env.render(show=False)\n",
" display(fig)\n",
" plt.close(fig)\n",
" time.sleep(delay)\n",
" steps += 1\n",
" return trajectory, steps, done\n"
]
},
{
"cell_type": "code",
"execution_count": 193,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 500x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
},
{
"name": "stdout",
"output_type": "stream",
"text": [
"--- Kết quả agent Learning ---\n",
"Đã hoàn thành? True\n",
"Số bước đi: 8\n",
"Vị trí cuối: (4, 4)\n",
"Quỹ đạo: [(0, 0), (1, 0), (2, 0), (3, 0), (4, 0), (4, 1), (4, 2), (4, 3), (4, 4)]\n",
"\n",
"=== Tất cả kết quả ===\n",
"Reflex: steps=36, done=True, last_pos=(4, 4)\n",
"GoalBased: steps=8, done=True, last_pos=(4, 4)\n",
"UtilityBased: steps=8, done=True, last_pos=(4, 4)\n",
"Random: steps=20, done=True, last_pos=(4, 4)\n",
"Learning: steps=8, done=True, last_pos=(4, 4)\n"
]
}
],
"source": [
"# ====== Chạy animation và lưu kết quả cho từng agent ======\n",
"env = GridWorld(size=5, start=(0,0), goal=(4,4), obstacles=[(1,1),(2,2),(3,1)])\n",
"learning_agent = LearningAgent(env, episodes=5000)\n",
"learning_agent.learn()\n",
"agents = {\n",
" 'Reflex': ReflexAgent(env),\n",
" 'GoalBased': GoalBasedAgent(env),\n",
" 'UtilityBased': UtilityBasedAgent(env),\n",
" 'Random': RandomAgent(env),\n",
" 'Learning': learning_agent # đã train\n",
"}\n",
"\n",
"results = {} # dictionary để lưu kết quả từng agent\n",
"\n",
"for name, agent in agents.items():\n",
" print(f\"\\n>>> Bắt đầu chạy agent: {name} (animation)...\")\n",
" \n",
" traj, steps, done = animate_episode(env, agent, max_steps=60, delay=0.25)\n",
" \n",
" # Lưu kết quả\n",
" results[name] = {\n",
" 'traj': traj,\n",
" 'steps': steps,\n",
" 'done': done,\n",
" 'last_pos': traj[-1]\n",
" }\n",
" \n",
" # In kết quả ngay sau khi agent chạy xong\n",
" print(f\"--- Kết quả agent {name} ---\")\n",
" print(f\"Đã hoàn thành? {done}\")\n",
" print(f\"Số bước đi: {steps}\")\n",
" print(f\"Vị trí cuối: {traj[-1]}\")\n",
" print(f\"Quỹ đạo: {traj}\")\n",
"\n",
"# ✅ Sau vòng lặp, bạn vẫn có thể truy xuất kết quả của tất cả agent\n",
"print(\"\\n=== Tất cả kết quả ===\")\n",
"for name, res in results.items():\n",
" print(f\"{name}: steps={res['steps']}, done={res['done']}, last_pos={res['last_pos']}\")\n"
]
},
{
"cell_type": "markdown",
"id": "fcbdb1de",
"metadata": {},
"source": [
"## 6. Thảo luận\n",
"\n",
"### 6.1 Khả năng thích nghi khi môi trường thay đổi\n",
"\n",
"| Tác tử | Thích nghi khi môi trường thay đổi | Giải thích |\n",
"|------------------|------------------------------------|----------------------------------------------------------------------------------------------------------------|\n",
"| **RandomAgent** | Kém | Di chuyển ngẫu nhiên, không có chiến lược tổng thể. Khi lưới lớn hoặc nhiều vật cản, quỹ đạo dài, nhiều va chạm. |\n",
"| **ReflexAgent** | Trung bình | Tránh va chạm cục bộ tốt, chỉ dựa vào thông tin xung quanh. Khi môi trường phức tạp, dễ đi vòng lặp, chưa tối ưu. |\n",
"| **GoalBasedAgent** | Tốt | Luôn chọn đường đi ngắn nhất tới goal. Môi trường thay đổi ảnh hưởng ít, tác tử vẫn đến đích nhanh, không va chạm. |\n",
"| **UtilityBasedAgent**| Tốt | Chọn đường đi dựa trên giá trị utility, ổn định và ngắn. Một số trường hợp đặc biệt có thể bị kẹt. |\n",
"| **LearningAgent** | Rất tốt | Học từ kinh nghiệm, tối ưu hóa đường đi. Khi môi trường thay đổi, tác tử tự điều chỉnh chiến lược, dần thích nghi. |\n",
"\n",
"**Kết luận:**\n",
"- Trong môi trường tĩnh, **GoalBasedAgent** và **UtilityBasedAgent** là hiệu quả nhất.\n",
"- Khi môi trường thay đổi, **LearningAgent** thích nghi tốt nhất nhờ khả năng học và tối ưu hóa dựa trên kinh nghiệm, giảm va chạm và bước đi thừa theo thời gian.\n",
"\n",
"---\n",
"\n",
"### 6.2 Ưu/nhược điểm trong thực tế\n",
"\n",
"| Tác tử | Ưu điểm | Nhược điểm |\n",
"|------------------|------------------------------------------------------------------------|---------------------------------------------------------------------------|\n",
"| **RandomAgent** | Đơn giản, không cần tính toán phức tạp | Di chuyển ngẫu nhiên, tốn năng lượng, nhiều va chạm, không tối ưu |\n",
"| **ReflexAgent** | Tránh vật cản trực tiếp, dễ triển khai trên robot đơn giản | Không có chiến lược tổng thể, dễ đi vòng lặp, quỹ đạo dài |\n",
"| **GoalBasedAgent** | Luôn đi thẳng đến mục tiêu, ít bước thừa, không va chạm | Cần biết trước vị trí goal, khó thích nghi nếu môi trường thay đổi |\n",
"| **UtilityBasedAgent**| Tối ưu hóa đường đi dựa trên giá trị utility, ổn định | Có thể bị kẹt trong môi trường phức tạp, cần xác định utility chính xác |\n",
"| **LearningAgent** | Thích nghi với môi trường thay đổi, học được đường đi tối ưu | Cần thời gian học, ban đầu có thể đi vòng lặp hoặc va chạm, phức tạp khi triển khai thực tế |\n",
"\n",
"**Ví dụ thực tế:**\n",
"- **Robot hút bụi:** Nên dùng LearningAgent hoặc ReflexAgent vì môi trường nhà thay đổi, vật cản di động.\n",
"- **Xe tự lái:** Kết hợp GoalBasedAgent, UtilityBasedAgent và LearningAgent để đi đúng đường, tránh vật cản, học từ trải nghiệm thực tế."
]
},
{
"cell_type": "markdown",
"id": "297c0ec1",
"metadata": {},
"source": [
"## 📝 Bài tập cho sinh viên\n",
"\n",
"1. **Thay đổi môi trường**\n",
" - Thử tạo lưới có kích thước khác (ví dụ 7x7, 10x10).\n",
" - Thêm/bớt chướng ngại vật và quan sát sự thay đổi trong quỹ đạo di chuyển.\n",
"\n",
"2. **Điều chỉnh thuật toán tác tử**\n",
" - Bổ sung thêm một tác tử **RandomAgent**: luôn chọn hành động ngẫu nhiên.\n",
" - So sánh quỹ đạo và độ dài đường đi của RandomAgent với các tác tử khác.\n",
"\n",
"3. **Đánh giá hiệu quả**\n",
" - Tính tổng số bước mà mỗi tác tử đi từ start đến goal.\n",
" - Ghi nhận số lần tác tử va phải chướng ngại vật hoặc quay lại ô cũ.\n",
"\n",
"4. **Nâng cấp tác tử**\n",
" - Thiết kế một **LearningAgent** đơn giản dùng Q-learning hoặc SARSA để học cách di chuyển đến goal.\n",
" - So sánh hiệu quả của LearningAgent với UtilityBasedAgent.\n",
"\n",
"5. **Quan sát trực quan**\n",
" - Cập nhật hàm `render()` để hiển thị thêm:\n",
" - Quỹ đạo các bước đi.\n",
" - Số bước đã đi.\n",
" - Ký hiệu khác biệt cho start (S), goal (G), chướng ngại vật (X), tác tử (A).\n",
" - Vẽ đồ thị (sử dụng matplotlib) biểu diễn số bước cần thiết của mỗi tác tử.\n",
"\n",
"6. **Thảo luận**\n",
" - Khi môi trường thay đổi, tác tử nào thích nghi tốt nhất? Vì sao?\n",
" - Ưu/nhược điểm của từng loại tác tử trong thực tế (ví dụ: robot hút bụi, xe tự lái).\n"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.13.6"
}
},
"nbformat": 4,
"nbformat_minor": 5
}