pyliaorachel · June 15, 2018 05:07
diff --git a/dqn_choose_action.py b/dqn_choose_action.py
 def choose_action(self, state):
    x = torch.unsqueeze(torch.FloatTensor(state), 0)

    # epsilon-greedy
    if np.random.uniform() < self.epsilon: # 隨機
        action = np.random.randint(0, self.n_actions)
    else: # 根據現有 policy 做最好的選擇
        actions_value = self.eval_net(x) # 以現有 eval net 得出各個 action 的分數
        action = torch.max(actions_value, 1)[1].data.numpy()[0] # 挑選最高分的 action

    return action
	def choose_action(self, state):
	x = torch.unsqueeze(torch.FloatTensor(state), 0)

	# epsilon-greedy
	if np.random.uniform() < self.epsilon: # 隨機
	action = np.random.randint(0, self.n_actions)
	else: # 根據現有 policy 做最好的選擇
	actions_value = self.eval_net(x) # 以現有 eval net 得出各個 action 的分數
	action = torch.max(actions_value, 1)[1].data.numpy()[0] # 挑選最高分的 action

	return action