-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy pathrun.sh
171 lines (117 loc) · 9.69 KB
/
run.sh
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
# --- POINTBOT 0 ENV ---
# Recovery RL (Master)
python main.py --env-name simplepointbot0 --cuda --use_recovery --gamma_safe 0.8 --eps_safe 0.1 --use_value
python main.py --env-name simplepointbot0 --cuda --use_recovery --gamma_safe 0.8 --eps_safe 0.2 --use_qvalue
# Unconstrained (Master)
python main.py --env-name simplepointbot0 --cuda
# Reward Penalty (Master)
python main.py --env-name simplepointbot0 --cuda --constraint_reward_penalty 1
# Lagrangian (saclagrangian-new)
python main.py --env-name simplepointbot0 --cuda --use_qvalue --DGD_constraints --nu {} --eps_safe 0.2
# RCPO (RCPO)
python main.py --env-name simplepointbot0 --cuda --eps_safe 0.1 --gamma_safe 0.8 --RCPO --lamda {} --use_value
# RCPO (fast_update)
python main.py --env-name simplepointbot0 --cuda --gamma_safe 0.5 --eps_safe 0.2 --use_qvalue --RCPO --lambda_RCPO 1000
# --- POINTBOT 1 ENV ---
# Recovery RL (Master)
python main.py --env-name simplepointbot1 --cuda --use_recovery --gamma_safe 0.9 --eps_safe 0.1 --use_value
python main.py --env-name simplepointbot1 --cuda --use_recovery --gamma_safe 0.75 --eps_safe 0.2 --use_qvalue
# Unconstrained (Master)
python main.py --env-name simplepointbot1 --cuda
# Reward Penalty (Master)
python main.py --env-name simplepointbot1 --cuda --constraint_reward_penalty 10
# Lagrangian (saclagrangian-new)
python main.py --env-name simplepointbot1 --cuda --use_qvalue --DGD_constraints --nu {} --eps_safe 0.2
# RCPO (RCPO)
python main.py --env-name simplepointbot1 --cuda --eps_safe 0.1 --gamma_safe 0.9 --RCPO --lamda {} --use_value
# --- MAZE ENV ---
# Recovery RL (Master)
# python -m main --cuda --env-name maze --use_recovery --use_value --critic_safe_update_freq 5 --recovery_policy_update_freq 5 --gamma_safe 0.85 --eps_safe 0.05
python -m main --cuda --env-name maze --use_recovery --use_qvalue --critic_safe_update_freq 5 --recovery_policy_update_freq 5 --gamma_safe 0.5 --eps_safe 0.15 --pos_fraction=0.3
# Recovery RL DDPG Recovery (fast-update)
python -m main --cuda --env-name maze --use_recovery --ddpg_recovery --use_qvalue --critic_safe_update_freq 5 --recovery_policy_update_freq 5 --gamma_safe 0.5 --eps_safe 0.15 --pos_fraction=0.3
# Unconstrained (Master)
python -m main --cuda --env-name maze
# Reward Penalty (Master)
python -m main --cuda --env-name maze --constraint_reward_penalty 50
# Lagrangian (fast_update)
python main.py --env-name maze --cuda --use_qvalue --DGD_constraints --update_nu --nu {} --gamma_safe 0.85 --eps_safe 0.05
# Lagrangian (saclagrangian-new)
python main.py --env-name maze --cuda --use_qvalue --DGD_constraints --nu {} --eps_safe 0.05
# RCPO (RCPO)
python -m main --cuda --env-name maze --eps_safe 0.05 --gamma_safe 0.85 --RCPO --lambda {} --use_value
# --- SHELF ENV ---
# Data Gen:
# Task demos: python -m gen_shelf_demos --cuda --gt_state --num_demos 250
# Constraint demos: python -m gen_shelf_demos --cuda --gt_state --num_demos 10000 --constraint_demos
# Task demos for RCPO: python -m gen_shelf_demos --cuda --gt_state --num_demos 250 --RCPO_demos
# Recovery RL (Master)
python -m main --cuda --env-name shelf_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --use_recovery --critic_safe_update_freq 20 --recovery_policy_update_freq 20 --gamma_safe 0.85 --eps_safe 0.4 --use_value
# Recovery RL DDPG Recovery (fast-update)
python -m main --cuda --env-name shelf_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --use_recovery --critic_safe_update_freq 20 --recovery_policy_update_freq 20 --gamma_safe 0.85 --eps_safe 0.5 --use_qvalue --ddpg_recovery
# Unconstrained (Master)
python -m main --cuda --env-name shelf_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000
# Reward Penalty (Master)
python -m main --cuda --env-name shelf_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --constraont_reward_penalty 3
# Lagrangian (saclagrangian-new)
python -m main --cuda --env-name shelf_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --gamma_safe 0.85 --eps_safe 0.4 --critic_safe_update_freq 20 --use_qvalue --DGD_constraints --nu 1
# Lagrangian (fast_update)
python -m main --cuda --env-name shelf_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --DGD_constraints --update_nu --nu 10 --gamma_safe 0.85 --eps_safe 0.4 --use_qvalue --num_task_transitions 500
# RCPO (RCPO)
python -m main --cuda --env-name shelf_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --RCPO --lamda {} --eps_safe 0.4 --gamma_safe 0.85 --critic_safe_update_freq 20 --use_value
# --- DYNAMIC SHELF ENV ---
# Data Gen:
# Task demos: python -m gen_dynamic_shelf_demos --cuda --gt_state --num_demos 250
# Constraint demos: python -m gen_dynamic_shelf_demos --cuda --gt_state --num_demos 10000 --constraint_demos
# Task demos for RCPO: python -m gen_dynamic_shelf_demos --cuda --gt_state --num_demos 250 --RCPO_demos
# Recovery RL (Master)
python -m main --cuda --env-name shelf_dynamic_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --use_recovery --critic_safe_update_freq 20 --recovery_policy_update_freq 20 --gamma_safe 0.85 --eps_safe 0.25 --use_value
# Recovery RL DDPG Recovery (fast-update)
python -m main --cuda --env-name shelf_dynamic_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --use_recovery --critic_safe_update_freq 20 --recovery_policy_update_freq 20 --gamma_safe 0.95 --eps_safe 0.3 --use_qvalue --ddpg_recovery --num_eps 2000
# Unconstrained (Master)
python -m main --cuda --env-name shelf_dynamic_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000
# Reward Penalty (Master)
python -m main --cuda --env-name shelf_dynamic_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --constraint_reward_penalty 3
# Lagrangian (saclagrangian-new)
python -m main --cuda --env-name shelf_dynamic_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --critic_safe_update_freq 20 --gamma_safe 0.85 --eps_safe 0.25 --use_qvalue --DGD_constraints --nu 1
# RCPO (RCPO)
python -m main --cuda --env-name shelf_dynamic_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --RCPO --lamda {} --critic_safe_update_freq 20 --gamma_safe 0.85 --eps_safe 0.25 --use_value
# --- IMAGE MAZE ENV ---
# Recovery RL (vismpc-recovery)
python -m main --cuda --env-name image_maze --use_recovery --use_value --critic_safe_update_freq 200000 --recovery_policy_update_freq 200000 --gamma_safe 0.8 --eps_safe 0.05 --cnn --vismpc_recovery --num_constraint_transitions 10000 --model_fname model2_lowdata --beta 10 --kappa 10000 --load_vismpc
# Recovery RL DDPG Recovery (fast-update)
python -m main --cuda --env-name image_maze --use_recovery --use_qvalue --ddpg_recovery --critic_safe_update_freq 200000 --recovery_policy_update_freq 200000 --gamma_safe 0.65 --eps_safe 0.1 --cnn --critic_safe_pretraining_steps 30000 --num_constraint_transitions 20000 --num_eps 500
# Unconstrained (Master)
python -m main --cuda --env-name image_maze --cnn
# Reward Penalty (Master)
python -m main --cuda --env-name image_maze --cnn --constraint_reward_penalty 20
# Lagrangian (saclagrangian-new)
python -m main --cuda --env-name image_maze --cnn --use_qvalue --eps_safe 0.05 --gamma_safe 0.8 --critic_safe_update_freq 20 --DGD_constraints --nu {}
# RCPO (RCPO)
python -m main --cuda --env-name image_maze --cnn --RCPO --lamda {} --eps_safe 0.05 --gamma_safe 0.8 --critic_safe_update_freq 200000 --use_value
# --- IMAGE SHELF ENV ---
# Data Gen:
# Task demos: python -m gen_shelf_demos --cuda --num_demos 250 (vismpc-recovery)
# Constraint demos: python -m gen_shelf_demos --cuda --num_demos 10000 --constraint_demos --vismpc_train_data (vismpc-recovery)
# Task demos for RCPO: python -m gen_shelf_demos --cuda --num_demos 250 --RCPO_demos (RCPO)
# Recovery RL (vismpc-recovery) (model_shelf3 for high data)
python -m main --cuda --env-name shelf_env --use_recovery --use_value --critic_safe_update_freq 20000 --recovery_policy_update_freq 20000 --gamma_safe 0.85 --eps_safe 0.25 --cnn --vismpc_recovery --num_constraint_transitions 250000 --model_fname model_shelf_lowdata --beta 10 --kappa 10000 --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --load_vismpc
# Unconstrained (Master)
python -m main --cuda --env-name shelf_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --cnn
# Reward Penalty (Master)
python -m main --cuda --env-name shelf_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --cnn --constraint_reward_penalty 10
# Lagrangian (saclagrangian-new) --> Note for this need to change images to true in env
# RCPO (RCPO) --> Note for this need to change images to true in env
# --- IMAGE DYNAMIC SHELF ENV ---
# Data Gen:
# Task demos: python -m gen_dynamic_shelf_demos --cuda --num_demos 250 (vismpc-recovery)
# Constraint demos: python -m gen_dynamic_shelf_demos --cuda --num_demos 10000 --constraint_demos --vismpc_train_data (vismpc-recovery)
# Task demos for RCPO: python -m gen_dynamic_shelf_demos --cuda --num_demos 250 --RCPO_demos (RCPO)
# Recovery RL (vismpc-recovery)
python -m main --cuda --env-name shelf_dynamic_env --use_recovery --use_value --critic_safe_update_freq 20000 --recovery_policy_update_freq 20000 --gamma_safe 0.85 --eps_safe 0.1 --cnn --vismpc_recovery --num_constraint_transitions 250000 --model_fname model_shelf_dynamic --beta 10 --kappa 10000 --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --load_vismpc
# Unconstrained (Master)
python -m main --cuda --env-name shelf_dynamic_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --cnn
# Reward Penalty (Master)
python -m main --cuda --env-name shelf_env --task_demos --alpha 0.05 --tau 0.0002 --replay_size 100000 --cnn --constraint_reward_penalty 3
# Lagrangian (saclagrangian-new) --> Note for this need to change images to true in env
# RCPO (RCPO) --> Note for this need to change images to true in env