From 8159e6ab6cc81359a55478b42f6e4f7ee495f57b Mon Sep 17 00:00:00 2001
From: Reginald McLean <reginald.mclean@ryerson.ca>
Date: Mon, 23 Oct 2023 14:05:40 -0400
Subject: [PATCH] added scripted policies page

---
 introduction/basic_usage/index.html           |   1 +
 introduction/installation/index.html          |   1 +
 introduction/rendering/index.html             |   1 +
 .../index.html                                | 155 +-----------------
 4 files changed, 7 insertions(+), 151 deletions(-)
 rename introduction/{scipted_policies => scripted_policies}/index.html (51%)
diff --git a/introduction/basic_usage/index.html b/introduction/basic_usage/index.html
index dc22dcfd2..72521f468 100644
--- a/introduction/basic_usage/index.html
+++ b/introduction/basic_usage/index.html
@@ -215,6 +215,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../installation/">Installation</a></li>
 <li class="toctree-l1 current current-page"><a class="current reference internal" href="#">Basic Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../rendering/">Rendering</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../scripted_policies/">Scripted Policies</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Development</span></p>
 <ul>
diff --git a/introduction/installation/index.html b/introduction/installation/index.html
index 6caea2c05..1fc70e39d 100644
--- a/introduction/installation/index.html
+++ b/introduction/installation/index.html
@@ -215,6 +215,7 @@
 <li class="toctree-l1 current current-page"><a class="current reference internal" href="#">Installation</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../basic_usage/">Basic Usage</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../rendering/">Rendering</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../scripted_policies/">Scripted Policies</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Development</span></p>
 <ul>
diff --git a/introduction/rendering/index.html b/introduction/rendering/index.html
index fe525fc6d..6a319d43f 100644
--- a/introduction/rendering/index.html
+++ b/introduction/rendering/index.html
@@ -215,6 +215,7 @@
 <li class="toctree-l1"><a class="reference internal" href="../installation/">Installation</a></li>
 <li class="toctree-l1"><a class="reference internal" href="../basic_usage">Basic Usage</a></li>
 <li class="toctree-l1 current current-page"><a class="current reference internal" href="#">Rendering</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../scripted_policies/">Scripted Policies</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Development</span></p>
 <ul>
diff --git a/introduction/scipted_policies/index.html b/introduction/scripted_policies/index.html
similarity index 51%
rename from introduction/scipted_policies/index.html
rename to introduction/scripted_policies/index.html
index e99e4a910..4f1d6d788 100644
--- a/introduction/scipted_policies/index.html
+++ b/introduction/scripted_policies/index.html
@@ -213,7 +213,9 @@
   <p class="caption" role="heading"><span class="caption-text">Introduction</span></p>
 <ul class="current">
 <li class="toctree-l1"><a class="reference internal" href="../installation/">Installation</a></li>
-<li class="toctree-l1 current current-page"><a class="current reference internal" href="#">Basic Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../basic_usage">Basic Usage</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../rendering/">Rendering</a></li>
+<li class="toctree-l1 current current-page"><a class="current reference internal" href="../scripted_policies/">Scripted Policies</a></li>
 </ul>
 <p class="caption" role="heading"><span class="caption-text">Development</span></p>
 <ul>
@@ -277,155 +279,6 @@
           <article role="main">
             
             <section id="basic-usage">
-<h1>Basic Usage<a class="headerlink" href="#basic-usage" title="Link to this heading">#</a></h1>
-<section id="using-the-benchmark">
-<h2>Using the benchmark<a class="headerlink" href="#using-the-benchmark" title="Link to this heading">#</a></h2>
-<p>Here is a list of benchmark environments for meta-RL (ML*) and multi-task-RL (MT*):</p>
-<ul class="simple">
-<li><p><a class="reference external" href="https://meta-world.github.io/figures/ml1.gif"><strong>ML1</strong></a> is a meta-RL benchmark environment which tests few-shot adaptation to goal variation within single task. You can choose to test variation within any of <a class="reference external" href="https://meta-world.github.io/figures/ml45-1080p.gif">50 tasks</a> for this benchmark.</p></li>
-<li><p><a class="reference external" href="https://meta-world.github.io/figures/ml10.gif"><strong>ML10</strong></a> is a meta-RL benchmark which tests few-shot adaptation to new tasks. It comprises 10 meta-train tasks, and 3 test tasks.</p></li>
-<li><p><a class="reference external" href="https://meta-world.github.io/figures/ml45-1080p.gif"><strong>ML45</strong></a> is a meta-RL benchmark which tests few-shot adaptation to new tasks. It comprises 45 meta-train tasks and 5 test tasks.</p></li>
-<li><p><a class="reference external" href="https://meta-world.github.io/figures/mt10.gif"><strong>MT10</strong></a>, <strong>MT1</strong>, and <strong>MT50</strong> are multi-task-RL benchmark environments for learning a multi-task policy that perform 10, 1, and 50 training tasks respectively. <strong>MT1</strong> is similar to <strong>ML1</strong> because you can choose to test variation within any of <a class="reference external" href="https://meta-world.github.io/figures/ml45-1080p.gif">50 tasks</a> for this benchmark.  In the original Meta-World experiments, we augment MT10 and MT50 environment observations with a one-hot vector which identifies the task. We don’t enforce how users utilize task one-hot vectors, however one solution would be to use a Gym wrapper such as <a class="reference external" href="https://github.com/rlworkgroup/garage/blob/master/src/garage/envs/multi_env_wrapper.py">this one</a></p></li>
-</ul>
-<section id="basics">
-<h3>Basics<a class="headerlink" href="#basics" title="Link to this heading">#</a></h3>
-<p>We provide a <code class="docutils literal notranslate"><span class="pre">Benchmark</span></code> API, that allows constructing environments following the <a class="reference external" href="https://github.com/Farama-Foundation/Gymnasium/blob/main/gymnasium/core.py#L21"><code class="docutils literal notranslate"><span class="pre">gymnasium.Env</span></code></a> interface.</p>
-<p>To use a <code class="docutils literal notranslate"><span class="pre">Benchmark</span></code>, first construct it (this samples the tasks allowed for one run of an algorithm on the benchmark).
-Then, construct at least one instance of each environment listed in <code class="docutils literal notranslate"><span class="pre">benchmark.train_classes</span></code> and <code class="docutils literal notranslate"><span class="pre">benchmark.test_classes</span></code>.
-For each of those environments, a task must be assigned to it using
-<code class="docutils literal notranslate"><span class="pre">env.set_task(task)</span></code> from <code class="docutils literal notranslate"><span class="pre">benchmark.train_tasks</span></code> and <code class="docutils literal notranslate"><span class="pre">benchmark.test_tasks</span></code>,
-respectively.
-<code class="docutils literal notranslate"><span class="pre">Tasks</span></code> can only be assigned to environments which have a key in
-<code class="docutils literal notranslate"><span class="pre">benchmark.train_classes</span></code> or <code class="docutils literal notranslate"><span class="pre">benchmark.test_classes</span></code> matching <code class="docutils literal notranslate"><span class="pre">task.env_name</span></code>.
-Please see the sections <a class="reference internal" href="#running-ml1-or-mt1"><span class="xref myst">Running ML1, MT1</span></a> and <a class="reference internal" href="#running-a-benchmark"><span class="xref myst">Running ML10, ML45, MT10, MT50</span></a>
-for more details.</p>
-<p>You may wish to only access individual environments used in the Metaworld benchmark for your research. See the
-<a class="reference internal" href="#accessing-single-goal-environments"><span class="xref myst">Accessing Single Goal Environments</span></a> for more details.</p>
-</section>
-<section id="seeding-a-benchmark-instance">
-<h3>Seeding a Benchmark Instance<a class="headerlink" href="#seeding-a-benchmark-instance" title="Link to this heading">#</a></h3>
-<p>For the purposes of reproducibility, it may be important to you to seed your benchmark instance.
-For example, for the ML1 benchmark environment with the ‘pick-place-v2’ environment, you can do so in the following way:</p>
-<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">metaworld</span>
-
-<span class="n">SEED</span> <span class="o">=</span> <span class="mi">0</span>  <span class="c1"># some seed number here</span>
-<span class="n">benchmark</span> <span class="o">=</span> <span class="n">metaworld</span><span class="o">.</span><span class="n">ML1</span><span class="p">(</span><span class="s1">&#39;pick-place-v2&#39;</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="n">SEED</span><span class="p">)</span>
-</pre></div>
-</div>
-</section>
-<section id="running-ml1-or-mt1">
-<h3>Running ML1 or MT1<a class="headerlink" href="#running-ml1-or-mt1" title="Link to this heading">#</a></h3>
-<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">metaworld</span>
-<span class="kn">import</span> <span class="nn">random</span>
-
-<span class="nb">print</span><span class="p">(</span><span class="n">metaworld</span><span class="o">.</span><span class="n">ML1</span><span class="o">.</span><span class="n">ENV_NAMES</span><span class="p">)</span>  <span class="c1"># Check out the available environments</span>
-
-<span class="n">ml1</span> <span class="o">=</span> <span class="n">metaworld</span><span class="o">.</span><span class="n">ML1</span><span class="p">(</span><span class="s1">&#39;pick-place-v2&#39;</span><span class="p">)</span> <span class="c1"># Construct the benchmark, sampling tasks</span>
-
-<span class="n">env</span> <span class="o">=</span> <span class="n">ml1</span><span class="o">.</span><span class="n">train_classes</span><span class="p">[</span><span class="s1">&#39;pick-place-v2&#39;</span><span class="p">]()</span>  <span class="c1"># Create an environment with task `pick_place`</span>
-<span class="n">task</span> <span class="o">=</span> <span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">(</span><span class="n">ml1</span><span class="o">.</span><span class="n">train_tasks</span><span class="p">)</span>
-<span class="n">env</span><span class="o">.</span><span class="n">set_task</span><span class="p">(</span><span class="n">task</span><span class="p">)</span>  <span class="c1"># Set task</span>
-
-<span class="n">obs</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>  <span class="c1"># Reset environment</span>
-<span class="n">a</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>  <span class="c1"># Sample an action</span>
-<span class="n">obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">info</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">a</span><span class="p">)</span>  <span class="c1"># Step the environment with the sampled random action</span>
-</pre></div>
-</div>
-<p><strong>MT1</strong> can be run the same way except that it does not contain any <code class="docutils literal notranslate"><span class="pre">test_tasks</span></code></p>
-</section>
-<section id="running-a-benchmark">
-<h3>Running a benchmark<a class="headerlink" href="#running-a-benchmark" title="Link to this heading">#</a></h3>
-<p>Create an environment with train tasks (ML10, MT10, ML45, or MT50):</p>
-<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">metaworld</span>
-<span class="kn">import</span> <span class="nn">random</span>
-
-<span class="n">ml10</span> <span class="o">=</span> <span class="n">metaworld</span><span class="o">.</span><span class="n">ML10</span><span class="p">()</span> <span class="c1"># Construct the benchmark, sampling tasks</span>
-
-<span class="n">training_envs</span> <span class="o">=</span> <span class="p">[]</span>
-<span class="k">for</span> <span class="n">name</span><span class="p">,</span> <span class="n">env_cls</span> <span class="ow">in</span> <span class="n">ml10</span><span class="o">.</span><span class="n">train_classes</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-  <span class="n">env</span> <span class="o">=</span> <span class="n">env_cls</span><span class="p">()</span>
-  <span class="n">task</span> <span class="o">=</span> <span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">([</span><span class="n">task</span> <span class="k">for</span> <span class="n">task</span> <span class="ow">in</span> <span class="n">ml10</span><span class="o">.</span><span class="n">train_tasks</span>
-                        <span class="k">if</span> <span class="n">task</span><span class="o">.</span><span class="n">env_name</span> <span class="o">==</span> <span class="n">name</span><span class="p">])</span>
-  <span class="n">env</span><span class="o">.</span><span class="n">set_task</span><span class="p">(</span><span class="n">task</span><span class="p">)</span>
-  <span class="n">training_envs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">env</span><span class="p">)</span>
-
-<span class="k">for</span> <span class="n">env</span> <span class="ow">in</span> <span class="n">training_envs</span><span class="p">:</span>
-  <span class="n">obs</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>  <span class="c1"># Reset environment</span>
-  <span class="n">a</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>  <span class="c1"># Sample an action</span>
-  <span class="n">obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">info</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">a</span><span class="p">)</span>  <span class="c1"># Step the environment with the sampled random action</span>
-</pre></div>
-</div>
-<p>Create an environment with test tasks (this only works for ML10 and ML45, since MT10 and MT50 don’t have a separate set of test tasks):</p>
-<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">import</span> <span class="nn">metaworld</span>
-<span class="kn">import</span> <span class="nn">random</span>
-
-<span class="n">ml10</span> <span class="o">=</span> <span class="n">metaworld</span><span class="o">.</span><span class="n">ML10</span><span class="p">()</span> <span class="c1"># Construct the benchmark, sampling tasks</span>
-
-<span class="n">testing_envs</span> <span class="o">=</span> <span class="p">[]</span>
-<span class="k">for</span> <span class="n">name</span><span class="p">,</span> <span class="n">env_cls</span> <span class="ow">in</span> <span class="n">ml10</span><span class="o">.</span><span class="n">test_classes</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
-  <span class="n">env</span> <span class="o">=</span> <span class="n">env_cls</span><span class="p">()</span>
-  <span class="n">task</span> <span class="o">=</span> <span class="n">random</span><span class="o">.</span><span class="n">choice</span><span class="p">([</span><span class="n">task</span> <span class="k">for</span> <span class="n">task</span> <span class="ow">in</span> <span class="n">ml10</span><span class="o">.</span><span class="n">test_tasks</span>
-                        <span class="k">if</span> <span class="n">task</span><span class="o">.</span><span class="n">env_name</span> <span class="o">==</span> <span class="n">name</span><span class="p">])</span>
-  <span class="n">env</span><span class="o">.</span><span class="n">set_task</span><span class="p">(</span><span class="n">task</span><span class="p">)</span>
-  <span class="n">testing_envs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">env</span><span class="p">)</span>
-
-<span class="k">for</span> <span class="n">env</span> <span class="ow">in</span> <span class="n">testing_envs</span><span class="p">:</span>
-  <span class="n">obs</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>  <span class="c1"># Reset environment</span>
-  <span class="n">a</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>  <span class="c1"># Sample an action</span>
-  <span class="n">obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">info</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">a</span><span class="p">)</span>  <span class="c1"># Step the environment with the sampled random action</span>
-</pre></div>
-</div>
-</section>
-</section>
-<section id="accessing-single-goal-environments">
-<h2>Accessing Single Goal Environments<a class="headerlink" href="#accessing-single-goal-environments" title="Link to this heading">#</a></h2>
-<p>You may wish to only access individual environments used in the Meta-World benchmark for your research.
-We provide constructors for creating environments where the goal has been hidden (by zeroing out the goal in
-the observation) and environments where the goal is observable. They are called GoalHidden and GoalObservable
-environments respectively.</p>
-<p>You can access them in the following way:</p>
-<div class="highlight-python notranslate"><div class="highlight"><pre><span></span><span class="kn">from</span> <span class="nn">metaworld.envs</span> <span class="kn">import</span> <span class="p">(</span><span class="n">ALL_V2_ENVIRONMENTS_GOAL_OBSERVABLE</span><span class="p">,</span>
-                            <span class="n">ALL_V2_ENVIRONMENTS_GOAL_HIDDEN</span><span class="p">)</span>
-                            <span class="c1"># these are ordered dicts where the key : value</span>
-                            <span class="c1"># is env_name : env_constructor</span>
-
-<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
-
-<span class="n">door_open_goal_observable_cls</span> <span class="o">=</span> <span class="n">ALL_V2_ENVIRONMENTS_GOAL_OBSERVABLE</span><span class="p">[</span><span class="s2">&quot;door-open-v2-goal-observable&quot;</span><span class="p">]</span>
-<span class="n">door_open_goal_hidden_cls</span> <span class="o">=</span> <span class="n">ALL_V2_ENVIRONMENTS_GOAL_HIDDEN</span><span class="p">[</span><span class="s2">&quot;door-open-v2-goal-hidden&quot;</span><span class="p">]</span>
-
-<span class="n">env</span> <span class="o">=</span> <span class="n">door_open_goal_hidden_cls</span><span class="p">()</span>
-<span class="n">env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>  <span class="c1"># Reset environment</span>
-<span class="n">a</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>  <span class="c1"># Sample an action</span>
-<span class="n">obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">info</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">a</span><span class="p">)</span>  <span class="c1"># Step the environment with the sampled random action</span>
-<span class="k">assert</span> <span class="p">(</span><span class="n">obs</span><span class="p">[</span><span class="o">-</span><span class="mi">3</span><span class="p">:]</span> <span class="o">==</span> <span class="n">np</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="mi">3</span><span class="p">))</span><span class="o">.</span><span class="n">all</span><span class="p">()</span> <span class="c1"># goal will be zeroed out because env is HiddenGoal</span>
-
-<span class="c1"># You can choose to initialize the random seed of the environment.</span>
-<span class="c1"># The state of your rng will remain unaffected after the environment is constructed.</span>
-<span class="n">env1</span> <span class="o">=</span> <span class="n">door_open_goal_observable_cls</span><span class="p">(</span><span class="n">seed</span><span class="o">=</span><span class="mi">5</span><span class="p">)</span>
-<span class="n">env2</span> <span class="o">=</span> <span class="n">door_open_goal_observable_cls</span><span class="p">(</span><span class="n">seed</span><span class="o">=</span><span class="mi">5</span><span class="p">)</span>
-
-<span class="n">env1</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>  <span class="c1"># Reset environment</span>
-<span class="n">env2</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
-<span class="n">a1</span> <span class="o">=</span> <span class="n">env1</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>  <span class="c1"># Sample an action</span>
-<span class="n">a2</span> <span class="o">=</span> <span class="n">env2</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>
-<span class="n">next_obs1</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">env1</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">a1</span><span class="p">)</span>  <span class="c1"># Step the environment with the sampled random action</span>
-
-<span class="n">next_obs2</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">env2</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">a2</span><span class="p">)</span>
-<span class="k">assert</span> <span class="p">(</span><span class="n">next_obs1</span><span class="p">[</span><span class="o">-</span><span class="mi">3</span><span class="p">:]</span> <span class="o">==</span> <span class="n">next_obs2</span><span class="p">[</span><span class="o">-</span><span class="mi">3</span><span class="p">:])</span><span class="o">.</span><span class="n">all</span><span class="p">()</span> <span class="c1"># 2 envs initialized with the same seed will have the same goal</span>
-<span class="k">assert</span> <span class="ow">not</span> <span class="p">(</span><span class="n">next_obs2</span><span class="p">[</span><span class="o">-</span><span class="mi">3</span><span class="p">:]</span> <span class="o">==</span> <span class="n">np</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="mi">3</span><span class="p">))</span><span class="o">.</span><span class="n">all</span><span class="p">()</span>   <span class="c1"># The env&#39;s are goal observable, meaning the goal is not zero&#39;d out</span>
-
-<span class="n">env3</span> <span class="o">=</span> <span class="n">door_open_goal_observable_cls</span><span class="p">(</span><span class="n">seed</span><span class="o">=</span><span class="mi">10</span><span class="p">)</span>  <span class="c1"># Construct an environment with a different seed</span>
-<span class="n">env1</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>  <span class="c1"># Reset environment</span>
-<span class="n">env3</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
-<span class="n">a1</span> <span class="o">=</span> <span class="n">env1</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>  <span class="c1"># Sample an action</span>
-<span class="n">a3</span> <span class="o">=</span> <span class="n">env3</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>
-<span class="n">next_obs1</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">env1</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">a1</span><span class="p">)</span>  <span class="c1"># Step the environment with the sampled random action</span>
-<span class="n">next_obs3</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">env3</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">a3</span><span class="p">)</span>
-
-<span class="k">assert</span> <span class="ow">not</span> <span class="p">(</span><span class="n">next_obs1</span><span class="p">[</span><span class="o">-</span><span class="mi">3</span><span class="p">:]</span> <span class="o">==</span> <span class="n">next_obs3</span><span class="p">[</span><span class="o">-</span><span class="mi">3</span><span class="p">:])</span><span class="o">.</span><span class="n">all</span><span class="p">()</span> <span class="c1"># 2 envs initialized with different seeds will have different goals</span>
-<span class="k">assert</span> <span class="ow">not</span> <span class="p">(</span><span class="n">next_obs1</span><span class="p">[</span><span class="o">-</span><span class="mi">3</span><span class="p">:]</span> <span class="o">==</span> <span class="n">np</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="mi">3</span><span class="p">))</span><span class="o">.</span><span class="n">all</span><span class="p">()</span>   <span class="c1"># The env&#39;s are goal observable, meaning the goal is not zero&#39;d out</span>
-
 </pre></div>
 </div>
 </section>
@@ -727,4 +580,4 @@ <h2>Accessing Single Goal Environments<a class="headerlink" href="#accessing-sin
     </script>
 
     </body>
-</html>
\ No newline at end of file
+</html>