diff --git a/config.yaml b/config.yaml
index 14cdcc7..b095e80 100644
--- a/config.yaml
+++ b/config.yaml
@@ -167,10 +167,10 @@ datasets:
           id: syn51942280.4
           format: csv
         - name: ensg_to_uniprot_mapping
-          id: syn54113663.3
+          id: syn54113663.5
           format: tsv
         - name: pharos_classes
-          id: syn64123611.1
+          id: syn64123611.2
           format: csv
       final_format: json
       custom_transformations:
@@ -203,8 +203,8 @@ datasets:
         - syn27211878.2
         - *genes_biodomains_provenance
         - syn51942280.4
-        - syn54113663.3
-        - syn64123611.1
+        - syn54113663.5
+        - syn64123611.2
       agora_rename:
         symbol: hgnc_symbol
       destination: *dest
diff --git a/data_analysis/agora/notebooks/preprocessing/AG-1388_ENSG_Uniprot_Mapping.ipynb b/data_analysis/agora/notebooks/preprocessing/AG-1388_ENSG_Uniprot_Mapping.ipynb
index 2b36988..d9069d9 100644
--- a/data_analysis/agora/notebooks/preprocessing/AG-1388_ENSG_Uniprot_Mapping.ipynb
+++ b/data_analysis/agora/notebooks/preprocessing/AG-1388_ENSG_Uniprot_Mapping.ipynb
@@ -32,6 +32,22 @@
     "config_filename = \"../../../../config.yaml\""
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Get the list of nominated targets for Agora"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "targets_df = preprocessing_utils.load_file_with_name(\"target_list\", config_filename=config_filename)"
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -49,8 +65,7 @@
    "source": [
     "ensembl_ids = preprocessing_utils.get_all_adt_ensembl_ids(\n",
     "    config_filename=config_filename,\n",
-    "    exclude_files=[\"gene_metadata\", \"druggability\"],\n",
-    "    token=None,\n",
+    "    exclude_files=[\"gene_metadata\", \"ensg_to_uniprot_mapping\"],\n",
     ")\n",
     "print(\"\")\n",
     "print(str(len(ensembl_ids)) + \" Ensembl IDs found.\")"
@@ -65,52 +80,9 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
+   "execution_count": null,
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Querying genes 1 - 1000\n",
-      "Querying genes 1001 - 2000\n",
-      "Querying genes 2001 - 3000\n",
-      "Querying genes 3001 - 4000\n",
-      "Querying genes 4001 - 5000\n",
-      "Querying genes 5001 - 6000\n",
-      "Querying genes 6001 - 7000\n",
-      "Querying genes 7001 - 8000\n",
-      "Querying genes 8001 - 9000\n",
-      "Querying genes 9001 - 10000\n",
-      "Querying genes 10001 - 11000\n",
-      "Querying genes 11001 - 12000\n",
-      "Querying genes 12001 - 13000\n",
-      "Querying genes 13001 - 14000\n",
-      "Querying genes 14001 - 15000\n",
-      "Querying genes 15001 - 16000\n",
-      "Querying genes 16001 - 17000\n",
-      "Querying genes 17001 - 18000\n",
-      "Querying genes 18001 - 19000\n",
-      "Querying genes 19001 - 20000\n",
-      "Querying genes 20001 - 21000\n",
-      "Querying genes 21001 - 22000\n",
-      "Querying genes 22001 - 23000\n",
-      "Querying genes 23001 - 24000\n",
-      "Querying genes 24001 - 25000\n",
-      "Querying genes 25001 - 26000\n",
-      "Querying genes 26001 - 27000\n",
-      "Querying genes 27001 - 28000\n",
-      "Querying genes 28001 - 29000\n",
-      "Querying genes 29001 - 30000\n",
-      "Querying genes 30001 - 31000\n",
-      "Querying genes 31001 - 32000\n",
-      "Querying genes 32001 - 33000\n",
-      "Querying genes 33001 - 34000\n",
-      "Querying genes 34001 - 35000\n",
-      "Querying genes 35001 - 35858\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "# Break the query into smaller chunks to avoid long jobs that could fail\n",
     "batch_ind = range(0, len(ensembl_ids), 1000)\n",
@@ -138,128 +110,29 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": null,
    "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>UniProtKB_accession</th>\n",
-       "      <th>RESOURCE_IDENTIFIER</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>A0A075B6I4</td>\n",
-       "      <td>ENSG00000211642</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>Q13641</td>\n",
-       "      <td>ENSG00000146242</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>Q6PCB7</td>\n",
-       "      <td>ENSG00000130304</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>Q7Z591</td>\n",
-       "      <td>ENSG00000106948</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>Q5SZD1</td>\n",
-       "      <td>ENSG00000197261</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>18456</th>\n",
-       "      <td>Q6ZUI0</td>\n",
-       "      <td>ENSG00000188001</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>18457</th>\n",
-       "      <td>O43747</td>\n",
-       "      <td>ENSG00000166747</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>18458</th>\n",
-       "      <td>Q9UBU2</td>\n",
-       "      <td>ENSG00000155011</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>18459</th>\n",
-       "      <td>Q86VY9</td>\n",
-       "      <td>ENSG00000164484</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>18460</th>\n",
-       "      <td>P02655</td>\n",
-       "      <td>ENSG00000234906</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>18461 rows × 2 columns</p>\n",
-       "</div>"
-      ],
-      "text/plain": [
-       "      UniProtKB_accession RESOURCE_IDENTIFIER\n",
-       "0              A0A075B6I4     ENSG00000211642\n",
-       "1                  Q13641     ENSG00000146242\n",
-       "2                  Q6PCB7     ENSG00000130304\n",
-       "3                  Q7Z591     ENSG00000106948\n",
-       "4                  Q5SZD1     ENSG00000197261\n",
-       "...                   ...                 ...\n",
-       "18456              Q6ZUI0     ENSG00000188001\n",
-       "18457              O43747     ENSG00000166747\n",
-       "18458              Q9UBU2     ENSG00000155011\n",
-       "18459              Q86VY9     ENSG00000164484\n",
-       "18460              P02655     ENSG00000234906\n",
-       "\n",
-       "[18461 rows x 2 columns]"
-      ]
-     },
-     "execution_count": 6,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "mapping = pd.DataFrame(results).rename(\n",
     "    columns={\"from\": \"RESOURCE_IDENTIFIER\", \"to\": \"UniProtKB_accession\"}\n",
     ")\n",
     "mapping = mapping[[\"UniProtKB_accession\", \"RESOURCE_IDENTIFIER\"]]\n",
+    "\n",
+    "nomination_string = \"Agora Nominated Target for Alzheimer’s Disease\"\n",
+    "\n",
+    "mapping[\"OPTIONAL_INFORMATION\"] = \"\"\n",
+    "mapping[\"OPTIONAL_INFORMATION\"].loc[\n",
+    "    mapping[\"RESOURCE_IDENTIFIER\"].isin(targets_df[\"ensembl_gene_id\"])\n",
+    "] = nomination_string\n",
+    "\n",
+    "mapping = mapping.sort_values(by=\"RESOURCE_IDENTIFIER\")\n",
     "mapping"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
+   "execution_count": null,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -282,17 +155,9 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": null,
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "18437 of 35858 (51.42%) Ensembl IDs match to an accession\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "matches = len(mapping[\"RESOURCE_IDENTIFIER\"].drop_duplicates())\n",
     "total = len(ensembl_ids)\n",
@@ -310,341 +175,13 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 10,
+   "execution_count": null,
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "23 Ensembl IDs map to more than one UniProt accession\n"
-     ]
-    },
-    {
-     "data": {
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>UniProtKB_accession</th>\n",
-       "      <th>RESOURCE_IDENTIFIER</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>538</th>\n",
-       "      <td>P0CAP2</td>\n",
-       "      <td>ENSG00000255529</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>539</th>\n",
-       "      <td>Q6EEV4</td>\n",
-       "      <td>ENSG00000255529</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2499</th>\n",
-       "      <td>O95467</td>\n",
-       "      <td>ENSG00000087460</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2500</th>\n",
-       "      <td>P63092</td>\n",
-       "      <td>ENSG00000087460</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2501</th>\n",
-       "      <td>Q5JWF2</td>\n",
-       "      <td>ENSG00000087460</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2846</th>\n",
-       "      <td>P39880</td>\n",
-       "      <td>ENSG00000257923</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2847</th>\n",
-       "      <td>Q13948</td>\n",
-       "      <td>ENSG00000257923</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2943</th>\n",
-       "      <td>O96007</td>\n",
-       "      <td>ENSG00000164172</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2944</th>\n",
-       "      <td>O96033</td>\n",
-       "      <td>ENSG00000164172</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4298</th>\n",
-       "      <td>Q8NFQ8</td>\n",
-       "      <td>ENSG00000169905</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4299</th>\n",
-       "      <td>Q9H496</td>\n",
-       "      <td>ENSG00000169905</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>5330</th>\n",
-       "      <td>O43687</td>\n",
-       "      <td>ENSG00000118507</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>5331</th>\n",
-       "      <td>Q9P0M2</td>\n",
-       "      <td>ENSG00000118507</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>5381</th>\n",
-       "      <td>P01258</td>\n",
-       "      <td>ENSG00000110680</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>5382</th>\n",
-       "      <td>P06881</td>\n",
-       "      <td>ENSG00000110680</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>7359</th>\n",
-       "      <td>P0DI83</td>\n",
-       "      <td>ENSG00000109113</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>7360</th>\n",
-       "      <td>Q9BZG1</td>\n",
-       "      <td>ENSG00000109113</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>7750</th>\n",
-       "      <td>P58400</td>\n",
-       "      <td>ENSG00000179915</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>7751</th>\n",
-       "      <td>Q9ULB1</td>\n",
-       "      <td>ENSG00000179915</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>10712</th>\n",
-       "      <td>O00241</td>\n",
-       "      <td>ENSG00000101307</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>10713</th>\n",
-       "      <td>Q5TFQ8</td>\n",
-       "      <td>ENSG00000101307</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>10844</th>\n",
-       "      <td>P42771</td>\n",
-       "      <td>ENSG00000147889</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>10845</th>\n",
-       "      <td>Q8N726</td>\n",
-       "      <td>ENSG00000147889</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>11763</th>\n",
-       "      <td>P60896</td>\n",
-       "      <td>ENSG00000127922</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>11764</th>\n",
-       "      <td>Q6ZVN7</td>\n",
-       "      <td>ENSG00000127922</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>12590</th>\n",
-       "      <td>P0DPB5</td>\n",
-       "      <td>ENSG00000186184</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>12591</th>\n",
-       "      <td>P0DPB6</td>\n",
-       "      <td>ENSG00000186184</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>12797</th>\n",
-       "      <td>P58401</td>\n",
-       "      <td>ENSG00000110076</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>12798</th>\n",
-       "      <td>Q9P2S2</td>\n",
-       "      <td>ENSG00000110076</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>13051</th>\n",
-       "      <td>Q9HDB5</td>\n",
-       "      <td>ENSG00000021645</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>13052</th>\n",
-       "      <td>Q9Y4C0</td>\n",
-       "      <td>ENSG00000021645</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>13521</th>\n",
-       "      <td>A8MTL9</td>\n",
-       "      <td>ENSG00000221887</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>13522</th>\n",
-       "      <td>P0C7T4</td>\n",
-       "      <td>ENSG00000221887</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>13855</th>\n",
-       "      <td>B7ZAP0</td>\n",
-       "      <td>ENSG00000152061</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>13856</th>\n",
-       "      <td>Q5R372</td>\n",
-       "      <td>ENSG00000152061</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14724</th>\n",
-       "      <td>P42166</td>\n",
-       "      <td>ENSG00000120802</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14725</th>\n",
-       "      <td>P42167</td>\n",
-       "      <td>ENSG00000120802</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14894</th>\n",
-       "      <td>E9PAV3</td>\n",
-       "      <td>ENSG00000196531</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14895</th>\n",
-       "      <td>Q13765</td>\n",
-       "      <td>ENSG00000196531</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>15965</th>\n",
-       "      <td>Q96PG8</td>\n",
-       "      <td>ENSG00000105327</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>15966</th>\n",
-       "      <td>Q9BXH1</td>\n",
-       "      <td>ENSG00000105327</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>16364</th>\n",
-       "      <td>Q5JU69</td>\n",
-       "      <td>ENSG00000160404</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>16365</th>\n",
-       "      <td>Q8N2E6</td>\n",
-       "      <td>ENSG00000160404</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>16539</th>\n",
-       "      <td>Q96RT6</td>\n",
-       "      <td>ENSG00000212710</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>16540</th>\n",
-       "      <td>Q9HC47</td>\n",
-       "      <td>ENSG00000212710</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>17256</th>\n",
-       "      <td>P0DP91</td>\n",
-       "      <td>ENSG00000225830</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>17257</th>\n",
-       "      <td>Q03468</td>\n",
-       "      <td>ENSG00000225830</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ],
-      "text/plain": [
-       "      UniProtKB_accession RESOURCE_IDENTIFIER\n",
-       "538                P0CAP2     ENSG00000255529\n",
-       "539                Q6EEV4     ENSG00000255529\n",
-       "2499               O95467     ENSG00000087460\n",
-       "2500               P63092     ENSG00000087460\n",
-       "2501               Q5JWF2     ENSG00000087460\n",
-       "2846               P39880     ENSG00000257923\n",
-       "2847               Q13948     ENSG00000257923\n",
-       "2943               O96007     ENSG00000164172\n",
-       "2944               O96033     ENSG00000164172\n",
-       "4298               Q8NFQ8     ENSG00000169905\n",
-       "4299               Q9H496     ENSG00000169905\n",
-       "5330               O43687     ENSG00000118507\n",
-       "5331               Q9P0M2     ENSG00000118507\n",
-       "5381               P01258     ENSG00000110680\n",
-       "5382               P06881     ENSG00000110680\n",
-       "7359               P0DI83     ENSG00000109113\n",
-       "7360               Q9BZG1     ENSG00000109113\n",
-       "7750               P58400     ENSG00000179915\n",
-       "7751               Q9ULB1     ENSG00000179915\n",
-       "10712              O00241     ENSG00000101307\n",
-       "10713              Q5TFQ8     ENSG00000101307\n",
-       "10844              P42771     ENSG00000147889\n",
-       "10845              Q8N726     ENSG00000147889\n",
-       "11763              P60896     ENSG00000127922\n",
-       "11764              Q6ZVN7     ENSG00000127922\n",
-       "12590              P0DPB5     ENSG00000186184\n",
-       "12591              P0DPB6     ENSG00000186184\n",
-       "12797              P58401     ENSG00000110076\n",
-       "12798              Q9P2S2     ENSG00000110076\n",
-       "13051              Q9HDB5     ENSG00000021645\n",
-       "13052              Q9Y4C0     ENSG00000021645\n",
-       "13521              A8MTL9     ENSG00000221887\n",
-       "13522              P0C7T4     ENSG00000221887\n",
-       "13855              B7ZAP0     ENSG00000152061\n",
-       "13856              Q5R372     ENSG00000152061\n",
-       "14724              P42166     ENSG00000120802\n",
-       "14725              P42167     ENSG00000120802\n",
-       "14894              E9PAV3     ENSG00000196531\n",
-       "14895              Q13765     ENSG00000196531\n",
-       "15965              Q96PG8     ENSG00000105327\n",
-       "15966              Q9BXH1     ENSG00000105327\n",
-       "16364              Q5JU69     ENSG00000160404\n",
-       "16365              Q8N2E6     ENSG00000160404\n",
-       "16539              Q96RT6     ENSG00000212710\n",
-       "16540              Q9HC47     ENSG00000212710\n",
-       "17256              P0DP91     ENSG00000225830\n",
-       "17257              Q03468     ENSG00000225830"
-      ]
-     },
-     "execution_count": 10,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "dupes = mapping[\"RESOURCE_IDENTIFIER\"].loc[mapping[\"RESOURCE_IDENTIFIER\"].duplicated()].drop_duplicates()\n",
     "print(f'{len(dupes):d} Ensembl IDs map to more than one UniProt accession')\n",
-    "mapping.loc[mapping[\"RESOURCE_IDENTIFIER\"].isin(dupes)]"
+    "mapping.loc[mapping[\"RESOURCE_IDENTIFIER\"].isin(dupes)].sort_values(by=\"RESOURCE_IDENTIFIER\")"
    ]
   },
   {
@@ -656,128 +193,42 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": null,
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "28 UniProt accessions map to more than one Ensembl ID\n"
-     ]
-    },
-    {
-     "data": {
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>UniProtKB_accession</th>\n",
-       "      <th>RESOURCE_IDENTIFIER</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>498</th>\n",
-       "      <td>Q08493</td>\n",
-       "      <td>ENSG00000285188</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>664</th>\n",
-       "      <td>Q5JQF8</td>\n",
-       "      <td>ENSG00000184388</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>845</th>\n",
-       "      <td>P62805</td>\n",
-       "      <td>ENSG00000197061</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1474</th>\n",
-       "      <td>Q71DI3</td>\n",
-       "      <td>ENSG00000203852</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1553</th>\n",
-       "      <td>P0C0S8</td>\n",
-       "      <td>ENSG00000196747</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>17564</th>\n",
-       "      <td>Q08493</td>\n",
-       "      <td>ENSG00000105650</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>18069</th>\n",
-       "      <td>P01562</td>\n",
-       "      <td>ENSG00000197919</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>18161</th>\n",
-       "      <td>P62805</td>\n",
-       "      <td>ENSG00000278705</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>18253</th>\n",
-       "      <td>P62807</td>\n",
-       "      <td>ENSG00000277224</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>18335</th>\n",
-       "      <td>Q9H3K6</td>\n",
-       "      <td>ENSG00000183336</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>78 rows × 2 columns</p>\n",
-       "</div>"
-      ],
-      "text/plain": [
-       "      UniProtKB_accession RESOURCE_IDENTIFIER\n",
-       "498                Q08493     ENSG00000285188\n",
-       "664                Q5JQF8     ENSG00000184388\n",
-       "845                P62805     ENSG00000197061\n",
-       "1474               Q71DI3     ENSG00000203852\n",
-       "1553               P0C0S8     ENSG00000196747\n",
-       "...                   ...                 ...\n",
-       "17564              Q08493     ENSG00000105650\n",
-       "18069              P01562     ENSG00000197919\n",
-       "18161              P62805     ENSG00000278705\n",
-       "18253              P62807     ENSG00000277224\n",
-       "18335              Q9H3K6     ENSG00000183336\n",
-       "\n",
-       "[78 rows x 2 columns]"
-      ]
-     },
-     "execution_count": 11,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "dupes2 = mapping[\"UniProtKB_accession\"].loc[mapping[\"UniProtKB_accession\"].duplicated()].drop_duplicates()\n",
     "print(f'{len(dupes2):d} UniProt accessions map to more than one Ensembl ID')\n",
-    "mapping.loc[mapping[\"UniProtKB_accession\"].isin(dupes2)]"
+    "mapping.loc[mapping[\"UniProtKB_accession\"].isin(dupes2)].sort_values(by=\"UniProtKB_accession\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Are any nominated targets missing a Uniprot accession?"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "ens = targets_df[\"ensembl_gene_id\"].drop_duplicates()\n",
+    "missing = len(ens) - sum(ens.isin(mapping[\"RESOURCE_IDENTIFIER\"]))\n",
+    "\n",
+    "if missing == 0:\n",
+    "    print(\"All nominated targets have a matching UniProt accession.\")\n",
+    "\n",
+    "else:\n",
+    "    print(f\"{missing} of {len(ens)} nominated targets are missing a UniProt accession.\")\n",
+    "    missing_ens = [x for x in ens if x not in list(mapping[\"RESOURCE_IDENTIFIER\"])]\n",
+    "    print(\n",
+    "        targets_df[targets_df[\"ensembl_gene_id\"].isin(missing_ens)][\n",
+    "            [\"ensembl_gene_id\", \"hgnc_symbol\"]\n",
+    "        ]\n",
+    "    )"
    ]
   }
  ],
diff --git a/data_analysis/agora/notebooks/preprocessing/preprocessing_utils.py b/data_analysis/agora/notebooks/preprocessing/preprocessing_utils.py
index e85f441..106867f 100644
--- a/data_analysis/agora/notebooks/preprocessing/preprocessing_utils.py
+++ b/data_analysis/agora/notebooks/preprocessing/preprocessing_utils.py
@@ -336,6 +336,40 @@ def _extract_ensembl_ids(
     return list(set(file_ensembl_ids))
 
 
+def load_file_with_name(
+    file_name: str, config_filename: str, token: str = None
+) -> Union[pd.DataFrame, None]:
+    """
+    Loops through a config file, finds the input file config that matches file_name, and downloads
+    and reads the file in as a pandas data frame.
+
+    Args:
+        file_name: the name of the data to load, which should match what is in the "name" field in
+                   the config file
+        config_filename: path to the config YAML file
+        token: optional, a Synapse auth token
+
+    Returns:
+        a pandas.DataFrame, if a file matching file_name exists in the config, or
+        None, if no file spec with that name exists
+    """
+    syn = utils._login_to_synapse(token=token)
+    config = utils._get_config(config_path=config_filename)
+    datasets = config["datasets"]
+
+    for dataset in datasets:
+        dataset_name = list(dataset.keys())[0]
+
+        for file in dataset[dataset_name]["files"]:
+            if file["name"] == file_name:
+                df = extract.get_entity_as_df(
+                    syn_id=file["id"], source=file["format"], syn=syn
+                )
+                return df
+
+    return None
+
+
 def standardize_list_item(item: Union[str, List[str]]) -> List[str]:
     """
     For the gene_metadata data frame, some queries return columns that are a mixture of None/NaN,
@@ -372,7 +406,7 @@ def standardize_list_item(item: Union[str, List[str]]) -> List[str]:
 
 def merge_duplicate_ensembl_ids(gene_table: pd.DataFrame) -> pd.DataFrame:
     """
-    MyGene queries sometimes return multiple rows rows with the same Ensembl ID but different symbols
+    MyGene queries sometimes return multiple rows with the same Ensembl ID but different symbols
     or other information. This usually happens when a single Ensembl ID maps to multiple Entrez IDs
     in the NCBI database. There's not a good way to reconcile this, so for every set of rows with the
     same Ensembl ID, we designate the first entry in the as the main row. The gene symbols of the
diff --git a/test_config.yaml b/test_config.yaml
index 8372878..6ed5754 100644
--- a/test_config.yaml
+++ b/test_config.yaml
@@ -167,10 +167,10 @@ datasets:
           id: syn51942280.4
           format: csv
         - name: ensg_to_uniprot_mapping
-          id: syn54113663.3
+          id: syn54113663.5
           format: tsv
         - name: pharos_classes
-          id: syn64123611.1
+          id: syn64123611.2
           format: csv
       final_format: json
       custom_transformations:
@@ -203,8 +203,8 @@ datasets:
         - syn27211878.2
         - *genes_biodomains_provenance
         - syn51942280.4
-        - syn54113663.3
-        - syn64123611.1
+        - syn54113663.5
+        - syn64123611.2
       agora_rename:
         symbol: hgnc_symbol
       destination: *dest