From 83abf20b774a5d5354bada2fe044cc3dfaaf4daa Mon Sep 17 00:00:00 2001
From: Pablo Rodriguez Mira <36644554+PabloRMira@users.noreply.github.com>
Date: Sat, 23 Jan 2021 22:33:16 +0100
Subject: [PATCH] [MNT] Robustify comment assignment (#141)

---
 docs/utils.html        |  6 +++---
 nbs/02_utils.ipynb     | 17 +++++++++++------
 sql_formatter/utils.py | 13 +++++++++----
 3 files changed, 23 insertions(+), 13 deletions(-)
diff --git a/docs/utils.html b/docs/utils.html
index c84908e..ac3cc60 100644
--- a/docs/utils.html
+++ b/docs/utils.html
@@ -2776,7 +2776,7 @@ <h4 id="jaccard_distance" class="doc_header"><code>jaccard_distance</code><a hre
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="assign_comment" class="doc_header"><code>assign_comment</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L609" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>assign_comment</code>(<strong><code>fs</code></strong>, <strong><code>cds</code></strong>)</p>
+<h4 id="assign_comment" class="doc_header"><code>assign_comment</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L613" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>assign_comment</code>(<strong><code>fs</code></strong>, <strong><code>cds</code></strong>)</p>
 </blockquote>
 <p>Assign comments in list of dictionaries <code>cds</code> to formatted string <code>fs</code> using Jaccard distance</p>
 <p>The comment dictionaries <code>cds</code> should contain the keys "comment" and "preceding" (string)</p>
@@ -2818,8 +2818,8 @@ <h4 id="assign_comment" class="doc_header"><code>assign_comment</code><a href="h
 <span class="sd">&quot;&quot;&quot;</span><span class="o">.</span><span class="n">strip</span><span class="p">(),</span>
         <span class="p">[</span>
             <span class="p">{</span><span class="s2">&quot;comment&quot;</span><span class="p">:</span> <span class="s2">&quot;/* some comment */[C]&quot;</span><span class="p">,</span> <span class="s2">&quot;preceding&quot;</span><span class="p">:</span> <span class="s2">&quot;select asdf, qwer, &quot;</span><span class="p">},</span>
-            <span class="p">{</span><span class="s2">&quot;comment&quot;</span><span class="p">:</span> <span class="s2">&quot;-- comment there[C]&quot;</span><span class="p">,</span> <span class="s2">&quot;preceding&quot;</span><span class="p">:</span> <span class="s2">&quot;case when asdf = 1&quot;</span><span class="p">},</span>
-            <span class="p">{</span><span class="s2">&quot;comment&quot;</span><span class="p">:</span> <span class="s2">&quot;-- comment here[C]&quot;</span><span class="p">,</span> <span class="s2">&quot;preceding&quot;</span><span class="p">:</span> <span class="s2">&quot;and asdf = 2&quot;</span><span class="p">},</span>
+            <span class="p">{</span><span class="s2">&quot;comment&quot;</span><span class="p">:</span> <span class="s2">&quot;-- comment there[C]&quot;</span><span class="p">,</span> <span class="s2">&quot;preceding&quot;</span><span class="p">:</span> <span class="s2">&quot;case when asdf = 1 &quot;</span><span class="p">},</span>
+            <span class="p">{</span><span class="s2">&quot;comment&quot;</span><span class="p">:</span> <span class="s2">&quot;-- comment here[C]&quot;</span><span class="p">,</span> <span class="s2">&quot;preceding&quot;</span><span class="p">:</span> <span class="s2">&quot;and asdf = 2 &quot;</span><span class="p">},</span>
             <span class="p">{</span><span class="s2">&quot;comment&quot;</span><span class="p">:</span> <span class="s2">&quot;/* bla bla */[C]&quot;</span><span class="p">,</span> <span class="s2">&quot;preceding&quot;</span><span class="p">:</span> <span class="s2">&quot;then 2 when asdf = 3 then 3&quot;</span><span class="p">}</span>
         <span class="p">]</span>
     <span class="p">),</span>
diff --git a/nbs/02_utils.ipynb b/nbs/02_utils.ipynb
index 2217510..907c8f1 100644
--- a/nbs/02_utils.ipynb
+++ b/nbs/02_utils.ipynb
@@ -2141,8 +2141,12 @@
     "#export\n",
     "def jaccard_distance(str1, str2):\n",
     "    \"Calculate the Jaccard distance between two strings by word\"\n",
-    "    set1 = set(str1.split())\n",
-    "    set2 = set(str2.split())\n",
+    "    split1 = re.split(r\"(?:\\s|,)\", str1)\n",
+    "    split1 = [sp for sp in split1 if sp != \"\"]\n",
+    "    split2 = re.split(r\"(?:\\s|,)\", str2)\n",
+    "    split2 = [sp for sp in split2 if sp != \"\"]    \n",
+    "    set1 = set(split1)\n",
+    "    set2 = set(split2)\n",
     "    return float(len(set1 & set2) / len(set1 | set2))"
    ]
   },
@@ -2168,9 +2172,10 @@
     "    match_beginn_cs = re.compile(r\"^\\[CS\\]\")\n",
     "    replace_select = re.compile(r\"\\b(?:select distinct |select )\", flags=re.I)\n",
     "    # loop on comments to be assigned\n",
-    "    for d in cds:\n",
+    "    for i, d in enumerate(cds):\n",
+    "        cum_preceding = \"\".join([d[\"preceding\"] for d in cds[0:i+1]])\n",
     "        cp_list = [\n",
-    "            jaccard_distance(replace_and_or.sub(\"\", s.strip()), d[\"preceding\"])\n",
+    "            jaccard_distance(replace_and_or.sub(\"\", s.strip()), cum_preceding)\n",
     "            for s in accumulate([s for s in fsplit_s], operator.add)\n",
     "        ]\n",
     "        # get line number with maximal jaccard distance (most similar)\n",
@@ -2226,8 +2231,8 @@
     "\"\"\".strip(),\n",
     "        [\n",
     "            {\"comment\": \"/* some comment */[C]\", \"preceding\": \"select asdf, qwer, \"},\n",
-    "            {\"comment\": \"-- comment there[C]\", \"preceding\": \"case when asdf = 1\"},\n",
-    "            {\"comment\": \"-- comment here[C]\", \"preceding\": \"and asdf = 2\"},\n",
+    "            {\"comment\": \"-- comment there[C]\", \"preceding\": \"case when asdf = 1 \"},\n",
+    "            {\"comment\": \"-- comment here[C]\", \"preceding\": \"and asdf = 2 \"},\n",
     "            {\"comment\": \"/* bla bla */[C]\", \"preceding\": \"then 2 when asdf = 3 then 3\"}\n",
     "        ]\n",
     "    ),\n",
diff --git a/sql_formatter/utils.py b/sql_formatter/utils.py
index e2614e4..5b03171 100644
--- a/sql_formatter/utils.py
+++ b/sql_formatter/utils.py
@@ -601,8 +601,12 @@ def find_line_number(s, positions):
 # Cell
 def jaccard_distance(str1, str2):
     "Calculate the Jaccard distance between two strings by word"
-    set1 = set(str1.split())
-    set2 = set(str2.split())
+    split1 = re.split(r"(?:\s|,)", str1)
+    split1 = [sp for sp in split1 if sp != ""]
+    split2 = re.split(r"(?:\s|,)", str2)
+    split2 = [sp for sp in split2 if sp != ""]
+    set1 = set(split1)
+    set2 = set(split2)
     return float(len(set1 & set2) / len(set1 | set2))
 
 # Cell
@@ -621,9 +625,10 @@ def assign_comment(fs, cds):
     match_beginn_cs = re.compile(r"^\[CS\]")
     replace_select = re.compile(r"\b(?:select distinct |select )", flags=re.I)
     # loop on comments to be assigned
-    for d in cds:
+    for i, d in enumerate(cds):
+        cum_preceding = "".join([d["preceding"] for d in cds[0:i+1]])
         cp_list = [
-            jaccard_distance(replace_and_or.sub("", s.strip()), d["preceding"])
+            jaccard_distance(replace_and_or.sub("", s.strip()), cum_preceding)
             for s in accumulate([s for s in fsplit_s], operator.add)
         ]
         # get line number with maximal jaccard distance (most similar)