From 5ca00b71acec3116bc9a0336686e55204f248d7c Mon Sep 17 00:00:00 2001
From: Pablo Rodriguez Mira <36644554+PabloRMira@users.noreply.github.com>
Date: Fri, 30 Apr 2021 23:29:23 +0200
Subject: [PATCH] [FIX] Table names that include the substring select in them
 break subsequent formatting (#167)

---
 docs/additional_tests.html    | 101 ++++++++++++++++++++++++++++++++++
 docs/utils.html               |  38 ++++++-------
 nbs/00_core.ipynb             |  15 +----
 nbs/02_utils.ipynb            |   7 ++-
 nbs/99_additional_tests.ipynb |  90 +++++++++++++++++++++++++++++-
 sql_formatter/core.py         |   4 +-
 sql_formatter/utils.py        |   6 +-
 7 files changed, 223 insertions(+), 38 deletions(-)
diff --git a/docs/additional_tests.html b/docs/additional_tests.html
index 4ac6f9c..64fd8f3 100644
--- a/docs/additional_tests.html
+++ b/docs/additional_tests.html
@@ -119,6 +119,107 @@ <h3 id="format_sql">format_sql<a class="anchor-link" href="#format_sql"> </a></h
 </div>
 </div>
 
+</div>
+    {% endraw %}
+
+    {% raw %}
+    
+<div class="cell border-box-sizing code_cell rendered">
+<div class="input">
+
+<div class="inner_cell">
+    <div class="input_area">
+<div class=" highlight hl-ipython3"><pre><span></span><span class="n">assert_and_print</span><span class="p">(</span>
+    <span class="n">format_sql</span><span class="p">(</span>
+<span class="sd">&quot;&quot;&quot;SELECT var </span>
+<span class="sd">    FROM table_selection as a </span>
+<span class="sd">    LEFT JOIN table2 as b ON a.id = b.id </span>
+<span class="sd">    LEFT JOIN table3 as c ON a.id = c.id </span>
+<span class="sd">    ORDER BY 1</span>
+<span class="sd">&quot;&quot;&quot;</span><span class="p">),</span>
+<span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">SELECT var</span>
+<span class="sd">FROM   table_selection as a</span>
+<span class="sd">    LEFT JOIN table2 as b</span>
+<span class="sd">        ON a.id = b.id</span>
+<span class="sd">    LEFT JOIN table3 as c</span>
+<span class="sd">        ON a.id = c.id</span>
+<span class="sd">ORDER BY 1</span>
+<span class="sd">&quot;&quot;&quot;</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+<span class="p">)</span>
+</pre></div>
+
+    </div>
+</div>
+</div>
+
+<div class="output_wrapper">
+<div class="output">
+
+<div class="output_area">
+
+<div class="output_subarea output_stream output_stdout output_text">
+<pre>SELECT var
+FROM   table_selection as a
+    LEFT JOIN table2 as b
+        ON a.id = b.id
+    LEFT JOIN table3 as c
+        ON a.id = c.id
+ORDER BY 1
+</pre>
+</div>
+</div>
+
+</div>
+</div>
+
+</div>
+    {% endraw %}
+
+<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
+<div class="text_cell_render border-box-sizing rendered_html">
+<h2 id="utils">utils<a class="anchor-link" href="#utils"> </a></h2>
+</div>
+</div>
+</div>
+<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
+<div class="text_cell_render border-box-sizing rendered_html">
+<h3 id="split_query">split_query<a class="anchor-link" href="#split_query"> </a></h3>
+</div>
+</div>
+</div>
+    {% raw %}
+    
+<div class="cell border-box-sizing code_cell rendered">
+<div class="input">
+
+<div class="inner_cell">
+    <div class="input_area">
+<div class=" highlight hl-ipython3"><pre><span></span><span class="n">assert_and_print</span><span class="p">(</span>
+    <span class="n">split_query</span><span class="p">(</span><span class="s2">&quot;select var from table_selection&quot;</span><span class="p">),</span>
+    <span class="p">[{</span><span class="s2">&quot;string&quot;</span><span class="p">:</span> <span class="s2">&quot;select var &quot;</span><span class="p">,</span> <span class="s2">&quot;comment&quot;</span><span class="p">:</span> <span class="kc">False</span><span class="p">,</span> <span class="s2">&quot;quote&quot;</span><span class="p">:</span> <span class="kc">False</span><span class="p">,</span> <span class="s2">&quot;select&quot;</span><span class="p">:</span> <span class="kc">True</span><span class="p">},</span> 
+     <span class="p">{</span><span class="s2">&quot;string&quot;</span><span class="p">:</span> <span class="s2">&quot;from table_selection&quot;</span><span class="p">,</span> <span class="s2">&quot;comment&quot;</span><span class="p">:</span> <span class="kc">False</span><span class="p">,</span> <span class="s2">&quot;quote&quot;</span><span class="p">:</span> <span class="kc">False</span><span class="p">,</span> <span class="s2">&quot;select&quot;</span><span class="p">:</span> <span class="kc">False</span><span class="p">}]</span>
+<span class="p">)</span>
+</pre></div>
+
+    </div>
+</div>
+</div>
+
+<div class="output_wrapper">
+<div class="output">
+
+<div class="output_area">
+
+<div class="output_subarea output_stream output_stdout output_text">
+<pre>[{&#39;string&#39;: &#39;select var &#39;, &#39;comment&#39;: False, &#39;quote&#39;: False, &#39;select&#39;: True}, {&#39;string&#39;: &#39;from table_selection&#39;, &#39;comment&#39;: False, &#39;quote&#39;: False, &#39;select&#39;: False}]
+</pre>
+</div>
+</div>
+
+</div>
+</div>
+
 </div>
     {% endraw %}
 
diff --git a/docs/utils.html b/docs/utils.html
index 22e3c50..6a27489 100644
--- a/docs/utils.html
+++ b/docs/utils.html
@@ -1256,7 +1256,7 @@ <h4 id="split_query" class="doc_header"><code>split_query</code><a href="https:/
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="split_apply_concat" class="doc_header"><code>split_apply_concat</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L431" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>split_apply_concat</code>(<strong><code>s</code></strong>, <strong><code>f</code></strong>)</p>
+<h4 id="split_apply_concat" class="doc_header"><code>split_apply_concat</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L433" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>split_apply_concat</code>(<strong><code>s</code></strong>, <strong><code>f</code></strong>)</p>
 </blockquote>
 <p>Split query <code>s</code>, apply function <code>f</code> and concatenate strings</p>
 
@@ -1330,7 +1330,7 @@ <h4 id="Split-by-comment-/-non-comment,-quote-/-non-quote">Split by comment / no
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="split_comment_quote" class="doc_header"><code>split_comment_quote</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L436" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>split_comment_quote</code>(<strong><code>s</code></strong>)</p>
+<h4 id="split_comment_quote" class="doc_header"><code>split_comment_quote</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L438" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>split_comment_quote</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Split query <code>s</code> into dictionaries with keys 'string', 'comment' and 'quote'</p>
 
@@ -1458,7 +1458,7 @@ <h4 id="Split-by-comment-/-non-comment">Split by comment / non-comment<a class="
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="split_comment" class="doc_header"><code>split_comment</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L444" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>split_comment</code>(<strong><code>s</code></strong>)</p>
+<h4 id="split_comment" class="doc_header"><code>split_comment</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L446" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>split_comment</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Split query <code>s</code> into dictionaries with keys 'string', 'comment'</p>
 
@@ -1542,7 +1542,7 @@ <h3 id="Get-positions-of-specific-keywords-in-query-ignoring-comments">Get posit
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="identify_in_sql" class="doc_header"><code>identify_in_sql</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L452" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>identify_in_sql</code>(<strong><code>regex</code></strong>, <strong><code>s</code></strong>)</p>
+<h4 id="identify_in_sql" class="doc_header"><code>identify_in_sql</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L454" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>identify_in_sql</code>(<strong><code>regex</code></strong>, <strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Find positions of <code>regex</code> (str or list) in string <code>s</code> ignoring comment and text in quotes</p>
 
@@ -1716,7 +1716,7 @@ <h4 id="Split-individual-queries-based-on-semicolon">Split individual queries ba
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="split_by_semicolon" class="doc_header"><code>split_by_semicolon</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L472" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>split_by_semicolon</code>(<strong><code>s</code></strong>)</p>
+<h4 id="split_by_semicolon" class="doc_header"><code>split_by_semicolon</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L474" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>split_by_semicolon</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Split string <code>s</code> by semicolon but not between parenthesis or in comments</p>
 
@@ -1801,7 +1801,7 @@ <h4 id="split_by_semicolon" class="doc_header"><code>split_by_semicolon</code><a
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="replace_newline_chars" class="doc_header"><code>replace_newline_chars</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L490" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>replace_newline_chars</code>(<strong><code>s</code></strong>)</p>
+<h4 id="replace_newline_chars" class="doc_header"><code>replace_newline_chars</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L492" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>replace_newline_chars</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Replace newline characters in <code>s</code> by whitespace but not in the comments</p>
 
@@ -1877,7 +1877,7 @@ <h3 id="Substitute-regex-in-SQL-ignoring-comments-and-quotes">Substitute regex i
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="sub_in_sql" class="doc_header"><code>sub_in_sql</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L497" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>sub_in_sql</code>(<strong><code>regex</code></strong>, <strong><code>repl</code></strong>, <strong><code>s</code></strong>)</p>
+<h4 id="sub_in_sql" class="doc_header"><code>sub_in_sql</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L499" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>sub_in_sql</code>(<strong><code>regex</code></strong>, <strong><code>repl</code></strong>, <strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Subsitute <code>regex</code> with <code>repl</code> in query <code>s</code> ignoring comments and text in quotes</p>
 
@@ -1951,7 +1951,7 @@ <h3 id="Add-whitespaces-after-comma">Add whitespaces after comma<a class="anchor
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="add_whitespaces_after_comma" class="doc_header"><code>add_whitespaces_after_comma</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L507" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>add_whitespaces_after_comma</code>(<strong><code>s</code></strong>)</p>
+<h4 id="add_whitespaces_after_comma" class="doc_header"><code>add_whitespaces_after_comma</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L509" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>add_whitespaces_after_comma</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Add whitespace after comma in query <code>s</code> if there is no whitespace</p>
 
@@ -2096,7 +2096,7 @@ <h4 id="add_whitespaces_after_comma" class="doc_header"><code>add_whitespaces_af
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="identify_end_of_fields" class="doc_header"><code>identify_end_of_fields</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L513" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>identify_end_of_fields</code>(<strong><code>s</code></strong>)</p>
+<h4 id="identify_end_of_fields" class="doc_header"><code>identify_end_of_fields</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L515" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>identify_end_of_fields</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Identify end of fields in query <code>s</code></p>
 
@@ -2328,7 +2328,7 @@ <h4 id="identify_end_of_fields" class="doc_header"><code>identify_end_of_fields<
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="add_newline_indentation" class="doc_header"><code>add_newline_indentation</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L542" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>add_newline_indentation</code>(<strong><code>s</code></strong>, <strong><code>indentation</code></strong>)</p>
+<h4 id="add_newline_indentation" class="doc_header"><code>add_newline_indentation</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L544" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>add_newline_indentation</code>(<strong><code>s</code></strong>, <strong><code>indentation</code></strong>)</p>
 </blockquote>
 <p>Add newline and indentation for end of fields in query <code>s</code></p>
 
@@ -2501,7 +2501,7 @@ <h3 id="Handling-subqueries">Handling subqueries<a class="anchor-link" href="#Ha
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="extract_outer_subquery" class="doc_header"><code>extract_outer_subquery</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L560" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>extract_outer_subquery</code>(<strong><code>s</code></strong>)</p>
+<h4 id="extract_outer_subquery" class="doc_header"><code>extract_outer_subquery</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L562" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>extract_outer_subquery</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Extract outer subquery in query <code>s</code></p>
 
@@ -2554,7 +2554,7 @@ <h4 id="extract_outer_subquery" class="doc_header"><code>extract_outer_subquery<
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="format_subquery" class="doc_header"><code>format_subquery</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L586" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>format_subquery</code>(<strong><code>s</code></strong>, <strong><code>previous_s</code></strong>)</p>
+<h4 id="format_subquery" class="doc_header"><code>format_subquery</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L588" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>format_subquery</code>(<strong><code>s</code></strong>, <strong><code>previous_s</code></strong>)</p>
 </blockquote>
 <p>Format subquery in line <code>s</code> based on indentation on <code>previous_s</code></p>
 
@@ -2592,7 +2592,7 @@ <h3 id="Query-identification">Query identification<a class="anchor-link" href="#
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="check_sql_query" class="doc_header"><code>check_sql_query</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L612" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>check_sql_query</code>(<strong><code>s</code></strong>)</p>
+<h4 id="check_sql_query" class="doc_header"><code>check_sql_query</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L614" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>check_sql_query</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Checks whether <code>s</code> is a SQL query based on match of CREATE TABLE / VIEW or SELECT ignoring comments and text
 in quotes</p>
@@ -2790,7 +2790,7 @@ <h3 id="Marker-to-not-format-queries-specified-by-the-user">Marker to not format
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="check_skip_marker" class="doc_header"><code>check_skip_marker</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L621" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>check_skip_marker</code>(<strong><code>s</code></strong>)</p>
+<h4 id="check_skip_marker" class="doc_header"><code>check_skip_marker</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L623" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>check_skip_marker</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Checks whether user set marker /<em>skip-formatter</em>/ to not format query</p>
 
@@ -2874,7 +2874,7 @@ <h4 id="Check-lines-were-CREATE-..-TABLE-/-VIEW-appear">Check lines were CREATE
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="identify_create_table_view" class="doc_header"><code>identify_create_table_view</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L626" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>identify_create_table_view</code>(<strong><code>s</code></strong>)</p>
+<h4 id="identify_create_table_view" class="doc_header"><code>identify_create_table_view</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L628" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>identify_create_table_view</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Identify positions of CREATE .. TABLE / VIEW statements</p>
 
@@ -2949,7 +2949,7 @@ <h4 id="identify_create_table_view" class="doc_header"><code>identify_create_tab
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="count_lines" class="doc_header"><code>count_lines</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L639" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>count_lines</code>(<strong><code>s</code></strong>)</p>
+<h4 id="count_lines" class="doc_header"><code>count_lines</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L641" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>count_lines</code>(<strong><code>s</code></strong>)</p>
 </blockquote>
 <p>Count the number of lines in <code>s</code></p>
 
@@ -3024,7 +3024,7 @@ <h4 id="count_lines" class="doc_header"><code>count_lines</code><a href="https:/
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="find_line_number" class="doc_header"><code>find_line_number</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L644" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>find_line_number</code>(<strong><code>s</code></strong>, <strong><code>positions</code></strong>)</p>
+<h4 id="find_line_number" class="doc_header"><code>find_line_number</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L646" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>find_line_number</code>(<strong><code>s</code></strong>, <strong><code>positions</code></strong>)</p>
 </blockquote>
 <p>Find line number in <code>s</code> out of <code>positions</code></p>
 
@@ -3099,7 +3099,7 @@ <h4 id="find_line_number" class="doc_header"><code>find_line_number</code><a hre
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="disimilarity" class="doc_header"><code>disimilarity</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L649" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>disimilarity</code>(<strong><code>str1</code></strong>, <strong><code>str2</code></strong>)</p>
+<h4 id="disimilarity" class="doc_header"><code>disimilarity</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L651" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>disimilarity</code>(<strong><code>str1</code></strong>, <strong><code>str2</code></strong>)</p>
 </blockquote>
 <p>Calculate disimilarity between two strings by word</p>
 
@@ -3193,7 +3193,7 @@ <h4 id="disimilarity" class="doc_header"><code>disimilarity</code><a href="https
 
 
 <div class="output_markdown rendered_html output_subarea ">
-<h4 id="assign_comment" class="doc_header"><code>assign_comment</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L665" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>assign_comment</code>(<strong><code>fs</code></strong>, <strong><code>cds</code></strong>)</p>
+<h4 id="assign_comment" class="doc_header"><code>assign_comment</code><a href="https://github.com/PabloRMira/sql_formatter/tree/master/sql_formatter/utils.py#L667" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>assign_comment</code>(<strong><code>fs</code></strong>, <strong><code>cds</code></strong>)</p>
 </blockquote>
 <p>Assign comments in list of dictionaries <code>cds</code> to formatted string <code>fs</code> using Jaccard distance</p>
 <p>The comment dictionaries <code>cds</code> should contain the keys "comment" and "preceding" (string)</p>
diff --git a/nbs/00_core.ipynb b/nbs/00_core.ipynb
index 0e1d394..359bf4f 100644
--- a/nbs/00_core.ipynb
+++ b/nbs/00_core.ipynb
@@ -4,16 +4,7 @@
    "cell_type": "code",
    "execution_count": null,
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "The autoreload extension is already loaded. To reload it, use:\n",
-      "  %reload_ext autoreload\n"
-     ]
-    }
-   ],
+   "outputs": [],
    "source": [
     "#hide\n",
     "%load_ext autoreload\n",
@@ -465,8 +456,8 @@
     "    split_s = split_query(s)  # split by comment and non comment\n",
     "    split_s = compress_dicts(split_s, [\"comment\", \"select\"])\n",
     "    # compile regex before loop\n",
-    "    create_re = re.compile(\"create\", flags=re.I)\n",
-    "    select_re = re.compile(\"select\", flags=re.I)\n",
+    "    create_re = re.compile(r\"\\bcreate\\b\", flags=re.I)\n",
+    "    select_re = re.compile(r\"\\bselect\\b\", flags=re.I)\n",
     "    for statement in statements:\n",
     "        if create_re.match(statement):  # special case CREATE with AS capitalize as well\n",
     "            create_sub = re.compile(rf\"\\s*({statement} )(.*) as\\b\", flags=re.I)\n",
diff --git a/nbs/02_utils.ipynb b/nbs/02_utils.ipynb
index 38afb51..9341b2e 100644
--- a/nbs/02_utils.ipynb
+++ b/nbs/02_utils.ipynb
@@ -911,9 +911,11 @@
     "    comment_region = False # start with non-quote\n",
     "    s_comp = []  # container for string components\n",
     "    start = 0\n",
+    "    select_re = re.compile(r\"^[\\n\\s\\]\\(]*\\bselect\\b\\s$\")\n",
+    "    from_re = re.compile(r\"^[\\n\\s\\]]\\bfrom\\b\\s$\")\n",
     "    # loop over character positions\n",
     "    for i, c in enumerate(s):\n",
-    "        if s_low[i:i+6] == \"select\" and k == 0:  # k = 0 -> no comment\n",
+    "        if select_re.match(s_low[max(i-1, 0):i+7]) and k == 0:  # k = 0 -> no comment\n",
     "            s_comp.append({\n",
     "                \"string\": s[start:i], \n",
     "                \"comment\": comment_region, \n",
@@ -922,7 +924,7 @@
     "            })\n",
     "            start = i\n",
     "            select_region = True # after select starts the select region\n",
-    "        elif s_low[i:i+4] == \"from\" and k == 0:\n",
+    "        elif from_re.match(s_low[max(i-1, 0):i+5]) and k == 0:\n",
     "            select_open = False\n",
     "            s_comp.append({\n",
     "                \"string\": s[start:i], \n",
@@ -2787,6 +2789,7 @@
       "Converted 01_format_file.ipynb.\n",
       "Converted 02_utils.ipynb.\n",
       "Converted 03_validation.ipynb.\n",
+      "Converted 99_additional_tests.ipynb.\n",
       "Converted index.ipynb.\n"
      ]
     }
diff --git a/nbs/99_additional_tests.ipynb b/nbs/99_additional_tests.ipynb
index 413528e..aec8e75 100644
--- a/nbs/99_additional_tests.ipynb
+++ b/nbs/99_additional_tests.ipynb
@@ -103,7 +103,95 @@
    "cell_type": "code",
    "execution_count": null,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "SELECT var\n",
+      "FROM   table_selection as a\n",
+      "    LEFT JOIN table2 as b\n",
+      "        ON a.id = b.id\n",
+      "    LEFT JOIN table3 as c\n",
+      "        ON a.id = c.id\n",
+      "ORDER BY 1\n"
+     ]
+    }
+   ],
+   "source": [
+    "assert_and_print(\n",
+    "    format_sql(\n",
+    "\"\"\"SELECT var \n",
+    "    FROM table_selection as a \n",
+    "    LEFT JOIN table2 as b ON a.id = b.id \n",
+    "    LEFT JOIN table3 as c ON a.id = c.id \n",
+    "    ORDER BY 1\n",
+    "\"\"\"),\n",
+    "\"\"\"\n",
+    "SELECT var\n",
+    "FROM   table_selection as a\n",
+    "    LEFT JOIN table2 as b\n",
+    "        ON a.id = b.id\n",
+    "    LEFT JOIN table3 as c\n",
+    "        ON a.id = c.id\n",
+    "ORDER BY 1\n",
+    "\"\"\".strip()\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## utils"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### split_query"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[{'string': 'select var ', 'comment': False, 'quote': False, 'select': True}, {'string': 'from table_selection', 'comment': False, 'quote': False, 'select': False}]\n"
+     ]
+    }
+   ],
+   "source": [
+    "assert_and_print(\n",
+    "    split_query(\"select var from table_selection\"),\n",
+    "    [{\"string\": \"select var \", \"comment\": False, \"quote\": False, \"select\": True}, \n",
+    "     {\"string\": \"from table_selection\", \"comment\": False, \"quote\": False, \"select\": False}]\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Converted 00_core.ipynb.\n",
+      "Converted 01_format_file.ipynb.\n",
+      "Converted 02_utils.ipynb.\n",
+      "Converted 03_validation.ipynb.\n",
+      "Converted 99_additional_tests.ipynb.\n",
+      "Converted index.ipynb.\n"
+     ]
+    }
+   ],
    "source": [
     "#hide\n",
     "from nbdev.export import notebook2script\n",
diff --git a/sql_formatter/core.py b/sql_formatter/core.py
index 63178d6..ab3c3fb 100644
--- a/sql_formatter/core.py
+++ b/sql_formatter/core.py
@@ -51,8 +51,8 @@ def preformat_statements(s):
     split_s = split_query(s)  # split by comment and non comment
     split_s = compress_dicts(split_s, ["comment", "select"])
     # compile regex before loop
-    create_re = re.compile("create", flags=re.I)
-    select_re = re.compile("select", flags=re.I)
+    create_re = re.compile(r"\bcreate\b", flags=re.I)
+    select_re = re.compile(r"\bselect\b", flags=re.I)
     for statement in statements:
         if create_re.match(statement):  # special case CREATE with AS capitalize as well
             create_sub = re.compile(rf"\s*({statement} )(.*) as\b", flags=re.I)
diff --git a/sql_formatter/utils.py b/sql_formatter/utils.py
index 128a44d..a9d3723 100644
--- a/sql_formatter/utils.py
+++ b/sql_formatter/utils.py
@@ -218,9 +218,11 @@ def split_query(s):
     comment_region = False # start with non-quote
     s_comp = []  # container for string components
     start = 0
+    select_re = re.compile(r"^[\n\s\]\(]*\bselect\b\s$")
+    from_re = re.compile(r"^[\n\s\]]\bfrom\b\s$")
     # loop over character positions
     for i, c in enumerate(s):
-        if s_low[i:i+6] == "select" and k == 0:  # k = 0 -> no comment
+        if select_re.match(s_low[max(i-1, 0):i+7]) and k == 0:  # k = 0 -> no comment
             s_comp.append({
                 "string": s[start:i],
                 "comment": comment_region,
@@ -229,7 +231,7 @@ def split_query(s):
             })
             start = i
             select_region = True # after select starts the select region
-        elif s_low[i:i+4] == "from" and k == 0:
+        elif from_re.match(s_low[max(i-1, 0):i+5]) and k == 0:
             select_open = False
             s_comp.append({
                 "string": s[start:i],