SNOW-1729292 modify iceberg tree based on record data #1007

sfc-gh-bzabek · 2024-11-21T12:24:38Z

Overview

SNOW-1729292

There is still a lot work to be done. Tell me if you find this approach good.

Ingest-sdk returns list of columnsToEvolve inside an InsertError
get schemas from channel for these columns
get column schemas from record
resolve which column is new

if column from record is not present in channels schema than it's new
add this column

resolve which column is modified

if the column is present in a channel it means it's not new - hence it's to be modified
merge column from channel with a column from record
set data type

The whole logic responsible for iceberg schema evolution is package private. Only IcebergSchemaEvolutionService is public.

It doesn't work with ingest-sdk 3.0.0, local jar needs to be build from ingest-sdk master.

TODO:

I didn't inspect if columns nullability evolution is handled
column comments are not handled
tests for potential SQL injection (I think we need another Jira for it)

Pre-review checklist

...e/kafka/connector/internal/streaming/schemaevolution/iceberg/ParseIcebergColumnTreeTest.java

src/main/java/com/snowflake/kafka/connector/internal/SnowflakeConnectionServiceV1.java

src/main/java/com/snowflake/kafka/connector/internal/streaming/SnowflakeSinkServiceV2.java

.../snowflake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergColumnTree.java

...lake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergColumnTypeMapper.java

...m/snowflake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergFieldNode.java

sfc-gh-mbobowski · 2024-11-25T16:02:37Z

...afka/connector/internal/streaming/schemaevolution/iceberg/IcebergSchemaEvolutionService.java


  public IcebergSchemaEvolutionService(SnowflakeConnectionService conn) {
    this.conn = conn;
-    this.tableSchemaResolver = new IcebergTableSchemaResolver();
+    this.icebergTableSchemaResolver = new IcebergTableSchemaResolver();
  }

  @VisibleForTesting


Actually it is not used anymore. You can safely delete it.

I'm confused. I use icebergTableSchemaResolver a couple of times. (?)

I mean the constructor below marked with @VisibleForTesting (not affected by your changes).

...e/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergTableSchemaResolver.java

.../java/com/snowflake/kafka/connector/streaming/iceberg/IcebergIngestionSchemaEvolutionIT.java

sfc-gh-bzabek · 2024-11-29T11:20:30Z

.../snowflake/kafka/connector/streaming/schemaevolution/iceberg/ParseIcebergColumnTreeTest.java

-import org.junit.jupiter.params.provider.Arguments;
-import org.junit.jupiter.params.provider.MethodSource;
-
-public class ParseIcebergColumnTreeTest {


This class was moved to a correct module.

src/main/java/com/snowflake/kafka/connector/internal/SnowflakeConnectionServiceV1.java

...com/snowflake/kafka/connector/internal/streaming/schemaevolution/SchemaEvolutionService.java

sfc-gh-mbobowski · 2024-11-29T13:38:20Z

...ake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergColumnTreeFactory.java

+    return new IcebergColumnTree(rootNode);
+  }
+
+  IcebergColumnTree fromConnectSchema(Field kafkaConnectField) {


We have two separated flows: JSON without schema and AVRO/Protobuf.

I would extract fromConnectSchema to a separate class SchematizedIcebergColumnTreeFactory and rename this class to NoSchemaIcebergColumnTreeFactory. WDYT?

Hmm, so what we have:

from Iceberg (channel) schema - it's used before both workflows

from json payload - workflow without schema

from record schema - now there is only fromConnectSchema method. Do we have to also write seperate logic to parse avro and protobuf schema? I think not because Converter will parse it into connect schema when we ancounter AVRO or Protobuf. (For sure we ust test it)

When I wrote the factory, I thought it will be a bit over engineering to split it. However if we are going to need more methods then sure. Logically we have 3 parts.

...kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergColumnTreeTypeBuilder.java

sfc-gh-mbobowski · 2024-11-29T14:24:13Z

...afka/connector/internal/streaming/schemaevolution/iceberg/IcebergSchemaEvolutionService.java

+      List<IcebergColumnTree> modifiedOrAddedColumns =
+          icebergTableSchemaResolver.resolveIcebergSchemaFromRecord(record, columnsToEvolve);
+
+      List<IcebergColumnTree> columnsToAdd =


There is no need to iterate twice over the list. The columns from modifiedOrAddedColumns are either modified or added, right?

Righ, however I found my approach simpler and didn't care very much about performance of that.

Create 2 lists and write and if to put an element into one or another list.

private Pair<List<IcebergColumnTree>, List<IcebergColumnTree>> distinguish( List<IcebergColumnTree> alreadyExistingColumns, List<IcebergColumnTree> modifiedOrAddedColumns) { ArrayList<IcebergColumnTree> columnsToModify = new ArrayList<>(); ArrayList<IcebergColumnTree> columnsToAdd = new ArrayList<>(); for (IcebergColumnTree tree : modifiedOrAddedColumns) { if (alreadyExistingColumns.stream() .anyMatch(alreadyExisting -> alreadyExisting.getColumnName() .equalsIgnoreCase(tree.getColumnName()))) { columnsToModify.add(tree); } else { columnsToAdd.add(tree); } } return Pair<List<IcebergColumnTree>, List<IcebergColumnTree>>(columnsToAdd, columnsToModify); }

But there is not "Pair" in JDK8.
This approach is a bit more messy. Slightly more performant.

~~(It's messy ->) The second alternative I see is to distinguish columnsToAdd, and then having columnsToAdd iterate over columns to evolve and again match them with modifiedOrAddedColumns list.~~

None is perfect.

For me it's a matter of avoiding code duplication rather than optimizing the code execution time. I don't see any problem with creating a wrapper class for two lists.
Anyway it's not a blocker to me.

sfc-gh-mbobowski · 2024-11-29T14:25:14Z

...afka/connector/internal/streaming/schemaevolution/iceberg/IcebergSchemaEvolutionService.java

+        .filter(
+            modifiedOrAddedColumn ->
+                alreadyExistingColumns.stream()
+                    .noneMatch(


It would be easier to convert alreadyExistingColumns from List to Set.

I can use Set everywhere instead of a list.

But for IcebergColumnTree I didn't implement equals nor hashCode. I don't feel it.

Good point. Is there any problem with implementing these methods or the final code doesn't look cleaner?

If we implement only for columnName - there is not a problem. Using it for both doesn't make sense.
I don't think using Set will change anything in a logic. It may (shouldn't) sneakily replace a column somewhere... I can change it, never say never.

...afka/connector/internal/streaming/schemaevolution/iceberg/IcebergSchemaEvolutionService.java

...e/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergTableSchemaResolver.java

...e/kafka/connector/internal/streaming/schemaevolution/iceberg/ParseIcebergColumnTreeTest.java

sfc-gh-mbobowski · 2024-11-29T15:02:51Z

src/test/java/com/snowflake/kafka/connector/streaming/iceberg/TestJsons.java

+        + "}";
+  }
+
+  static String nestedObjectsPayload =


it can be private

Let's keep it consise with others. I don't want to restrict it's usage.

src/test/java/com/snowflake/kafka/connector/streaming/iceberg/TestJsons.java

sfc-gh-mbobowski · 2024-11-29T15:08:13Z

.../java/com/snowflake/kafka/connector/streaming/iceberg/IcebergIngestionSchemaEvolutionIT.java

            false));
  }
+
+  private static final String RECORD_METADATA_TYPE =


Let's move it at the beginning of the class.

sfc-gh-mbobowski

I still see some space for minor improvements, but I am ok with merging it at this point.

sfc-gh-wtrefon · 2024-12-02T13:31:17Z

src/test/java/com/snowflake/kafka/connector/streaming/iceberg/IcebergIngestionIT.java

@@ -51,6 +49,8 @@ public void setUp() {
    config.put(ICEBERG_ENABLED, "TRUE");
    config.put(ENABLE_SCHEMATIZATION_CONFIG, isSchemaEvolutionEnabled().toString());
    config.put(SNOWPIPE_STREAMING_ENABLE_SINGLE_BUFFER, "true");
+    // "snowflake.streaming.max.client.lag" = 1 second, for faster tests
+    config.put(SNOWPIPE_STREAMING_MAX_CLIENT_LAG, "1");


sfc-gh-wtrefon

Looking much better now, really like how you split the IcebergFieldNode class. Good job!

sfc-gh-bzabek added 11 commits November 19, 2024 15:33

SNOW-1729292 Modify the tree based on record data

ccc6bf3

parse iceberg chemas and distinguish columns

c1d1703

refactor and encapsulate classes

bebfeef

revert it

9bf7180

can alter STRUCT column

c8ae000

test to verify we can evolve advanced structures

711e221

refactor test for structures inserted for the first time

4ec9c33

implement merge tree logic

e6b8c06

first succesful evolution of STRUCTURE

6f9f2fa

refactor methods for generating queries

a1adeb6

refactor, remove ApacheIcebergSchema class

3dd80cb

sfc-gh-bzabek commented Nov 21, 2024

View reviewed changes

...e/kafka/connector/internal/streaming/schemaevolution/iceberg/ParseIcebergColumnTreeTest.java Show resolved Hide resolved

sfc-gh-bzabek added 5 commits November 21, 2024 13:42

remove ingest-sdk jar

b924e3a

nit

f8dc4a0

javadoc

1321df6

nits

9110f6a

handle ARRAY evolution

eab2354

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

src/main/java/com/snowflake/kafka/connector/internal/SnowflakeConnectionServiceV1.java Outdated Show resolved Hide resolved

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

src/main/java/com/snowflake/kafka/connector/internal/streaming/SnowflakeSinkServiceV2.java Outdated Show resolved Hide resolved

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

.../snowflake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergColumnTree.java Outdated Show resolved Hide resolved

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

...lake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergColumnTypeMapper.java Show resolved Hide resolved

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

...lake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergColumnTypeMapper.java Show resolved Hide resolved

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

...lake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergColumnTypeMapper.java Outdated Show resolved Hide resolved

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

...m/snowflake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergFieldNode.java Outdated Show resolved Hide resolved

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

...m/snowflake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergFieldNode.java Outdated Show resolved Hide resolved

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

...m/snowflake/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergFieldNode.java Show resolved Hide resolved

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

...e/kafka/connector/internal/streaming/schemaevolution/iceberg/IcebergTableSchemaResolver.java Show resolved Hide resolved

sfc-gh-mbobowski reviewed Nov 25, 2024

View reviewed changes

.../java/com/snowflake/kafka/connector/streaming/iceberg/IcebergIngestionSchemaEvolutionIT.java Outdated Show resolved Hide resolved

fix NPE for array: null

660a15f

detach buildType logic into a service

5d5df77

sfc-gh-bzabek commented Nov 29, 2024

View reviewed changes

self review improvements

3666b25

sfc-gh-bzabek marked this pull request as ready for review November 29, 2024 12:00

sfc-gh-bzabek requested a review from a team as a code owner November 29, 2024 12:00