jaegertracing · mahadzaryab1 · Dec 22, 2024 · Dec 21, 2024 · Dec 21, 2024 · Dec 21, 2024
@@ -0,0 +1,88 @@
+// Copyright (c) 2024 The Jaeger Authors.
+// SPDX-License-Identifier: Apache-2.0
+
+package adjuster
+
+import (
+	"hash/fnv"
+
+	"go.opentelemetry.io/collector/pdata/pcommon"
+	"go.opentelemetry.io/collector/pdata/ptrace"
+)
+
+var _ Adjuster = (*SpanHashDeduper)(nil)
+
+// SpanHash creates an adjuster that deduplicates spans by removing all but one span
+// with the same hash code. This is particularly useful for scenarios where spans
+// may be duplicated during archival, such as with ElasticSearch archival.
+//
+// The hash code is generated by serializing the span into protobuf bytes and applying
+// the FNV hashing algorithm to the serialized data.
+//
+// To ensure consistent hash codes, this adjuster should be executed after
+// SortAttributesAndEvents, which normalizes the order of collections within the span.
+func SpanHash() SpanHashDeduper {
+	return SpanHashDeduper{
+		marshaler: &ptrace.ProtoMarshaler{},
+	}
+}
+
+type SpanHashDeduper struct {
+	marshaler ptrace.Marshaler
+}
+
+func (s *SpanHashDeduper) Adjust(traces ptrace.Traces) {
+	spansByHash := make(map[uint64]ptrace.Span)
+	resourceSpans := traces.ResourceSpans()
+	for i := 0; i < resourceSpans.Len(); i++ {
+		rs := resourceSpans.At(i)
+		rs.Resource().Attributes()
+		scopeSpans := rs.ScopeSpans()
+		for j := 0; j < scopeSpans.Len(); j++ {
+			ss := scopeSpans.At(j)
+			spans := ss.Spans()
+			newSpans := ptrace.NewSpanSlice()
+			for k := 0; k < spans.Len(); k++ {
+				span := spans.At(k)
+				h, err := s.computeHashCode(
+					span,
+					rs.Resource().Attributes(),
+					ss.Scope().Attributes(),
+				)
+				if err != nil {
+					// TODO: Add Warning
+					continue
+				}
+				if _, ok := spansByHash[h]; !ok {
+					spansByHash[h] = span
+					span.CopyTo(newSpans.AppendEmpty())
+				}
+			}
+			newSpans.CopyTo(spans)
+		}
+	}
+}
+
+func (s *SpanHashDeduper) computeHashCode(
+	span ptrace.Span,
+	resourceAttributes pcommon.Map,
+	scopeAttributes pcommon.Map,
+) (uint64, error) {
+	traces := ptrace.NewTraces()
+	rs := traces.ResourceSpans().AppendEmpty()
+	resourceAttributes.CopyTo(rs.Resource().Attributes())
+	ss := rs.ScopeSpans().AppendEmpty()
+	scopeAttributes.CopyTo(ss.Scope().Attributes())
+	newSpan := ss.Spans().AppendEmpty()
+	span.CopyTo(newSpan)
+	b, err := s.marshaler.MarshalTraces(traces)
+	if err != nil {
+		return 0, err
+	}
+	hasher := fnv.New64a()
+	_, err = hasher.Write(b)
+	if err != nil {
+		return 0, err
+	}
+	return hasher.Sum64(), nil
+}
@@ -0,0 +1,163 @@
+// Copyright (c) 2024 The Jaeger Authors.
+// SPDX-License-Identifier: Apache-2.0
+
+package adjuster
+
+import (
+	"testing"
+
+	"github.com/stretchr/testify/assert"
+	"go.opentelemetry.io/collector/pdata/ptrace"
+)
+
+func TestSpanHash_EmptySpans(t *testing.T) {
+	adjuster := SpanHash()
+	input := ptrace.NewTraces()
+	expected := ptrace.NewTraces()
+	adjuster.Adjust(input)
+	assert.Equal(t, expected, input)
+}
+
+func TestSpanHash_RemovesDuplicateSpans(t *testing.T) {
+	adjuster := SpanHash()
+	input := func() ptrace.Traces {
+		traces := ptrace.NewTraces()
+		rs := traces.ResourceSpans().AppendEmpty()
+		ss := rs.ScopeSpans().AppendEmpty()
+		spans := ss.Spans()
+
+		span1 := spans.AppendEmpty()
+		span1.SetName("span1")
+		span1.SetTraceID([16]byte{1})
+		span1.SetSpanID([8]byte{1})
+
+		span2 := spans.AppendEmpty()
+		span2.SetName("span2")
+		span2.SetTraceID([16]byte{1})
+		span2.SetSpanID([8]byte{2})
+
+		span3 := spans.AppendEmpty()
+		span3.SetName("span1")
+		span3.SetTraceID([16]byte{1})
+		span3.SetSpanID([8]byte{1})
+
+		span4 := spans.AppendEmpty()
+		span4.SetName("span2")
+		span4.SetTraceID([16]byte{1})
+		span4.SetSpanID([8]byte{2})
+
+		span5 := spans.AppendEmpty()
+		span5.SetName("span3")
+		span5.SetTraceID([16]byte{3})
+		span5.SetSpanID([8]byte{4})
+
+		rs2 := traces.ResourceSpans().AppendEmpty()
+		ss2 := rs2.ScopeSpans().AppendEmpty()
+		spans2 := ss2.Spans()
+
+		span6 := spans2.AppendEmpty()
+		span6.SetName("span4")
+		span6.SetTraceID([16]byte{5})
+		span6.SetSpanID([8]byte{6})
+
+		span7 := spans2.AppendEmpty()
+		span7.SetName("span3")
+		span7.SetTraceID([16]byte{3})
+		span7.SetSpanID([8]byte{4})
+
+		return traces
+	}
+	expected := func() ptrace.Traces {
+		traces := ptrace.NewTraces()
+		rs := traces.ResourceSpans().AppendEmpty()
+		ss := rs.ScopeSpans().AppendEmpty()
+		spans := ss.Spans()
+
+		span1 := spans.AppendEmpty()
+		span1.SetName("span1")
+		span1.SetTraceID([16]byte{1})
+		span1.SetSpanID([8]byte{1})
+
+		span2 := spans.AppendEmpty()
+		span2.SetName("span2")
+		span2.SetTraceID([16]byte{1})
+		span2.SetSpanID([8]byte{2})
+
+		span3 := spans.AppendEmpty()
+		span3.SetName("span3")
+		span3.SetTraceID([16]byte{3})
+		span3.SetSpanID([8]byte{4})
+
+		rs2 := traces.ResourceSpans().AppendEmpty()
+		ss2 := rs2.ScopeSpans().AppendEmpty()
+		spans2 := ss2.Spans()
+
+		span4 := spans2.AppendEmpty()
+		span4.SetName("span4")
+		span4.SetTraceID([16]byte{5})
+		span4.SetSpanID([8]byte{6})
+
+		return traces
+	}
+
+	i := input()
+	adjuster.Adjust(i)
+	assert.Equal(t, expected(), i)
+}
+
+func TestSpanHash_NoDuplicateSpans(t *testing.T) {
+	adjuster := SpanHash()
+	input := func() ptrace.Traces {
+		traces := ptrace.NewTraces()
+		rs := traces.ResourceSpans().AppendEmpty()
+		ss := rs.ScopeSpans().AppendEmpty()
+		spans := ss.Spans()
+
+		span1 := spans.AppendEmpty()
+		span1.SetName("span1")
+		span1.SetTraceID([16]byte{1})
+		span1.SetSpanID([8]byte{1})
+
+		span2 := spans.AppendEmpty()
+		span2.SetName("span2")
+		span2.SetTraceID([16]byte{1})
+		span2.SetSpanID([8]byte{2})
+
+		span3 := spans.AppendEmpty()
+		span3.SetName("span3")
+		span3.SetTraceID([16]byte{3})
+		span3.SetSpanID([8]byte{4})
+
+		return traces
+	}
+	expected := func() ptrace.Traces {
+		traces := ptrace.NewTraces()
+		rs := traces.ResourceSpans().AppendEmpty()
+		ss := rs.ScopeSpans().AppendEmpty()
+		spans := ss.Spans()
+
+		span1 := spans.AppendEmpty()
+		span1.SetName("span1")
+		span1.SetTraceID([16]byte{1})
+		span1.SetSpanID([8]byte{1})
+
+		span2 := spans.AppendEmpty()
+		span2.SetName("span2")
+		span2.SetTraceID([16]byte{1})
+		span2.SetSpanID([8]byte{2})
+
+		span3 := spans.AppendEmpty()
+		span3.SetName("span3")
+		span3.SetTraceID([16]byte{3})
+		span3.SetSpanID([8]byte{4})
+
+		return traces
+	}
+
+	i := input()
+	adjuster.Adjust(i)
+	assert.Equal(t, expected(), i)
+}
+
+// TODO: write tests for duplicate spans with different outer attributes
+// TODO: write tests for error cases
@@ -14,9 +14,11 @@ var _ Adjuster = (*SortAttributesAndEventsAdjuster)(nil)
 
 // SortAttributesAndEvents creates an adjuster that standardizes trace data by sorting elements:
 // - Resource attributes are sorted lexicographically by their keys.
+// - Scope attributes are sorted lexicographically by their keys.
 // - Span attributes are sorted lexicographically by their keys.
 // - Span events are sorted lexicographically by their names.
 // - Attributes within each span event are sorted lexicographically by their keys.
+// - Attributes within each span link are sorted lexicographically by their keys.
 func SortAttributesAndEvents() SortAttributesAndEventsAdjuster {
 	return SortAttributesAndEventsAdjuster{}
 }