Já estamos usando o nosso Broker Kafka mas não criamos nenhum tópico. Isso só é possível porque na configuração do broker o valor de auto.create.topics.enable
é true
, caso fosse false
não teria sido possível publica e consumir mensagens.
É importante sempre criar o tópico antes de o usar por dois motivos:
- Garantir as configurações do tópici
- Em alguns casos (principalmente em Streams) ele não é criado automaticamente
Nessa sessão vamos passar por alguns comando que vão nos auxiliar a gerenciar tópicos em um cluster Kafka.
A ferramenta que vamos usar para gerenciar os tópicos é o script ./bin/kafka-topics.sh
já disponível em qualquer instalação Kafka. Para se utilizar esse script é preciso so definir o parâmetro --bootstrap-server
se não houver nenhuma configuração de segurança, caso contrário deverá ser usado também o parâmetro --command-config
Nossa primeira operação será exploratória e vamos listar todos os tópicos existentes no cluster Kafka. Para isso vamos usar o parâmetro --list
$ ./bin/kafka-topics.sh --bootstrap-server localhost:9092 --list
Vemos que existem só 2 tópicos criados, o weather
que é o tópico que publicamos mensagens e o __consumer_offsets
que é o tópico usado pelo Kafka para controlar a posição de leitura dos consumidores. Todo tópico iniciado por __
é um tópico interno do Kafka.
Para descrever um tópico podemos usar o parâmetro --describe
. Com ele é possível descrever um ou todos os tópicos. Se usarmos o parâmetro --topic
vamos descrever somente um tópico, mas se ele for omitido todos os tópicos do cluster serão descritos.
$ ./bin/kafka-topics.sh --bootstrap-server localhost:9092 --describe --topic weather
Topic: weather TopicId: QeT5dwWnSVy9JEpsvPW0xg PartitionCount: 1 ReplicationFactor: 1 Configs: segment.bytes=1073741824
Topic: weather Partition: 0 Leader: 1 Replicas: 1 Isr: 1
Com as informações acima podemos descobrir que o tópico tem somente 1 partição que está alocada no broker 1 que é o líder e está como ISR (In Sync Replica). Esse tópico só tem uma configuração que é o tamanho máximo do segmento definido como 1GiB.
Podemos também perdir para se descrever todos os tópicos.
$ ./bin/kafka-topics.sh --bootstrap-server localhost:9092 --describe
Topic: weather TopicId: QeT5dwWnSVy9JEpsvPW0xg PartitionCount: 1 ReplicationFactor: 1 Configs: segment.bytes=1073741824
Topic: weather Partition: 0 Leader: 1 Replicas: 1 Isr: 1
Topic: __consumer_offsets TopicId: H9HQ6o54Slyzcw5B1F9IuA PartitionCount: 50 ReplicationFactor: 1 Configs: compression.type=producer,cleanup.policy=compact,segment.bytes=104857600
Vemos que o tópico __consumer_offsets
tem 50 partições, todas alocadas no broker 1 que está em ISR.
Agora vamos supor que temos 3 brokers com valor padrão para o número de partições 10 e para o fator de replicação 2, como poderia ser o resultado?
$ ./bin/kafka-topics.sh --bootstrap-server localhost:9092 --describe --topic weather
Topic: weather TopicId: QeT5dwWnSVy9JEpsvPW0xg PartitionCount: 10 ReplicationFactor: 2 Configs: segment.bytes=1073741824
Topic: weather Partition: 0 Leader: 1 Replicas: 1,2 Isr: 1,2
Topic: weather Partition: 1 Leader: 2 Replicas: 2,3 Isr: 2,3
Topic: weather Partition: 2 Leader: 3 Replicas: 3,1 Isr: 3
Topic: weather Partition: 3 Leader: 1 Replicas: 1,2 Isr: 1,2
Topic: weather Partition: 4 Leader: 2 Replicas: 2,1 Isr: 2
Topic: weather Partition: 5 Leader: 3 Replicas: 3,1 Isr: 3,1
Topic: weather Partition: 6 Leader: 1 Replicas: 1,2 Isr: 1,2
Topic: weather Partition: 7 Leader: 2 Replicas: 2,3 Isr: 2,3
Topic: weather Partition: 8 Leader: 3 Replicas: 3,1 Isr: 3
Topic: weather Partition: 9 Leader: 1 Replicas: 1,2 Isr: 1,2
Vemos aqui que cada partição e sua réplica estão distribuídas nos brokers disponíveis. O valor de ISR depende da atividade dos produtores, um broker só é considerado ISR se a replica está sincronizada.
Agora vamos tentar criar um tópico para armazenar as informações de clima do último mês. Esse tópico irá conter todas as informações de cada localização nos últimos 30 dia, como podemos configurar?
Primeiro vamos definir que ele terá 10 partições e, por só termos um broker, fator de replicação 1. Depois vamos definir que a retenção será de 2592000000ms
(ou 30 dias) e por fim a politica de limpeza será compact e delete.
$ ./bin/kafka-topics.sh --bootstrap-server localhost:9092 --create --topic weather-by-day --partitions 10 --replication-factor 1 --config retention.ms=2592000000 --config cleanup.policy=compact,delete
Created topic weather-by-day.
O que significa isso? Vamos ver mais a frente o que significa a politica de limpeza, mas ela evita que o nosso tópico cresça indefinitamente descartando (ou compactando) segmentos antigos.
Vamos ver o resultado?
./bin/kafka-topics.sh --bootstrap-server localhost:9092 --describe --topic weather-by-day
Topic: weather-by-day TopicId: UfyvyRmaQ7iJJeBAe-EW7A PartitionCount: 10 ReplicationFactor: 1 Configs: cleanup.policy=compact,delete,segment.bytes=1073741824,retention.ms=2592000000
Topic: weather-by-day Partition: 0 Leader: 1 Replicas: 1 Isr: 1
Todas as configurações do tópico também podem ser configuradas como padrão no broker usando o prefixo log.
Usando esse comando é possivel alterar o número de partições e o fator de replicação, mas há limitações para se alterar as configurações do tópico. O número de partições não pode reduzido, só aumentado, assim vamos aumentar para 15.
./bin/kafka-topics.sh --bootstrap-server localhost:9092 --alter --topic weather-by-day --partitions 15
Agora vamos ver o resultado.
$ ./bin/kafka-topics.sh --bootstrap-server localhost:9092 --describe --topic weather-by-day
Topic: weather-by-day TopicId: UfyvyRmaQ7iJJeBAe-EW7A PartitionCount: 15 ReplicationFactor: 1 Configs: cleanup.policy=compact,delete,segment.bytes=1073741824,retention.ms=2592000000
Topic: weather-by-day Partition: 0 Leader: 1 Replicas: 1 Isr: 1
Caso seja preciso apagar um tópico podemos fazer isso, mas use com cautela porque em poucos minutos os arquivos serão eliminados do disco.
$ ./bin/kafka-topics.sh --bootstrap-server localhost:9092 --delete --topic weather-by-day
$ ls /tmp/kraft-combined-logs/
__cluster_metadata-0 __consumer_offsets-18 __consumer_offsets-28 __consumer_offsets-38 __consumer_offsets-48 recovery-point-offset-checkpoint weather-by-day-3.5fee323add4842e5b8e1733769ac2894-delete
Se você já usou um Kafka em produção e não se atentou para politica de limpeza deve ter perdido dados. Isso acontece porque os valores padrão para retention.ms
é 604800000
(7 days) e cleanup.policy
é delete
Um segmento é elegível para a politica de limpeza se ele tem idade maior que retention.ms
ou a partição tem tamanho maior que retention.bytes
e ele não é mais o segmento ativo. As politica de limpeza existente são delete
. Em delete
qualquer segmento elegível é deletado e as mensagens não estarão mais disponíveis para novos consumidores. Em compact
apenas a última mensagem de cada chave estará disponível. É possível também criar uma politica mista em que segmentos elegíveis são removidos, mas segmentos não ativos são compactados.