Skip to content

GiancarloJung/disrupt_2021

Repository files navigation

disrupt

MrMovies

Disrupt 2021

Vocês foram contratados por uma empresa de análise de dados para desenvolverem uma solução que possa prever o sucesso de um filme de forma automatizada, para melhor apoiar as decisões dos investidores dos filmes.


Entregas

Entrega I

Tópicos:

  • Perguntas Executivas

  • Histórias de Usuário

  • Datasets/Dados Textuais

  • Análise Exploratória

  • Infraestrutura

  • Armazenamento/ETL

Obter os datasets que melhor podem se adequar a proposta.

De posse das estruturas de dados e a partir das informações cadastradas, é possível definir perguntas executivas feitas pelo negócio. Descreva as mais importantes que possam contribuir para a tomada de decisão e que atendam a necessidade dos gestores.

Descreva como dados textuais relacionados ao dataset selecionado poderiam auxiliar nessa tarefa de predição de sucesso de filmes. Não é obrigatório incluí-los e integrá-los ao dataset selecionado, mas se o fizer, certamente enriquecerá seu modelo com essa informação

Definição dos requisitos contemplados no projeto em forma de Histórias de Usuário no Azure Boards.

Após encontrar os dados que melhor possam estar adequados à proposta da equipe, realizar uma análise exploratória dos dados (a equipe pode utilizar tanto R ou Python para as análises), incluindo a parte textual, se existir. Entregar arquivo de código (.R ou .ypnb) e arquivo (.pptx com resumo das análises).

Definir a infraestrutura (componentes) que será utilizada para o processamento (extração, limpeza, carregamento) e armazenamento dos dados (SQL, NOSQL).

Explique qual será sua estratégia para carregar esse volume de dados. Definir quais dados devem ser criptografados/mascarados visando a privacidade dos dados, e, se for o caso, como esses dados serão armazenados e administrados

Entrega II

Tópicos:

  • Aplicação de Algoritmos

  • Modelo de Dados Dimensional

  • Disponibilidade e Escalabilidade

  • Arquitetura de Contingência

  • Pitch

Aplicar algum modelo preditivo (Regressão linear, logística, árvore de decisão, random forest, xgboost ou redes neurais) para realizar previsões a respeito dos indicadores de sucesso do filme (lucratividade, bilheteria, etc...). Entregar arquivo de código (.R ou .ypnb) e arquivo (.pptx com resumo das análises).

Após a definição das perguntas executivas feitas pelo negócio, crie o modelo de dados dimensional ou outra estrutura de persistência de dados, que irá apoiar as respostas para essas perguntas.

Definir a necessidade de alta disponibilidade e escalabilidade prevendo o crescimento da aplicação.

Prever uma arquitetura de contingenciamento caso ocorra, por exemplo, falha de hardware em um servidor.

Link de acesso ao vídeo de Pitch (de até 3 min) do seu projeto, publicado no Youtube.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published