Skip to content
This repository has been archived by the owner on May 21, 2022. It is now read-only.

Desenvolve Crawler do Ministério Público do Trabalho #147

Merged
merged 5 commits into from
Nov 19, 2020

Conversation

diegooalmeida
Copy link
Contributor

Alguns pontos:

  1. Os arquivos ainda estão sendo salvos com os nomes originais do download. Como é o selenium que baixa o arquivo, eu não tenho acesso a ele no código durante o download. Talvez uma alternativa seja ler e renomear os arquivos, assim que são baixados.
  2. O diretório de download também é um ponto a ser discutido, rodando localmente o máximo que consigo é setar um caminho pra o diretório do projeto, mas isso inclui toda a rota de pastas do meu dispositivo, não funcionaria em algum outro. Penso que quando for rodar com o docker isso seja solucionado.
  3. O selenium usa um arquivo chamado chromedriver pra simular a navegação, esse arquivo deve ser compatível com o navegador chrome que estiver instalado, e o caminho ao chromedriver também deve ser disponibilizado no código, se repete o problema do ponto 2, com acréscimo da questão da compatibilidade de versão. Mais uma vez acredito que o docker resolve isso.

@diegooalmeida diegooalmeida linked an issue Nov 17, 2020 that may be closed by this pull request
@danielfireman
Copy link
Contributor

Alguns pontos:

  1. Os arquivos ainda estão sendo salvos com os nomes originais do download. Como é o selenium que baixa o arquivo, eu não tenho acesso a ele no código durante o download. Talvez uma alternativa seja ler e renomear os arquivos, assim que são baixados. Mas isso deve ser feito em outro PR.

Você pode usar os.rename

  1. O diretório de download também é um ponto a ser discutido, rodando localmente o máximo que consigo é setar um caminho pra o diretório do projeto, mas isso inclui toda a rota de pastas do meu dispositivo, não funcionaria em algum outro. Penso que quando for rodar com o docker isso seja solucionado.

A variável de ambiente OUTPUT_FOLDER deve ser quem dita onde os arquivos devem ir. Você tem acesso a variáveis de ambiente via os.environ. Você deve mover os arquivos para este diretório após download. Mas isso deve ser feito em outro PR.

  1. O selenium usa um arquivo chamado chromedriver pra simular a navegação, esse arquivo deve ser compatível com o navegador chrome que estiver instalado, e o caminho ao chromedriver também deve ser disponibilizado no código, se repete o problema do ponto 2, com acréscimo da questão da compatibilidade de versão. Mais uma vez acredito que o docker resolve isso.

Exatamente. O Dockerfile que vai vir numa outra PR deve instalar o chrome e já baixar o chromedriver correto.

mpt/main.py Outdated Show resolved Hide resolved
mpt/main.py Outdated Show resolved Hide resolved
Copy link
Contributor

@danielfireman danielfireman left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Excelente começo! ABaixo seguem alguns comentários!

mpt/crawler.py Outdated Show resolved Hide resolved
mpt/main.py Outdated Show resolved Hide resolved
mpt/main.py Outdated Show resolved Hide resolved
mpt/main.py Outdated Show resolved Hide resolved
mpt/main.py Outdated Show resolved Hide resolved
mpt/crawler.py Outdated Show resolved Hide resolved
mpt/crawler.py Outdated Show resolved Hide resolved
mpt/crawler.py Outdated Show resolved Hide resolved
mpt/crawler.py Outdated Show resolved Hide resolved
mpt/.env.example Outdated Show resolved Hide resolved
Copy link
Contributor

@danielfireman danielfireman left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Bacana!

Por favor, endereçar meus comentários abaixo antes de fazer o merge com o master

mpt/main.py Outdated Show resolved Hide resolved
mpt/crawler.py Outdated Show resolved Hide resolved
mpt/main.py Outdated Show resolved Hide resolved
@diegooalmeida diegooalmeida merged commit cb3c447 into master Nov 19, 2020
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

Criar coletor do MPT
3 participants