Skip to content
This repository has been archived by the owner on Oct 2, 2023. It is now read-only.

Mantém arquivos para a extração local #412

Open
wants to merge 6 commits into
base: main
Choose a base branch
from
Open

Conversation

anapaulagomes
Copy link
Contributor

@anapaulagomes anapaulagomes commented Oct 4, 2021

Closes #409.

Dessa forma os arquivos podem ser lidos mais tarde na fase de extração.

@anapaulagomes anapaulagomes marked this pull request as ready for review October 4, 2021 23:10
@anapaulagomes anapaulagomes changed the title Na extração local não deleta arquivos Mantém arquivos para a extração local Oct 4, 2021
@anapaulagomes
Copy link
Contributor Author

Pode dar uma olhadinha? @cuducos

Copy link
Contributor

@cuducos cuducos left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Infelizmente, rodando o raspador com essa branch ainda não consigo ter arquivos (modelo File) com conteúdo (File.content) no banco de dados:

In [2]: File.objects.count()
Out[2]: 9290

In [3]: File.objects.exclude(content=None).count()
Out[3]: 0

Talvez eu esteja fazendo algo errado ainda?

Minhas variáveis de ambiente
SENTRY_DSN=

SPIDERMON_TELEGRAM_FAKE=True
SPIDERMON_SENTRY_FAKE=True

DJANGO_SETTINGS_MODULE=web.settings
DJANGO_CONFIGURATION=Dev
DJANGO_SECRET_KEY=dont-tell-anybody

ACCESS_TOKEN_LIFETIME_IN_MINUTES=60
REFRESH_TOKEN_LIFETIME_IN_MINUTES=60

AWS_ACCESS_KEY_ID=
AWS_SECRET_ACCESS_KEY=
AWS_S3_BUCKET=
AWS_S3_BUCKET_FOLDER=
AWS_S3_REGION=

# A variável abaixo aponta para o arquivo de configuração do NewRelic, se preciso colocar, tb, o path
NEW_RELIC_CONFIG_FILE=newrelic.ini
NEW_RELIC_LICENSE_KEY=
NEW_RELIC_APP_NAME=

web/datasets/services.py Outdated Show resolved Hide resolved
web/datasets/services.py Outdated Show resolved Hide resolved
web/datasets/tests/test_services.py Outdated Show resolved Hide resolved
web/datasets/tests/test_services.py Outdated Show resolved Hide resolved
web/datasets/tests/test_services.py Outdated Show resolved Hide resolved
@@ -149,6 +149,8 @@ class Common(Configuration):

ENABLE_NEW_RELIC = False

DATA_DIR = values.Value(default="/data", environ_prefix=None)
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
DATA_DIR = values.Value(default="/data", environ_prefix=None)
DATA_DIR = values.PathValue(default="/data", environ_prefix=None)

Isso já verifica se o valor é um caminho de arquivo ou diretório válido, e se ele existe. Se quiser que ele não verifique se existe, dá para usar check_exists=False — e, no futuro, talvez esse PathValue vá retornar um pathlib.Path, o que deixaria o nosso código mais simples ainda : )

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Nesse caso é melhor que não verifique porque o volume é criado depois que a imagem é buildada. :)

@anapaulagomes
Copy link
Contributor Author

anapaulagomes commented Oct 14, 2021

Olhando tuas variáveis de ambiente a diferença é que as minhas tem configurado:

AWS_S3_BUCKET=dadosabertosdefeira
AWS_S3_BUCKET_FOLDER=maria-quiteria
AWS_S3_REGION=eu-central-1

O resto está idêntico. Tô rodando aqui com as tuas variáveis pra ver.

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

Investigar porque arquivos não estão tendo o conteúdo extraído localmente
2 participants