Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ARTE: Filme aus Banner fehlen #576

Open
pidoubleyou opened this issue Feb 10, 2020 · 3 comments
Open

ARTE: Filme aus Banner fehlen #576

pidoubleyou opened this issue Feb 10, 2020 · 3 comments
Milestone

Comments

@pidoubleyou
Copy link
Contributor

pidoubleyou commented Feb 10, 2020

Im Forum wurde ein fehlender Film gemeldet.

Erste Analyse:
Der Crawler findet nur Filme, die auf den Subkategorie-Seiten unter "Alle Videos" aufgeführt sind. Es gibt anscheinend auch Filme, die nur im oberen Banner verlinkt sind. Diese werden nicht gefunden.

Da der Crawler aktuell über die API sucht, wird das schwierig werden, außer wir schreiben den Crawler um auf HTML parsen.

P.S. ARTE scheint keine API-Calls mehr auf der Webseite zu machen, um die Übersichtsseiten aufzubauen. Einzig für die Video-Infos wird noch ein API-Call durchgeführt (mittlerweile in einer v2 statt v1)

Betrifft sowohl Master als auch Develop.

Weiteres Beispiel:
die Kurzfilme von Georges Méliès Forumseintrag

@pidoubleyou pidoubleyou added this to the 4.0.0 milestone Feb 10, 2020
@DaDirnbocher
Copy link

Nur zu meinem Verständnis: Wenn der Crawler auf HTML parsen umgeschrieben werden würde, und gleichzeitig die Banner aber offensichtlich ip-abhängig/geo-abhängig gestaltet werden, würden damit immer noch Filme fehlen. Weniger als jetzt, aber doch der eine oder andere. Versteh ich das richtig?

@Nicklas2751
Copy link
Member

@DaDirnbocher Der crawler würde dann deutlich länger brauchen und insgesamt noch weniger finden. Wir nutzen, mittlerweile, die API genau deshalb. Ist ja auch klar von einer API recht direkt die Informationen erhalten die man braucht ist einfacher und schneller als zig Seiten HTML zu laden und zu parsen.

@pidoubleyou pidoubleyou modified the milestones: 4.0.0, 4.1.0 Feb 28, 2021
@pidoubleyou
Copy link
Contributor Author

Idee: Android-App lädt für jede Kategorie ein JSON, dass die ProgramIds beinhaltet. Darin sind die Banners enthalten. Wäre eine Überlegung, sich das anzusehen.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants