-
Notifications
You must be signed in to change notification settings - Fork 20
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
ARTE: Crawler findet keine Einträge mehr #1009
Comments
Seit dem Abend 16.09.2024 funktioniert API
nicht mehr. Die separaten Video- und Audio-Spuren funktionieren nach wie vor:
|
@andreygursky das ist korrekt. wir hatten uns vor einiger Zeit aufgrund der Client-Vielfalt bewusst dagegen entschieden, da mp4-Urls deutlich einfacher in der Handhabung sind. Ich habe die Befürchtung, dass wir die Umstellung jetzt tatsächlich machen müssen 😒 |
In diesem Kontext ein Wunsch für die Umsetzung bei der Auswertung der Referenzen im m3u8-Playlist-File :
Begründung (wie bereits in diesem Thread aufgeführt): Diese 3 Auflösungen dürften rein mathematisch bzw. auch real die Bedürfnisse von fast allen Usern abdecken:
Beispiel für https://www.arte.tv/de/videos/109358-065-A/stadt-land-kunst/ wenn man den HD-Programmstream (p:2), d.h. die Video- inkl. darin referenzierte Audiospur abgreift:
Ergibt in diesem Fall die HD-Variante mit 4 Tonspuren, wobei VLC und mpv automatisch die richtige Tonspur (deutsch) abspielen, falls man die ganze Sache über den "map"-Befehl lösen will oder muss. Gleich vier Tonspuren (DE / FR / DE in klarer Sprache / DE in klarer Sprache) sind unschön. Die normale deutsche Tonspur ist die erste Tonspur (a:0), was kombiniert mit der Videospur in FHD-Auflösung (v:1) folgendes Mapping ergibt:
Natürlich wäre auch eine explizite Streamauswahl – wie bereits hier beschrieben – aus dem Masterfile möglich, aber das würde das Auslesen von 2 URL bedingen (im Bsp. HD und DE-Audiospur):
|
Wenn man die Url mit wget abruft, bekommt man 401 (und nicht 403). Also fehlende Zugangsdaten (z.B. Userid/Passwort) und nicht fehlende Berechtigung. Wenn man die Url im Browser aufruft, bekommt man trotz 401 folgendes JSON angezeigt:
Was ebenfalls auf fehlende Zugangsdaten (No roles were provided) hinweist. Vielleicht kennt jemand eine gültige Autorisierung oder wie man an eine solche kommt. Das wäre sicher einfach als eine Umstellung auf die Config mit den Streaming-Urls. |
Ein Blick auf Vavideo zeigt, dass das Abgreifen von Direktdownload-Adresssen noch möglich sein sollte (wenn auch weiterhin max. in HD, nicht in FHD wie beim HLS-Weg). Bsp.: |
Wir bei JDownloader haben nun dasselbe Problem, wobei hier hinzukommt, dass wir den Download von HLS Streams mit getrenntem audio/video noch gar nicht unterstützen, daher bräuchten wir entweder den alten Weg oder die progressive MP4 URLs ("Direktdownload-Adressen"). @herbivoreMCS |
@pidoubleyou Wenn ich das richtig sehe, ging es in #191 um genau dieses Problem. Ich vermute, die Zugangdaten sind einfach nicht mehr gültig und man müsste neue ermitteln. Entweder wieder fest (bis es dann wieder kracht), oder jedes Mal dynamisch über https://api.arte.tv/api/sso/v3/token und ggf. https://auth.arte.tv/ssologin/setCustomToken?... Ich werde weiter forschen, wollte aber schon mal dieses Zwischenergebnis mitteilen. |
@herbivoreMCS die Erkenntnis hatte ich auch schon gewonnen. Aber ich habe bisher immer noch nicht herausfinden können, wie ich an ein gültiges Token komme. Woher hast du die sso-Urls? |
@pidoubleyou Ok, dann mal mein Bericht über meine - leider bisher alle erfolglosen - Versuche. Die Urls habe ich aus "Firefox/Menü/Extras/Browser Werkzeuge/Werkzeuge für Webentwickler/Netzwerkanalyse" (ggf. mit "Adresse durchsuchen" filtern nach api, auth oder sso). Der sso-Mechanismus wird allerdings wohl nur aufgerufen, wenn der anonymous-Bearer/-Token nicht schon im Cookie steht. Als erstes erfolgt https://auth.arte.tv/ssologin/login?shouldValidateAnonymous=true, dann die beiden schon genannten Aufrufe. Dabei muss bei https://api.arte.tv/api/sso/v3/token bereits ein (Einstiegs-)Bearer angegeben werden, der sich aber im Quelltext jeder ARTE-Seite unter NEXT_PUBLIC_SSO_API_KEY findet. Dort steht auch NEXT_PUBLIC_SSO_TOKEN_API_KEY, mit dem ich aber bisher noch nichts anfangen konnte. Über den (Einstiegs-)Bearer und den Aufruf https://api.arte.tv/api/sso/v3/token bekommt man dann den anonymous-Bearer geliefert. Ob man mit diesem aber überhaupt auf das bewusste V3-API zugreifen kann, ist fraglich. Mir ist es jedenfalls noch nicht gelungen (s.u.). Ich habs leider noch nicht mal geschafft, außerhalb des Browsers einen anonymous-Bearer abzurufen. Und dass, obwohl man sich bequem jeden Request als curl-Befehl kopieren und dann in der Eingabeaufforderung ausführen kann. Aber eben bei mir leider ohne das gewünschte Ergebnis. Btw: Jeder der drei Aufrufe erfolgt zweimal, einmal als OPTION und einmal als GET oder POST. Dann hab ich probiert, mit allem, was mir so eingefallen ist, direkt auf das das bewusste V3-API zuzugreifen:
Deshalb habe ich zum Schluss noch Vavideo angeschrieben und freundlich gefragt, ob sie mir sagen würden, wie sie an ihren Bearer gekommen sind bzw. woher sie ihn haben. Hab aber leider (noch) keine Antwort. Das ist mein "Forschungsstand". Weißt du noch, wie ihr damals an den Bearer gekommen seid? Noch über den (leider nicht mehr existierenden) Weg https://static-cdn.arte.tv/guide/manifest.js? Vielleicht schreibst du/ihr auch mal an Vavideo. Das erhöht die Chancen. Ist der Vavideo-Code öffentlich? Wenn ja, könnte man da vielleicht was sehen. Dazu bin ich noch nicht gekommen. Ich hatte aber allgemein nach Code gesucht, der aufs ARTE-API zugreift. Da findet man auch einiges, aber ich hab bisher nichts gesehen, was (noch) funktioniert. Soweit, so (bisher) erfolglos. Deshalb hatte ich auch von mir aus noch nichts darüber geschrieben, obwohl ich täglich geforscht hatte. |
@herbivoreMCS don-t-worry-weglaufen-geht-nicht[1].htm Damit werden mit dem JDownloader2 alle 5 Auflösungen gelistet, gespeichert wird allerdings lediglich das jeweilige Video ohne Audio. |
@herbivoreMCS danke für deine Erkenntnisse. Nach meinen Analysen gehe ich davon aus, dass die sso-Calls mit "MeinARTE" zusammenhängen. Die Tokens dürften somit nicht für die nicht mehr funktionierenden Aufrufe Abhilfe schaffen. Meine Recherchen waren genauso so erfolglos wie deine. Entweder wird der gleiche Ansatz wie bei MV verwendet oder noch ältere, ebenfalls nicht mehr funktionierende.
leider nicht mehr. ich hatte noch alte Links zur OpenAPI-Dokumentation von ARTE gefunden, aber diese funktionieren alle nicht mehr.
ich vermute nicht. Wenn ARD+ZDF alle ARTE-Filme integrieren würden... Ich werde für MV heute Abend den Umbau auf m3u8 angehen - wenn das funktioniert, auf jeden Fall besser als nichts. |
@pidoubleyou Es wäre schon schade, wenn MV Streaming-Urls verwenden würde, wo doch Vavideo weiterhin an die Direktlinks bekommt. Es muss also gehen! Schreib den von Vavideo doch wirklich mal freundlich an. Ich hatte nicht geschrieben, dass ich von MV komme (weil ich kein Offzieller bin), aber du könntest das tun. Vielleicht nützt das was. Er muss ja auch keinen Bearer rausrücken, sondern nur schreiben, wie man an einen kommt. Bei Vavideo funktioniert es definitiv!
Soviel zum Thema, das Internet vergisst nichts :-( |
@dadidadit Helfen tut das aus meiner Sicht leider nichts, aus dem in vorigen Post genannten Grund (Direktlinks). |
@herbivoreMCS
|
@pspzockerscene und @pidoubleyou |
Dank eines Tipps von @codingPF habe ich doch einen Weg gefunden, über den sich aktuell mp4-Links ohne Authorization ermitteln lassen. |
Und wieder wünscht man sich ein bisschen bessere Vernetzung von denen, die Interesse an arte API haben, denn der Trick war spätestens bereits am 19.02.2018 erwähnt: known-as-bmf/plugin.video.arteplussept#35 (comment) |
Die "hbbtvv2" API scheint nicht für alle Videos zu funktionieren. |
Dein Beispielsendung ist ein Kurzbeitrag, der nie im TV gesendet wurde, in der APIv2 erkennbar an dem Tag "PROGRAMME WEB": Solche Web-only-Videos sind wohl absichtlich nicht via HbbTV zugänglich, im Unterschied zu Videos, die auch via TV verbreitet wurden (="PROGRAMME _ANTENNE"): MV hat bislang solche Web-only-Videos auch nur partiell erfasst, d.h. nur, wenn diese dort publiziert wurden, wo der Crawler auch suchte. |
@styroll |
@styroll |
erste Analyse: Ermittlung der Videostreams scheitert mit 403
The text was updated successfully, but these errors were encountered: