Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Scrapear la DHT #6

Open
fauno opened this issue Feb 4, 2015 · 2 comments
Open

Scrapear la DHT #6

fauno opened this issue Feb 4, 2015 · 2 comments
Assignees

Comments

@fauno
Copy link

fauno commented Feb 4, 2015

Aparentemente se podrían indexar todos los torrents al monitorear los announce_peer. Cuando se anuncia un par, se anuncia el infohash del torrent. Si piratesbey monitorea todos los announce_peer, puede tener acceso a todos los torrents nuevos, obtener los metadatos de la misma DHT e indexar sus contenidos, sin descargar los datos reales.

@azimut
Copy link

azimut commented Mar 9, 2015

hay mas informacion sobre esto? por lo que pude ver el infohash es un sha1 hash. Como se recuperaria la descripcion del torrent?

Solo encontre esto donde usan algo de vuzedht, pero no especifican que: https://github.com/ntoll/p4p2p/blob/master/papers/dht-woot10.pdf?raw=true

@seykron
Copy link
Contributor

seykron commented Mar 9, 2015

Empecé este proyecto, el crawler ya funka, falta terminar de implementar la extensión UT_METADATA de bittorrent, y estoy en eso:

https://github.com/seykron/bittorrent-dht-index

Hay dos formas de "buscar" infohashes:

  1. Esperando los announce_peer de la DHT, pero el volumen de infohashes que recibís es marginal.
  2. Encontrar una lista de millones de infohashes como la que hay en https://zoink.ch/sync/

Después simplemente hay que buscar peers en la DHT y usar el protocolo de bittorrent para pedir la metadata a través de la extensión UT_METADATA.

La documentación del crawler explica con más detalle el algoritmo que usa para crawlear.

El objetivo de bittorrent-dht-index es construir colaborativamente un índice distribuído de metadata. Por ahora, el único "data source" que está implementado es el crawler de la DHT, pero con el índice distribuído cualquiera que se una a la red podría agregar nueva metadata.

Respecto a la infraestructura del índice distribuído, después de evaluar varias opciones y charlar con otras piratas vamos a usar Cassandra sobre una VPN, porque resuelve todo para que los nodos se unan o se vayan de la red distribuída (en piratesbey usamos Elastic Search porque está pensado para hacer búsquedas, pero es bastante limitado para distribuir datos).

Si querés darnos una mano sería genial, muchas estamos en el IRC.

@seykron seykron self-assigned this Mar 9, 2015
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants