paint-brush
Instagram Scraper: cómo extraer datos de Instagram [2022]por@dameskik
115,799 lecturas
115,799 lecturas

Instagram Scraper: cómo extraer datos de Instagram [2022]

por Dameh5m2021/03/02
Read on Terminal Reader
Read this story w/o Javascript
tldt arrow
ES

Demasiado Largo; Para Leer

Extraiga seguidores, hashtags, comentarios, historias, publicaciones, me gusta, correos electrónicos, biografías y otros datos de Instagram con Python/Github.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Instagram Scraper: cómo extraer datos de Instagram [2022]
Dameh HackerNoon profile picture

En este artículo, cubriremos cómo crear su propia herramienta de raspado de datos de Instagram.

Debes saber que para construir un raspador necesitas tener algunas habilidades técnicas. Si no es una persona tecnológica, o no tiene el tiempo, los recursos y quiere estar 100% en el lado legal de las cosas, use un servicio como influencers.club .

Simplemente puede solicitar correos electrónicos dirigidos a los seguidores de un perfil (probablemente un competidor) o un hashtag relevante .

También puede usar su base de datos de más de 50 millones de perfiles de Instagram para encontrar personas por palabras clave en la biografía.

Nota importante: tenga en cuenta que el acceso automático a Instagram va en contra de sus términos de servicio.

¿Qué es el raspado de Instagram?

El raspado de Instagram significa recopilar automáticamente datos disponibles públicamente de los usuarios de Instagram. El proceso puede incluir herramientas de raspado, servicios de raspado de Instagram o la extracción manual de datos. Puede extraer datos como direcciones de correo electrónico, números de teléfono, imágenes, biografía, me gusta, comentarios, etc.

¿Es legal el raspado de Instagram?

Si bien Instagram prohíbe cualquier tipo de rastreo, extracción o almacenamiento en caché de contenido de Instagram, no está regulado por ley. Es decir, si extrae datos de Instagram, puede prohibir su cuenta, pero no hay repercusiones legales.

Entonces, comencemos con una descripción general de los componentes que necesitará para el raspado de Instagram.

1. Scrape usando la API no oficial de Instagram

La API oficial de Instagram se deshabilitó el 29 de junio de 2020, y está bien porque era inútil cuando necesitabas datos como correos electrónicos, números de teléfono, biografía, etc.

En su lugar, Instagram utiliza una API no oficial (móvil) (conocida como puntos finales móviles) para comunicarse hacia y desde sus servidores. Entonces, con la ayuda del software de código abierto y la interceptación del tráfico, podemos ver cómo funciona su API y usarla para el raspado de datos.

2. Perfiles de Instagram

A continuación, necesitamos usar perfiles de Instagram que simulen el comportamiento humano en la aplicación móvil de Instagram mientras recopilan datos. La cantidad de perfiles de Instagram que necesita depende de la cantidad de datos que desea recopilar. Instagram tiene un pequeño límite de llamadas de API (que está disminuyendo constantemente) y actualmente tiene 200 llamadas por día.

Entonces, si desea raspar los seguidores de Instagram de un influencer con 50k fanáticos, necesitaría 50 perfiles de Instagram que rasparán durante 5 días.

Dos cosas importantes para recordar al comprar perfiles de Instagram para raspar:

  • SIEMPRE use perfiles de Instagram antiguos
  • NUNCA use su perfil personal

Puedes comprar perfiles de Instagram desde

  • paginas de facebook
  • mensajes directos de instagram
  • e incluso en mercados en línea dedicados

Pero incluso si logra comprar e iniciar sesión con todos esos perfiles, aún enfrentará muchos desafíos. Instagram es bastante inteligente y puede reconocer perfiles que se originan en el mercado gris. Sin embargo, algunos vendedores son muy buenos creando perfiles falsos que son difíciles de detectar. Sugeriría buscar los vendedores más caros en este mercado .

3. Proxies para permanecer sin ser detectado

Un proxy es un servidor de terceros que le permite enrutar su solicitud a través de sus servidores y usar su dirección IP en el proceso. Cuando usa un proxy, Instagram ya no ve su dirección IP, sino la dirección IP del proxy, lo que le permite realizar todo el raspado desde un servidor. No intente simular demasiadas IP porque iniciar sesión en más de 5 perfiles en la misma IP es un gran no-no.

Al igual que con los perfiles de Instagram tenemos el mismo problema con los proxies. Instagram detecta miles de proveedores de proxy y, hasta que encuentre uno bueno, puede enfrentar muchos problemas.

Si Instagram prohíbe el proxy que usa, eso significa automáticamente que el perfil de Instagram asociado ya no está disponible. Para verificar si está seguro y su proveedor de proxy aún no está en el radar, use este sitio web . Si se trata de un proveedor conocido, estará allí y, dado que este sitio web lo sabe, créanme, el ojo que todo lo ve de Zuckerberg también lo sabe.

Pros y contras de construir un extractor de datos de Instagram

Los beneficios de tener un raspador de Instagram interno son:

  • Control total de todo el proceso.
  • Los datos de contacto que adquiera se pueden revender o alquilar
  • Puede usar los datos para escalar su negocio

Sin embargo, también hay algunos inconvenientes serios:

  • Sin orientación ni segmentación una vez que tenga los datos
  • En clara violación de los ToS de Instagram
  • Cuentas Falsas y Bots
  • Correos electrónicos no válidos, trampas de spam, catch-all
  • Riesgos de seguridad
  • Puntos de datos muy limitados

¿Cómo puede extraer datos de los seguidores o usuarios de Instagram?

Puede usar Python (GitHub) para crear su propio raspador de Instagram o comprar los datos de los usuarios de Instagram de Influencers Club.

Scraping de Instagram con Python (GitHub)

Para raspar Instagram con Python puedes usar una herramienta como Instagramy . Esta herramienta está creada específicamente para Instagram y tiene capacidad de análisis de datos a través de Pandas.

Instagramy se usa para raspar Instagram rápida y fácilmente. Este paquete se instala ejecutando el siguiente comando y, según la conexión de red, extrae los datos por usted.

 pip install instagramy

Ejemplo 1: raspado de detalles básicos

 from instagramy import Instagram # Connecting the profile user = Instagram( "geeks_for_geeks" ) # printing the basic details like # followers, following, bio print(user.is_verified()) print(user.popularity()) print(user.get_biography()) # return list of dicts posts = user.get_posts_details() print( '\n\nLikes' , 'Comments' ) for post in posts: likes = post[ "likes" ] comments = post[ "comment" ] print(likes,comments)

Ejemplo 2: Analizando los datos

 from instagramy import Instalysis # Instagram user_id of ipl teams teams = [ "chennaiipl" , "mumbaiindians" ,		"royalchallengersbangalore" , "kkriders" ,		"delhicapitals" , "sunrisershyd" ,		"kxipofficial" ] data = Instalysis(teams) # return the dataframe data_frame = data.analyis() data_frame


Cómo raspar Me gusta de Instagram

Desafortunadamente, no es posible exportar personas a las que les gustó una determinada publicación o varias publicaciones. Sin embargo, se pueden rastrear y raspar con este código:

 def get_likes_list( username ): api.login() api.searchUsername( username ) result = api.LastJson username_id = result[ 'user '][ 'pk '] # Get user ID user_posts = api.getUserFeed( username_id ) # Get user feed result = api.LastJson media_id = result[ 'items '][ 0 ][ 'id '] # Get most recent post api.getMediaLikers( media_id ) # Get users who liked users = api.LastJson[ 'users '] for user in users: # Push users to list users_list.append({ 'pk ':user [ 'pk '], 'username ':user [ 'username ']})


Extraer correos electrónicos de cuentas de Instagram | Rascador de correo electrónico de Instagram

Para raspar correos electrónicos de Instagram debe iniciar sesión con una cuenta de Instagram desde un proxy específico. Y para extraer las direcciones de correo electrónico, use este código: /api/v1/users/{{user_id}}/info/

Puede usar este GitHub Repo para encontrar todas las muestras.

Raspe las imágenes de los usuarios de Instagram

Muchos de ustedes quieren exportar sus propias fotos de Instagram o las de otra persona. Ahora, según mi experiencia, eso es muy difícil de lograr, ya que deben extraerse de la web (no de la aplicación). ¡Pero es factible!

Aquí está el GitHub exacto que puede usar para crear su propio raspador de imágenes :

Herramienta raspador de Instagram en línea

Extraer datos de Instagram puede ser un desastre, ya que 95 millones de perfiles en las plataformas son cuentas falsas o bots. Es por eso que si planea raspar Insta para obtener información de contacto como correo electrónico o números de teléfono, es mejor usar un servicio de raspado. Estos tipos de servicios extraerán los datos que desee, pero también limpiarán y filtrarán la lista para que solo termine con las personas con las que desea comunicarse.

Si eres un usuario habitual de IG o un pequeño influencer que quiere exportar sus propios seguidores, solo busca una herramienta de raspado barata. Pero para las empresas que planean usar los datos con fines publicitarios Te sugiero que uses el Club de Influencers. Actualmente son líderes en el mercado y ofrecen opciones de filtrado que no obtienes en ningún otro lugar (edad, género, ubicación, intereses y más).