OSINT: Раскрой секреты цифровой разведки. Артем Демиденко

OSINT: Раскрой секреты цифровой разведки - Артем Демиденко


Скачать книгу
сбора данных из социальных сетей

      Одним из самых распространённых методов сбора данных является использование API (интерфейса программирования приложений) конкретных платформ. Например, Twitter API позволяет получить доступ к твитам, профилям пользователей, а также к аналитической информации. С помощью этого инструмента можно извлекать как исторические, так и текущие твиты по ключевым словам, хештегам или пользователям.

      Для начала работы с Twitter API важно создать учётную запись разработчика и получить ключи доступа. Процесс может показаться сложным, но он того стоит. После настройки вы сможете использовать библиотеки, такие как Tweepy для Python, которая значительно упрощает взаимодействие с API.

      Пример кода для получения последних твитов по ключевому слову может выглядеть следующим образом:

      ```python

      import tweepy

      # Укажите свои ключи доступа

      consumer_key = 'YOUR_CONSUMER_KEY'

      consumer_secret = 'YOUR_CONSUMER_SECRET'

      access_token = 'YOUR_ACCESS_TOKEN'

      access_token_secret = 'YOUR_ACCESS_TOKEN_SECRET'

      auth = tweepy.OAuthHandler(consumer_key, consumer_secret)

      auth.set_access_token(access_token, access_token_secret)

      api = tweepy.API(auth)

      # Получение твитов по ключевому слову

      tweets = api.search(q='пандемия', lang='ru', count=100)

      for tweet in tweets:

      ....print(tweet.text)

      ```

      Такой подход позволяет не только собирать данные, но и анализировать их с учётом времени, местоположения и других параметров, открывая массу возможностей для исследований.

      Парсинг данных без API

      Однако не всегда можно использовать API. Некоторые платформы устанавливают ограничения на количество запросов или совсем не предоставляют открытых API. В таких случаях можно прибегнуть к методам веб-парсинга. Эффективные инструменты, такие как BeautifulSoup и Scrapy для Python, помогут извлечь необходимые данные непосредственно из HTML-кода страниц.

      При парсинге сайта важно ознакомиться с его правилами использования и с файлом robots.txt, чтобы избежать нарушений. Пример кода для парсинга данных из публичного профиля в Instagram* социальная сеть, признана экстремистской организацией и запрещена на территории РФ может выглядеть так:

      ```python

      import requests

      from bs4 import BeautifulSoup

      # URL профиля

      url = 'https://www.Instagram* социальная сеть, признана экстремистской организацией и запрещена на территории РФ.com/username/'

      response = requests.get(url)

      soup = BeautifulSoup(response.text, 'html.parser')

      # Извлечение данных

      posts = soup.find_all('div', class_='v1Nh3 kIKUG.._9AhH0')

      for post in posts:

      ....print(post['href'])

      ```

      Такой метод требует глубоких знаний о структуре веб-страниц и может нести определённые юридические риски. Поэтому перед его использованием нужно внимательно оценить легальность и этичность парсинга конкретного ресурса.

      Анализ собранных данных

      После сбора данных пора переходить к их анализу. Для обработки и визуализации текстовой информации и графиков можно использовать библиотеки для анализа данных, например, Pandas и Matplotlib для Python. Это позволит разобрать десятки тысяч твитов


Скачать книгу