КАК СОБРАТЬ БАЗУ ДАННЫХ ЛЮБОГО САЙТА: ТЕСТИРУЕМ OPEN SOURCE CYBERYOZH DATA SCRAPER
GitHub (CyberYozh Data Scraper): https://github.com/CyberYozh-data/yozh-scraper Надёжные прокси – 5% по промокоду "DAVID": https://app.cyberyozh.com/ru/proxy/?pid=fe78d6e007334ce2b6d1f5874026ed66&utm_source=youtube&utm_medium=CyberYozh&utm_campaign=data_scraping_david&myshare=42G9CXVR Реферальная система CyberYozh Academy: https://academy.cyberyozh.com/referral/?utm_source=youtube&utm_medium=CyberYozh&utm_campaign=data_scraping_david&myshare=42G9CXVR Telegram-канал CyberYozh: https://t.me/cyberyozh_official CyberYozh Support: https://t.me/cyacademy_support ======================================== Информация — это нефть XXI века, и она стоит огромных денег. Мы разберем, как автоматизировать сбор данных с веб-ресурсов и проводить глубокую индексацию карт сайтов. Этот навык критически важен как для SOC-аналитиков (синяя команда), так и для пентестеров (красная команда) при проведении разведки на Bug Bounty. В этом уроке: • Scraping vs Crawling: В чем разница между автоматическим сбором контента и поиском ссылок (пауками). • Защита от блокировок: Зачем нужны ротационные и мобильные прокси при парсинге сайтов. • Развертывание в Docker: Пошаговая настройка контейнеров через docker-compose. • Визуальный тестер: Поднимаем локальный Node.js сервер на Localhost 7000 для красивого GUI-управления. • Глубокий краулинг: Настраиваем Scope Mode и собираем скрытые поддомены организации. • CLI-интерфейс: Работаем напрямую через cURL-запросы для получения Job ID и результатов. #датаскрейпинг #краулинг #OSINT #CyberYozh #Docker #BugBounty #парингсайтов #информационнаябезопасность #обучениеИБ #Давид ======================================== Дисклеймер! Этот контент предназначен исключительно для самообразования, легального тестирования на проникновение и автоматизации сбора открытых данных. Использование софта для деструктивных атак или нарушения правил пользования сторонних ресурсов преследуется по закону. ======================================== Таймкоды: 00:00 — Введение: что такое скрейпинг и почему данные стоят дорого в 2026 01:14 — Принцип работы веб-пауков и индексация карт сайтов 01:48 — Зачем нужны ротационные прокси для обхода WAF и фаерволов 02:20 — Подготовка окружения в Kali Linux: установка Docker и Docker Compose 03:22 — Официальной open-source репозитории CyberYozh Scraper 03:50 — Настройка .env файлов и генерация API-ключа в личном кабинете 05:58 — Сборка и запуск контейнеров через docker-compose up --build 06:48 — Проверка статуса работы бэкенда через cURL 07:04 — Поднимаем визуальный тестер: npm install и запуск Node.js на порту 7000 08:29 — Практика GUI: настраиваем парсинг страницы (Desktop/JS Render/Screenshots) 08:44 — Подключение Socks5 мобильных прокси для маскировки скрейпера 10:49 — Разбор результатов: получение структуры сайта и длинных скриншотов 11:00 — Настройка Batch-скрейпинга для одновременной обработки нескольких URL 11:13 — Запуск кроулера для сбора сабдоменов организации 12:08 — Вкладка Jobs: мониторинг истории задач иMCP Tools в панели 12:55 — Продвинутый уровень: управление скрейпером через терминал (CLI и API) 14:29 — Итоги урока: open-source софт как мощный инструмент Bug Bounty
GitHub (CyberYozh Data Scraper): https://github.com/CyberYozh-data/yozh-scraper Надёжные прокси – 5% по промокоду "DAVID": https://app.cyberyozh.com/ru/proxy/?pid=fe78d6e007334ce2b6d1f5874026ed66&utm_source=youtube&utm_medium=CyberYozh&utm_campaign=data_scraping_david&myshare=42G9CXVR Реферальная система CyberYozh Academy: https://academy.cyberyozh.com/referral/?utm_source=youtube&utm_medium=CyberYozh&utm_campaign=data_scraping_david&myshare=42G9CXVR Telegram-канал CyberYozh: https://t.me/cyberyozh_official CyberYozh Support: https://t.me/cyacademy_support ======================================== Информация — это нефть XXI века, и она стоит огромных денег. Мы разберем, как автоматизировать сбор данных с веб-ресурсов и проводить глубокую индексацию карт сайтов. Этот навык критически важен как для SOC-аналитиков (синяя команда), так и для пентестеров (красная команда) при проведении разведки на Bug Bounty. В этом уроке: • Scraping vs Crawling: В чем разница между автоматическим сбором контента и поиском ссылок (пауками). • Защита от блокировок: Зачем нужны ротационные и мобильные прокси при парсинге сайтов. • Развертывание в Docker: Пошаговая настройка контейнеров через docker-compose. • Визуальный тестер: Поднимаем локальный Node.js сервер на Localhost 7000 для красивого GUI-управления. • Глубокий краулинг: Настраиваем Scope Mode и собираем скрытые поддомены организации. • CLI-интерфейс: Работаем напрямую через cURL-запросы для получения Job ID и результатов. #датаскрейпинг #краулинг #OSINT #CyberYozh #Docker #BugBounty #парингсайтов #информационнаябезопасность #обучениеИБ #Давид ======================================== Дисклеймер! Этот контент предназначен исключительно для самообразования, легального тестирования на проникновение и автоматизации сбора открытых данных. Использование софта для деструктивных атак или нарушения правил пользования сторонних ресурсов преследуется по закону. ======================================== Таймкоды: 00:00 — Введение: что такое скрейпинг и почему данные стоят дорого в 2026 01:14 — Принцип работы веб-пауков и индексация карт сайтов 01:48 — Зачем нужны ротационные прокси для обхода WAF и фаерволов 02:20 — Подготовка окружения в Kali Linux: установка Docker и Docker Compose 03:22 — Официальной open-source репозитории CyberYozh Scraper 03:50 — Настройка .env файлов и генерация API-ключа в личном кабинете 05:58 — Сборка и запуск контейнеров через docker-compose up --build 06:48 — Проверка статуса работы бэкенда через cURL 07:04 — Поднимаем визуальный тестер: npm install и запуск Node.js на порту 7000 08:29 — Практика GUI: настраиваем парсинг страницы (Desktop/JS Render/Screenshots) 08:44 — Подключение Socks5 мобильных прокси для маскировки скрейпера 10:49 — Разбор результатов: получение структуры сайта и длинных скриншотов 11:00 — Настройка Batch-скрейпинга для одновременной обработки нескольких URL 11:13 — Запуск кроулера для сбора сабдоменов организации 12:08 — Вкладка Jobs: мониторинг истории задач иMCP Tools в панели 12:55 — Продвинутый уровень: управление скрейпером через терминал (CLI и API) 14:29 — Итоги урока: open-source софт как мощный инструмент Bug Bounty




