Php парсинг обойти защиту

Содержание

Как обойти защиту от парсинга?
Как обойти защиту от парсинга при использовании curl?
Как сделать парсер крупных сайтов и маркетплейсов на PHP, обходящий блокировки?
Как парсить защищенные сайты?

Как обойти защиту от парсинга?

Все привет.
Есть страница http://kvartiry.address.ua/sda. r-6477037/
На этой странице есть кнопка показать контакты, после нажатия на неё отправляется через AJAX методом POST запрос на получение контактов.
POST http://kvartiry.address.ua/rea. s/6477037/
POST http://kvartiry.address.ua/Web. tInfoClick
Ну и соответственно получаю данные.

Проблема в том что если отправлять в своём парсинге AJAX запросы, то возвращаются пустые данные.
Помогите советом или примером как можно взять от туда контакты?

Народ, как обойти защиту при парсинге страницы?
Есть страница , на ней есть кнопка "показать номер", при нажатии на неё отображается номер, только.

Как обойти защиту?
Доброго времени суток! Подскажите пожалуйста. На рабочем компе имеется программа. После установки.

Как обойти защиту
ку. ситуация такова: хожу на лайнере, интернет дорогой на борту и то можно посещать только соц.

как обойти защиту от прокси?
как обойти защиту от прокси? при попытке сделать чтот на сайте через прокси выдает ошибку 403,как.

Сообщение от paha444

там ещё и JSon, без его использования ничего не получится.
и, бегло просматривая видел там пару сессий.
ну а вообще для POST надо тщательно перебирать все заголовки (хедеры) и рефереры, смотреть, какие необходимы а какие можно не использовать.
да, тут защита, люди на этой инфе зарабатывают деньги. поэтому, покопаться придется

Я надеюсь, что кто-нибудь так же поможет тем, кто пытается обойти, к примеру, дверной замок у него дома.

Сообщение от OnYourLips

Я надеюсь, что кто-нибудь так же поможет тем, кто пытается обойти, к примеру, дверной замок у него дома.

Нормальный процесс. Один ломает, другой изучив лом находит прием. Занятие вечное и приятное для обоих сторон. Говорят некоторые лица занимают сразу обе стороны.

Добавлено через 4 минуты
На php я бы такой фигней не занимался, потому что есть greasemonkey где не надо имитировать браузер, потому что все и так в браузере.

Так вот, просто потому что на сайтах всегда что-то меняется, эволюционирует или наоборот деградирует, то поддержание актуальности скриптов еще то занятие. Работало — заходишь — не работает. Никаких планов ковырять скрипт не было — возникли. И начинается поиск чего там они поменяли чтобы мне поменять чтобы работало.

ЗЫ Ну да, если напрямую у себя постить, то конечно php нужен.

Как обойти защиту сайта
Здарова всем хочу задать вопрос как обойти защиту сайта Проблема в том что этот сайт planeta.tj.

Как обойти защиту сайта OLX?
Здравствуйте учусь парсить сайты с помощью HtmlAgilityPack, но вот проблема при попытке загрузить.

Как обойти сетевую защиту на выход в инет
Есть офисная сеть, выход в инет заблокирован. Есть usb модем YOTA, но и через него не идет.

html парсер (как обойти защиту сайта)
Здравствуйте! Столкнулся с такой проблемой, что через некоторое время сайт блокирует меня (мой.

Источник

Как обойти защиту от парсинга при использовании curl?

При php парсинге через curl появляется оишбка: «Сработал HTTP фильтр. Access Denied, так как возможно вы используете VPN или TOR IP adress». Как обойти защиту от парсинга при использовании curl? Вот скрипт, только url изменен. Вроде cookies подключены, useragent тоже есть, реферрер имеется. Может что-то еще добавить или изменить? Может что-то поменять среди параметров curl_setopt?

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

// САЙТ $url = 'https://test.ru'; // НАЧАЛО $ch = curl_init($url); // ПОДГОТОВКА ЗАГОЛОВКОВ $uagent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/531.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36"; // ВСЯКИЕ ПАРАМЕТРЫ curl_setopt($ch, CURLOPT_USERAGENT, $uagent); curl_setopt($ch, CURLOPT_HEADER, true); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, false); curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); curl_setopt($ch, CURLOPT_REFERER, 'https://google.com'); curl_exec($ch); // ДОБАВЛЯЕМ КУКИ В ПАРАМЕТРЫ curl_setopt($ch, CURLOPT_COOKIE, "PMBC=96152e8e9a0168a731539c5e52c6b39a; PHPSESSID=jl0i13pn3157qca807jgp0jqa7; ServerName=WoW+Circle+3.3.5a+x5; serverId=1"); $html = curl_exec($ch); // КОНЕЦ curl_close($ch); var_dump($html);

Как обойти защиту от парсинга?
Все привет. Есть страница http://kvartiry.address.ua/sdajut/kiev/ostrovskogo-nikolaya-per-6477037/.

Источник

Как сделать парсер крупных сайтов и маркетплейсов на PHP, обходящий блокировки?

Сам вопрос:
Подскажите, что именно стоит изучать, на что акцентировать внимание, какие библиотеки использовать, чтобы создать желательно быстрый парсер маркетплейсов на PHP?
Если подробнее:
Посоветуйте,какой стек использовать, что почитать и изучить, чтобы реализовать следующий функционал:
Вводится в форму на сайте название определенного товара -> нажимается кнопка поиска -> формируется ссылка ( например для ВБ по этому товару -> парсятся определенные данные, типа цены, названия -> выводится на сайт.
Желательно, чтобы этот парсер работал асинхронно без перезагрузки страницы.

В общем мне нужно сделать парсер на PHP, который смог бы обходить блокировку таких сайтов, как Озон,Вайлдберриз, Яндекс.маркет, Авито, Леруа Мерлен и т.д.

Я пытался парсить с помощью guzzle+curl+phpQuery, но получалось только на мелких сайтах.

Если вы можете точно сказать, как это можно проще реализовать, но на другом языке, например, Python, то это тоже может помочь, только скажите, можно ли будет использовать парсер от Python на PHP сайте?

Я буду рад, даже если вы просто посоветуете, где найти качественную книгу/подробную статью о парсерах на PHP и обходе защиты от парсинга.

Средний 3 комментария

ipatiev

Если вам не помогли 100500 уже существующих ответов на этот вопрос, то вряд ли добавление еще одного хоть чем-то поможет.

Да. Мне кажется что Python удобнее. И с точки зрения клиента — безразлично на чем был
написан сайт (ASP.Net, Java, e.t.c.). Все равно ты будешь видеть текстовые ответы.

На Github я находил сорцы для парсинга почти всех крупных форумов, торрент трекеров и прочего.

Обходить блокировку с гарантией никто не умеет потому-что владельцы могут постоянно менять
механизмы аутентификации.

Вообще мне удивительно что вы, «парсильщики» до сих пор не создали никакого комьюнити для решения
этих задач. Вас много — но вы неорганизованные и сжигаете усилия впустую. Создали-бы сообщество.
Написали-бы свой API для всего.

ipatiev

mayton2019, дураков нет.
Те, кто могут парсить с какой-никакой гарантией (и ценой неимоверных усилий, мобильных ферм и прочего), как например один поц который хвастался этим на Хабре, поднимают на этом неплохие денежки. И на халяву делиться ноу-хау не будут.
Поэтому в сообществе будут бегать только такие вот пионеры-незнайки.

dbkv

Подскажите, что именно стоит изучать, на что акцентировать внимание, какие библиотеки использовать, чтобы создать желательно быстрый парсер маркетплейсов на PHP?

Зависит от ваших текущих знаний. Написать парсер сайтов можно на любом языке программирования, при желание. Удобнее всего, на мой взгляд сделать это на Python с использозованием библиотеки — https://www.crummy.com/software/BeautifulSoup/bs4/doc/ либо на NodeJS.

Python / Request / BeautifulSoup4 либо NodeJS / Axios / node-html-parser. Если осмелитесь писать на PHP, что на мой взгляд крайне не удобно, то guzzle + phpQuery, как вы уже сами и написали.

Также, сейчас на многих сайтах используется технология SPA и клиентский рендеринг. Если в кратцы — то контент на сайт подгружается через API и рендерится с помощью JS. Если в тупую обратиться к такому сайту с сервера (например через curl), то с высокой долей вероятности мы получим пустую страницу.

Для таких сайтов нужно использовать эмуляторы браузеров, например seleniumhq.org или https://pptr.dev/. Биндинги есть на Python и NodeJS, возможно и на PHP.

Да, можно просто написать API на Python и поднять сервис на отдельном поддомене или порту, а далее в JSON-формате возвращать данные на сайт и делать с ними дальнейшие операции.

На счет обхода блокировок. Стоит сказать сразу, что блокировки будут всегда, поэтому при разработке парсера надо обязательно предусмотреть следующее:

1. Каждый запрос рандомизируем заголовки (request headers) и User-Agent. Обязательно. Тут без вариантов.

2. Делаем запросы исключительно через proxy + каждый запрос рандомизируем их. В идеале иметь пулл из ~20 проксей. Крайне желательно чтобы прокси были приватными.

3. Если уперлись в капчу, то делаем повторный запрос с другой прокси, если сайт ни в какую не хочет нас пускать к контенту, то разгадываем капчу. Либо реализуем разгадывание руками пользователя (т.к у вас интерфейс есть), либо с помощью любого сервиса разгадывания капчи, типа https://capmonster.cloud/ru/ или https://rucaptcha.com/.

Надеюсь я смог прояснить некоторые технические детали парсинга сайтов.

Источник

Как парсить защищенные сайты?

Мне нужно спарсить алиэкспресс, но там через какое-то время всплывает верификация.

Бьюсь уже несколько дней, не дает никак спарсить.

Но если зайти напрямую по ссылке, то все нормально, заходит без никаких верификаций.
Вот мой код.

$url = "https://aliexpress.ru/af/category/202003449.html?categoryBrowse=y&origin=n&CatId=202003449&catName=sweaters"; $headers = array( 'accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9', 'accept-encoding: deflate, br', 'accept-language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7', 'cache-control: max-age=0', 'sec-fetch-dest: document', 'sec-fetch-mode: navigate', 'sec-fetch-site: none', 'sec-fetch-user: ?1', 'upgrade-insecure-requests: 1', 'User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36' ); $ch = curl_init($url); curl_setopt($ch, CURLOPT_COOKIEFILE, __DIR__ . '/cookie.txt'); curl_setopt($ch, CURLOPT_COOKIEJAR, __DIR__ . '/cookie.txt'); curl_setopt($ch, CURLOPT_HTTPHEADER, $headers); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"; curl_setopt($curl, CURLOPT_REFERER, "https://aliexpress.ru/"); curl_setopt($ch, CURLOPT_HEADER, true); $code = curl_getinfo($ch, CURLINFO_HTTP_CODE); $html = curl_exec($ch); curl_close($ch); print_r($html);

Подскажите, в какую сторону копать?

1) Можно ли чисто средствами curl спарсить али и обойти защиту? Или там все сильно защищено, что никак?

2) Может стоит использовать curl+selenium? Но сама технология мне пока непонятна. Может кто-нибудь знает.

Простой 1 комментарий

Источник