Задача про быстрый парсинг Avito
Появился запрос от риэлтора: парсить авито-недвижимость Москвы, но так, чтобы данные о выходе объявления появлялись в CRM не позже минуты.
Задача интересная, потому что сложная в реализации — авито не приветствует парсеры и с каждым днём защита становится всё изощрённее.
Ещё большое усложнение — фейки. Очень много объявлений подаётся по несколько раз самими риэлторами. С левых симок, с разными картинками, описанием.
Ну и последнее — объявления вываливаются пачками. В одну минуту в Москве может быть подано 100 объявлений.
Как обойти защиту — прикинуться человеком. Чтобы робот заходил на сайт с разных браузеров, устройств и IP, прокручивал страницы, выделял текст, кликал ссылки.
Как справиться с потоком — под каждую категорию запускать своего робота. А то и несколько. Например на продажу коммерческой недвижимости одного робота, а на продажу двушек — сразу трёх.
Как чистить фейки? Пока не знаю.