000000 000001
Rose debug info
---------------

Евгений Лукин

Заметки, конспекты

Задача про быстрый парсинг Avito

Появился запрос от риэлтора: парсить авито-недвижимость Москвы, но так, чтобы данные о выходе объявления появлялись в CRM не позже минуты.

Задача интересная, потому что сложная в реализации — авито не приветствует парсеры и с каждым днём защита становится всё изощрённее.

Ещё большое усложнение — фейки. Очень много объявлений подаётся по несколько раз самими риэлторами. С левых симок, с разными картинками, описанием.

Ну и последнее — объявления вываливаются пачками. В одну минуту в Москве может быть подано 100 объявлений.

Как обойти защиту — прикинуться человеком. Чтобы робот заходил на сайт с разных браузеров, устройств и IP, прокручивал страницы, выделял текст, кликал ссылки.

Как справиться с потоком — под каждую категорию запускать своего робота. А то и несколько. Например на продажу коммерческой недвижимости одного робота, а на продажу двушек — сразу трёх.

Как чистить фейки? Пока не знаю.

:-(