Rose debug info
---------------

Евгений Лукин

Заметки, конспекты

Учусь работать с базами данных

Для некоторых проектов по парсингу нужна база данных. Знаю о БД только на уровне простого запроса — выбери эти столбы из таблицы по такому-то условию. Начал обучение с книги Postgres: первое знакомство.
Сейчас нашёл учебник и курс по SQL. Ну штош, потестим. О негативных результатах отпишусь.

ТЗ на мониторинг Авито

Встретил на профи.ру такое ТЗ: Парсинг сайтов недвижимости в лиды Битрикс 24.

Спарсить: контакты, объявления, цены.
При появлении нового подходящего по требованиям объявления на рекламной площадке (Авито, Циан) ,сравнить с базой, добавить лид в Битрикс 24 (если это не дубль).

Условия :

  1. тип контакта=собственник,
  2. создано сегодня,
  3. СПБ и ЛО,
  4. Тип квартиры: квартиры, комнаты, апартаменты.

Параметры для передачи в Битрикс :

  • ссылка на объявление,
  • адрес,
  • телефон,
  • описание,
  • цена ,
  • общая площадь квартиры,
  • этаж,
  • этажность,
  • источник

До передачи в crm сравниваем потенциальный Лид с лидами с другой площадки для выявления дублей: по адресу, стоимости (+/- ? тыс. руб), этажу, общей площади.

Ранее загруженные в базу лиды добавляем повторно только через месяц и при забракованных статусах Лида в срм (стадии уточним в ходе работы).

Бюджет — до 40000 руб.

Доступ к файлам на VPS через https

Задача: создать на сервере файл, который может скачивать любой, у кого есть ссылка.

Я спросил в поддержке Бегета, с чего начать. Ответ:
«В первую очередь необходимо установить на сервер приложение, которое будет прослушивать порты 80 и 443, например Nginx и создать поддомен, который будет направлен на сервер и настроить Nginx согласно Вашим требованиям.»

Ок. Создал поддомен и направил его на VPS сервер.
Следующим шагом нужно настроить Nginx.
Настраиваю по этой инструкции: https://www.digitalocean.com/community/tutorials/how-to-install-nginx-on-ubuntu-20-04-ru В предварительных требованиях требовалось создать пользователя. Успешно создал по инструкции Начальная настройка сервера для Ubuntu 20.04​​​.

Спасибо инструкциям, всё получилось http://update.usota.ru

 Нет комментариев    14   2 мес   Nginx   VPS

Мониторинг авито

Написал простенький скрипт, который переходит по ссылке с настроенными фильтрами. Скрипт парсит первую страницу с объявлениями и присылает в телеграм сообщение с результатами. Чтобы авито не заблокировал IP — подключил прокси.

В принципе, всё оказалось реально.

Как улучшить: парсить раз в минуту или реже, свежие объявления класть в базу данных, сортировать их по каким-нибудь критериям и сначала показывать лучшие.

Задача про быстрый парсинг Avito

Появился запрос от риэлтора: парсить авито-недвижимость Москвы, но так, чтобы данные о выходе объявления появлялись в CRM не позже минуты.

Задача интересная, потому что сложная в реализации — авито не приветствует парсеры и с каждым днём защита становится всё изощрённее.

Ещё большое усложнение — фейки. Очень много объявлений подаётся по несколько раз самими риэлторами. С левых симок, с разными картинками, описанием.

Ну и последнее — объявления вываливаются пачками. В одну минуту в Москве может быть подано 100 объявлений.

Как обойти защиту — прикинуться человеком. Чтобы робот заходил на сайт с разных браузеров, устройств и IP, прокручивал страницы, выделял текст, кликал ссылки.

Как справиться с потоком — под каждую категорию запускать своего робота. А то и несколько. Например на продажу коммерческой недвижимости одного робота, а на продажу двушек — сразу трёх.

Как чистить фейки? Пока не знаю.

Скелет статьи и промо-страницы

Первый принцип: статья должна быть упорядоченной

  • все на своем месте
  • находишь информацию там, где ожидаешь найти
  • ничего не появляется внезапно
  • устройство понятно с первого взгляда

Пример: я пишу статью в ответ на критику.
Внутренний мотив: доказать, что критик не прав

Внутренний мотив будет рисовать такой план статьи
План статьи:

  • описываем ситуацию
  • критик неправ
  • почему неправ
  • критик в принципе часто не прав
  • критика часто в принципе не права
  • критика не важна
  • делать то, что считаешь нужным

Скрин видео на 9:40

Вопрос: «И что вы хотели этим сказать?»

У статьи нет четкого направления.

Читателя на самом деле интересует вопрос:

  • «Что из этого мне?»
  • «Зачем мне это читать?»
  • «Почему мне это полезно?»

Как НАДО написать это статью

Собираю кубик Рубика

Попросил тут Сын купить головоломку. А мне давно было любопытно, как собирают кубик Рубика. Нашёл первую попавшуюся инструкцию и собрал.

Собственно, этого мало — хочется разобраться, как собирать быстро. Поиски привели к методу Джессики Фридрих https://ru.wikipedia.org/wiki/Метод_Джессики_Фридрих

Он состоит из четырёх этапов.

Сейчас пробую первый этап — собрать белый правильный крест. И чтобы делать его быстро, нужно помнить правильное расположение цветов на кубике. Для этого не обязательно их заучивать. Достаточно разобрать-собрать кубик пару десятков раз и мозг сам всё запомнит.

При переходе ко второму этапу — сборке первых двух рядов — ничего не получилось. Я понял, что со сборкой кубика поспешил и весь следующий месяц собирал кубик первым способом в 6 этапов. Только после этого заново начал пробовать метод Фридрих.

Мораль: не спеши. До некоторых вещей нужно дорасти.

Ранее Ctrl + ↓