Тёмный

Бизнес на Парсинге Данных: Подробное Руководство. 47 советов из опыта. 

РУССКИЙ ИТ-БИЗНЕС
Подписаться 30 тыс.
Просмотров 5 тыс.
50% 1

Еще больше и чаще пишу в канал t.me/bezsmuzi - подписывайтесь.
Рассказываю о том, как можно зарабатывать 5 млн. в месяц на парсинге сайтов и как построить на этом свой бизнес. Делюсь нашим опытом.
00:00:00 Введение в парсинг
• Автор рассказывает о своем опыте в парсинге, начиная с 2019 года, когда он и его команда начали заниматься этим бизнесом.
• Они зарабатывают на этом около 40-60 миллионов рублей в год, обслуживая клиентов из России, Беларуси и Казахстана.
00:04:48 Инструменты и источники данных
• Парсинг выполняется на стеке дотнет, питоне и других языках программирования.
• Основные источники данных - интернет-магазины, маркет-плейсы, ЦИАН, ДомКлик и другие.
00:09:38 Подводные камни парсинга
• Защита сайтов от парсинга, капчи и другие сложности.
• Парсинг не дешев, но обеспечивает качество данных.
00:10:38 Архитектура парсера
• Парсер пишется с чистого листа, без шаблонов и решений.
• Поддержка парсера осуществляется командой программистов, которые адаптируются к новым задачам и изменениям на сайтах.
00:11:18 Хранение и выгрузка данных
• Парсеры собирают данные, выгружают их на облако, где клиенты могут забрать их вручную или через API.
• Парсеры не хранят данные, так как это физически невозможно для тысяч сайтов в день.
00:12:54 Оценка качества работы и блокировка ботов
• Отчеты о работе парсеров приходят на почту, команда поддержки следит за количеством собираемых данных.
• Парсеры обходят блокировки ботов, используя прокси-серверы.
00:13:50 Автоматизация и обучение
• Парсеры автоматизируют мониторинг цен и сбор контента, но не занимаются аналитикой или оценкой правомерности действий.
• Для парсинга достаточно базовых навыков программирования.
00:14:45 Ускорение работы и оптимизация хранения данных
• Парсеры оптимизируют хранение данных, чтобы избежать перегрузки базы данных.
• Обучение парсингу: начать парсить и учиться на практике.
00:18:04 Успешные коммерческие проекты
• Бренд-монитор с выручкой около миллиарда рублей занимается аналитикой тональности и упоминаемости.
• Парсеры продают данные, а не сам парсинг.
00:19:31 Тестирование и языки программирования
• Парсеры тестируют работу парсеров через техническую поддержку и визуальные инструменты.
• Для парсинга подходят языки программирования, такие как Python.
00:22:22 Парсинг и его использование
• Парсинг - это сбор данных с сайтов, не считается незаконным, если не нарушает авторские права.
• Парсинг может быть использован для анализа данных и создания продуктов на их основе.
00:24:12 Выбор прокси и задачи парсинга
• Используются мобильные прокси для обхода защиты сайтов.
• Задачи парсинга связаны с топовыми ресурсами в каждой сфере (маркетплейсы, строительные магазины, автомобильные сайты).
00:25:24 Потенциал парсинга для бизнеса
• Парсинг может приносить регулярный доход для бизнеса.
• Важно получать регулярные платежи от клиентов.
00:26:53 Рекомендации по парсингу
• Не пытайтесь решать задачи за клиента, пусть клиент приходит к вам.
• Используйте библиотеки для упрощения парсинга, но не делайте его ключевым моментом.
• Важно не навредить сайту при парсинге и не нарушать авторские права.
00:29:47 Защита парсера от блокировки
• Обходить защиту сайта и не нарушать авторские права.
• Не давать гарантий на качество парсинга.
00:33:26 Правовые претензии и парсинг
• Автор рассказывает о том, как компания столкнулась с правовыми претензиями из-за использования товарного знака "Эльдорадо" на своем сайте.
• Он решил проблему, просто изменив название на "Парсинг Эльдорадо".
00:34:28 Книги для парсинга и обучение
• Автор утверждает, что для обучения парсингу достаточно использовать готовые библиотеки и начать парсить сайты.
• Он также отмечает, что в индустрии парсинга растет конкуренция, но объем рынка остается колоссальным.
00:35:27 Будущее парсинга
• Автор считает, что парсинг будет востребован в различных отраслях, и его навыки будут востребованы.
• Он также упоминает о необходимости нанимать команду программистов и поддерживать серверы для выполнения заказов на парсинг.
00:36:19 Заключение
• Автор считает парсинг вечной темой и надеется, что она не станет вне закона в России.
• Он также отмечает, что зарубежные заказчики продолжают обращаться к его компании, несмотря на ограничения в их странах.
Наши проекты:
Защита от скликивания рекламы clickfraud.ru
Мониторинг цен конкурентов xmldatafeed.com/
Разработка мобильных приложений notissimus.com/
Мне можно писать вопросы здесь: t.me/maximkulgin

Опубликовано:

 

16 июл 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 34   
@pafnuteus
@pafnuteus 2 месяца назад
ох, помню, в 2010м году написал парсер для "Бюллютень недвижимости", когда покупал первую квартиру. Новые объявления появлялись каждый день, и нужно было успеть вперед риэлторов. Страшно подумать, писал парсер на Visual Basic Script без всяких регэкспов) Потом делал бота для мамбы (в этот раз на пхп), чтоб вместо меня ходил по женским анкетам. В итоге, нашел жену) точнее, она меня как-бы получается нашла. Inversion of control получился). Эх, чтоб мне тогда не подумать, что из этого можно сколотить бизнес...
@Lukaviskys
@Lukaviskys 6 месяцев назад
Спасибо!
@AlexShataev
@AlexShataev 6 месяцев назад
"Библиотеки сами поищете, прокси команда закупает, сервис для решения капчи не помню как называется" 😂 спасибо, очень информативное видео 😂
@MaximKulgin
@MaximKulgin 6 месяцев назад
Ну извините - надо жопу оторвать и поработать тоже
@user-bw7cn3gu1k
@user-bw7cn3gu1k 5 месяцев назад
По его мнению вы должны были просто отдать свой бизнес ему ) в благодарность за просмотр.
@NikolayServakov
@NikolayServakov 5 месяцев назад
Самый известный, наверное, успешный коммерческий проект - авиасейлз)
@pafnuteus
@pafnuteus 2 месяца назад
18:10 есть компания Медиалогия (мониторинг эмоциональной оценки). Работал на них одно время, жирные у них клиенты
@johnconnor632
@johnconnor632 5 месяцев назад
Вы в защитах акамай забыли упомянуть)
@albor7599
@albor7599 6 месяцев назад
Осталось только курсы на Udemy выложить😊
@MaximKulgin
@MaximKulgin 6 месяцев назад
:)
@RaleXx85
@RaleXx85 5 месяцев назад
Парсинг - штука неоднозначная. Вы в курсе, что многие сайты (напр., торгвые сети) периодически ставят блокировки от парсинга на свои сайты? И то, что работало вчера - сегодня работать перестает и никому не нужно (приходится переписывать код заново, обходя блокировки). Так что больших денег на этом не заработать. Если покажете хоть один достойный пример - можете кинуть в меня камень.
@johnconnor632
@johnconnor632 5 месяцев назад
2gis через мобильное API парсится, прилу снифать надо
@AlexShataev
@AlexShataev 6 месяцев назад
Подскажите, хороший объём для специалиста, это сколько товаров в сутки на том же я.маркете например? На что ориентироваться примерно?
@MaximKulgin
@MaximKulgin 6 месяцев назад
Ну например 100к в сутки
@TheDoartLos
@TheDoartLos 5 месяцев назад
Можно ли устроиться к вам в компанию? Стек: python
@user-pe8ew9tq8z
@user-pe8ew9tq8z 6 месяцев назад
У вас есть франч? Я бы купил ваш код парсинга и переписал под 1С ))
@MaximKulgin
@MaximKulgin 6 месяцев назад
:) нету
@DreamingDolphing
@DreamingDolphing 6 месяцев назад
Вот вы говорите нет нейронных сетей, а как вы будете обходить защиту, когда некоторые данные на странице генерируются картинкой или как-то через js генерируются в canvas?
@vr29645
@vr29645 6 месяцев назад
а никак. таких заказчиков еще надо поискать, а с учетом того что их мало - смысла инвестировать в сложный мл, полагаю, нет
@MaximKulgin
@MaximKulgin 6 месяцев назад
Верно
@MagicMightNew
@MagicMightNew 6 месяцев назад
Был какой-то зарубежный сайт, где они карточки (чего-то похожего на товары) рендерили в канвас. Вот только у них данные для рендера можно было перехватить)
@email9092
@email9092 6 месяцев назад
такие сайты никто парсить не будет - вывод - в итоге и клиенты с ними полноценно не смогут работать и уйдут. в итоге через время эту защиту сами снимут, так как сами себе делают хуже!
@SergeyBagretsov
@SergeyBagretsov 6 месяцев назад
С какой скоростью желательно парсить ап-ру и все-ин?
@cherkasA
@cherkasA 6 месяцев назад
когда то парсил все инструментыру было у них тогда около 800 000 товаров что бы не банилипарсил в один поток. с применением 100-200 прокси - почти месяц ушел выкачивал всё характеристики, фото. описания и т.д.
@mustizeo760
@mustizeo760 5 месяцев назад
​@@cherkasAна каком яп выполнил задачу ?
@ypohut1673
@ypohut1673 5 месяцев назад
Этот еще надо заказчиков искать чтобы парсинг продать?
@MaximKulgin
@MaximKulgin 5 месяцев назад
Да
@vyacheslavs5642
@vyacheslavs5642 5 месяцев назад
NextCloud?
@MaximKulgin
@MaximKulgin 5 месяцев назад
да
@your-hater
@your-hater 5 месяцев назад
Снова один и тот же ролик с посылом обо всём и ни о чём. Как вообще можно воспринимать человека всерьёз, когда в прошлых роликах он сначала говорит, что контекстная реклама умерла, а потом идёт эту контекстную рекламу размещать. 🤦🏻‍♂️
@MaximKulgin
@MaximKulgin 5 месяцев назад
у нас нет рекламы
Далее
Этот Пёс Кое-Что Наделал 😳
00:31
다리에 힘이 풀려버린 슈슈 (NG Ver.)
00:11
Просмотров 2,7 млн