ох, помню, в 2010м году написал парсер для "Бюллютень недвижимости", когда покупал первую квартиру. Новые объявления появлялись каждый день, и нужно было успеть вперед риэлторов. Страшно подумать, писал парсер на Visual Basic Script без всяких регэкспов) Потом делал бота для мамбы (в этот раз на пхп), чтоб вместо меня ходил по женским анкетам. В итоге, нашел жену) точнее, она меня как-бы получается нашла. Inversion of control получился). Эх, чтоб мне тогда не подумать, что из этого можно сколотить бизнес...
Парсинг - штука неоднозначная. Вы в курсе, что многие сайты (напр., торгвые сети) периодически ставят блокировки от парсинга на свои сайты? И то, что работало вчера - сегодня работать перестает и никому не нужно (приходится переписывать код заново, обходя блокировки). Так что больших денег на этом не заработать. Если покажете хоть один достойный пример - можете кинуть в меня камень.
Вот вы говорите нет нейронных сетей, а как вы будете обходить защиту, когда некоторые данные на странице генерируются картинкой или как-то через js генерируются в canvas?
Был какой-то зарубежный сайт, где они карточки (чего-то похожего на товары) рендерили в канвас. Вот только у них данные для рендера можно было перехватить)
такие сайты никто парсить не будет - вывод - в итоге и клиенты с ними полноценно не смогут работать и уйдут. в итоге через время эту защиту сами снимут, так как сами себе делают хуже!
когда то парсил все инструментыру было у них тогда около 800 000 товаров что бы не банилипарсил в один поток. с применением 100-200 прокси - почти месяц ушел выкачивал всё характеристики, фото. описания и т.д.
Снова один и тот же ролик с посылом обо всём и ни о чём. Как вообще можно воспринимать человека всерьёз, когда в прошлых роликах он сначала говорит, что контекстная реклама умерла, а потом идёт эту контекстную рекламу размещать. 🤦🏻♂️