промышленный парсинг
74
32
Пойдём пить сидр, глядеть тебя красивую
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
Есть тут люди которые занимаются или увлекаются промышленным парсингом (Large-scale web scraping). Речь не о парсинге 1000 страниц с нескольких сайтов, а десятках миллионов страниц с десятков тысячь разных сайтов не имеюших АПИ. По долгу службы приобрел доступ к базе со всех стран ЕС (исторические данные, стоимость доступа 32к $ в год + НДС, офк покупал не за свои) имеющей размерность "3,4ккк строк х 120+ столбцов". Авторы заявляют что на постоянку парсят данные со 80к+ сайтов, хотя уникальных сайтов там 200к+ и все они на разных европейских языках. Я сам собираю данные с 50+ сайтов каждую неделю (сам писал на питоне с 0), но их масштаб вообще космичесский. Хоть логика\алгоритм парсинга одинаковый для всех сайтов, все они имеют уникальные особенности которые нужно учесть. Не верю что при таком масштабе можно что-то делать в ручную. Может кто-то пытался вникнуть в подобный род деятельности.
haHAA сказал(а):↑В чем постановка проблемы-то?
ты парсишь и у тебя в оперативку не влезают все данные?
Нажмите, чтобы раскрыть...
666T1meToHermes6 сказал(а):↑Хоть логика\алгоритм парсинга одинаковый для всех сайтов, все они имеют уникальные особенности которые нужно учесть. Не верю что при таком масштабе можно что-то делать в ручную.
Нажмите, чтобы раскрыть...
Пойдём пить сидр, глядеть тебя красивую
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
haHAA сказал(а):↑В чем постановка проблемы-то?
ты парсишь и у тебя в оперативку не влезают все данные?
Нажмите, чтобы раскрыть...одно дело написать перебор страниц для 50 сайтов (для каждого отдельно) другое дело когда парсишь десятки тысячь разных сайтов, не пишут же они для каждого отдельно, наверняка имеют какую-то "технологию" для автоматизации
предполагаю, что есть люди, которые размечают необходимые селекторы с нужными данными, пагинацию и прочее дерьмо, потом сервисы собирают автоматом оттуда + большая кодовая база просто парсеров, ибо где-то, нужно точечно писать скрипты дабы обходить всякие кураторы и прочие waf'ы. ну и сервисы маштабируемые
666T1meToHermes6 сказал(а):↑одно дело написать перебор страниц для 50 сайтов (для каждого отдельно) другое дело когда парсишь десятки тысячь разных сайтов, не пишут же они для каждого отдельно, наверняка имеют какую-то "технологию" для автоматизации
Нажмите, чтобы раскрыть...Что значит парсинг? Сайт это html страница. Получить их ты можешь для любого количества сайтов, хоть для 50, хоть для десятков тысяч, способ одинаковый. Какие-то общие преобразования ты можешь выполнить одинаково, например, забрать текст из всех тегов. Если тебе нужно получить конкретные данные с конкретного места, то очевидно, что это будет специальная логика для одного сайта, которую нельзя автоматизировать на все сайты.
Пойдём пить сидр, глядеть тебя красивую
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
Лекарство сказал(а):↑предполагаю, что есть люди, которые размечают необходимые селекторы с нужными данными, пагинацию и прочее дерьмо, потом сервисы собирают автоматом оттуда + большая кодовая база просто парсеров, ибо где-то, нужно точечно писать скрипты дабы обходить всякие кусаторы и прочие waf'ы. ну и сервисы маштабируемые
Нажмите, чтобы раскрыть...хочешь сказать есть люди, которые ходят и собирают в ручную с тысячь сайтов названия класса для перебора по всем страницам? не верю что для такого не существует какой-то супер вундервафли
HealSlut сказал(а):↑Что значит парсинг? Сайт это html страница. Получить их ты можешь для любого количества сайтов, хоть для 50, хоть для десятков тысяч, способ одинаковый. Какие-то общие преобразования ты можешь выполнить одинаково, например, забрать текст из всех тегов. Если тебе нужно получить конкретные данные с конкретного места, то очевидно, что это будет специальная логика для одного сайта, которую нельзя автоматизировать на все сайты.
Нажмите, чтобы раскрыть...речь о том, что для того, чтобы спарсить данные со всех страниц на сайте нужно знать структуру ссылки\пагинации и имя класса к которому нужно обратиться чтобы вытянуть атрибут (ссылку). Каждый сайт имеет разные имена\названия этих класов\тегов, когда у тебя 10-20 разных сайтов можно сделать это в ручную, но когда у тебя 80,000 + сайтов только из одной категории (например недвига) то сделать это в ручную нереально
malganus2000 сказал(а):↑Интересно о какого рода данных идёт речь во время парсинга
Нажмите, чтобы раскрыть...самые разные, от недвиги и машин до интернет вакансий и комментариев с локальных форумов
666T1meToHermes6 сказал(а):↑речь о том, что для того, чтобы спарсить данные со всех страниц на сайте нужно знать структуру ссылки\пагинации и имя класса к которому нужно обратиться чтобы вытьянуть атрибут (ссылку). Каждый сайт имеет разные имена\названия этих класов\тегов, когда у тебя 10-20 разных сайтов можно сделать это в ручную, но когда у тебя 80,000 + сайтов только из одной категории (например недвига) то сделать это в ручную нереально
Нажмите, чтобы раскрыть...Ну тут смотря какие данные нужны. Если просто ссылки на другие страницы сайта, то просто можно забирать все кликабельные ссылки с href и все, для этого не нужно знать структуру страницы и в каких тегах это хранится.
Пойдём пить сидр, глядеть тебя красивую
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
HealSlut сказал(а):↑Ну тут смотря какие данные нужны. Если просто ссылки на другие страницы сайта, то просто можно забирать все кликабельные ссылки с href и все, для этого не нужно знать структуру страницы и в каких тегах это хранится.
Нажмите, чтобы раскрыть...не вариант, 1) нужно знать основную ссылку и логику как она изменяется при переборе всех страниц 2) на каждой странице есть список продуктов\услуг\товаров\чего угодно, нужно вытягивать конкретные ссылки, а не все, потому что не всегда понятно как отделить мусор от нужных ссылок, все эти 2 пункта требуют физического участия, при большем колличестве сайтов это очень накладно
Пойдём пить сидр, глядеть тебя красивую
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
HealSlut сказал(а):↑Ну тут смотря какие данные нужны. Если просто ссылки на другие страницы сайта, то просто можно забирать все кликабельные ссылки с href и все, для этого не нужно знать структуру страницы и в каких тегах это хранится.
Нажмите, чтобы раскрыть...Я уже молчу о том, что собранные ссылки нужно распарсить, найти селектором название класса который содержет имя продукта, производителя, цену, ссылки на фотки, описание продукта, даты добавления если есть. При не большем колличествев сайтов все это изи делается в ручную, но когда собираешь промышленном масштабе для разных стран это очень много ручной работы.
y6ejushe сказал(а):↑Такой бред написал. Ты программист?
Нажмите, чтобы раскрыть...о великий программист за 50к месяц расскажи что тут бредового?
666T1meToHermes6 сказал(а):↑Я уже молчу о том, что собранные ссылки нужно распарсить, найти селектором название класса который содержет имя продукта, производителя, цену, ссылки на фотки, описание продукта, даты добавления если есть. При не большем колличествев сайтов все это изи делается в ручную, но когда собираешь промышленном масштабе для разных стран это очень много ручной работы.
о великий программист за 50к месяц расскажи что тут бредового?
Нажмите, чтобы раскрыть...Ну ты спрашиваешь какие то базовые абсурдные вещи. Которые программист должен понимать. Вот у меня вопрос возник, если ты не программист, то зачем такое спрашиваешь?
Как ты собрался парсить сайт, если у всех структура разная и нужно под каждый сайт отдельный парсер делать?
Также ты представляешь какая это нагрузка, т.к. сейчас все сайты используют js и и каждую страницу нужно прогружать.
Даже если сайты используют сенемантику, все равно ты не сможешь написать универсальный парсер.
Ты с таким же успехом мог бы попросить, написать один сайт для всех сайтов в мире. Короче, абсурдный бред.
Можно конечно парсить какие то базовые вещи, типа номера телефонов, почты и т.п. Но парсить что то более осмысленное, это не возможно.
666T1meToHermes6 сказал(а):↑Не верю что при таком масштабе можно что-то делать в ручную.
Нажмите, чтобы раскрыть...У меня девушка на что-то подобное работала. Они собирали данные со всего интернета для крупных клиентов по их индивидуальным требованиям (новости, отзывы на форумах и прочее) и вываливали им их в личном кабинете каждый день. И да, там почти всё делалось вручную, судя по её рассказам
клиентам при этом всегда заливается о чуть большей ИИшности, чем есть на самом деле.
Отдельной неповторимой работой (с парсингом сайта уже не связанной, правда, это уже работа с языком) было научить систему различать 100 вариаций слова "пердёж", чтобы выделить негативные отзывы на айкос, и научить её понимать "кожу с жопы корейской бабки" для автомобилей Киа
Пойдём пить сидр, глядеть тебя красивую
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
y6ejushe сказал(а):↑Ну ты спрашиваешь какие то базовые абсурдные вещи. Которые программист должен понимать. Вот у меня вопрос возник, если ты не программист, то зачем такое спрашиваешь?
Как ты собрался парсить сайт, если у всех структура разная и нужно под каждый сайт отдельный парсер делать?
Также ты представляешь какая это нагрузка, т.к. сейчас все сайты используют js и и каждую страницу нужно прогружать.
Даже если сайты используют сенемантику, все равно ты не сможешь написать универсальный парсер.
Ты с таким же успехом мог бы попросить, написать один сайт для всех сайтов в мире. Короче, абсурдный бред.
Можно конечно парсить какие то базовые вещи, типа номера телефонов, почты и т.п. Но парсить что то более осмысленное, это не возможно.
Нажмите, чтобы раскрыть...а как тогда чуваки парсят 200к разных сайтов? у ручную перебирают структуру каждого?
Funcrusher Plus сказал(а):↑У меня девушка на что-то подобное работала. Они собирали данные со всего интернета для крупных клиентов по их индивидуальным требованиям (новости, отзывы на форумах и прочее) и вываливали им их в личном кабинете каждый день. И да, там почти всё делалось вручную, судя по её рассказам
клиентам при этом всегда заливается о чуть большей ИИшности, чем есть на самом деле.
Отдельной неповторимой работой (с парсингом сайта уже не связанной, правда, это уже работа с языком) было научить систему различать 100 вариаций слова "пердёж", чтобы выделить негативные отзывы на айкос, и научить её понимать "кожу с жопы корейской бабки" для автомобилей Киа
Нажмите, чтобы раскрыть...похожую штуку делал, собирал с локальных сайтов отзывы про мигрантов и оценивал тональность, нужно было понять какой % комментариев негативный и в чем притензия
да хз)
Если они зарабатывают с этого деньги, а учитывая описанный тобой масштаб, деньги они зарабатывают) То они используют все и сразу. Главное чтобы экономика сходилась. Если надо наймут 1000000 китайцев и будут они парсеры писать под каждый сайт. А сверху все это будет парсить еще и 10 разных вундервафель, которые будут искать разное. А еще наверное это разделено по вертекалям, аля «темам» и под каждую тему свой набор парсеров которые ищут специфичную инфу. Нет конкретного алгоритма) Только пробовать и выбирать лучшее на практике
Но с другой стороны, по 120 колонкам как то подробно классифицировать пол интернета.. думаю там какие-то обобщенные способы
а зачем это всё? Что с этими данными делать то) и скинь примеры колонок
666T1meToHermes6 сказал(а):↑а как тогда чуваки парсят 200к разных сайтов? у ручную перебирают структуру каждого?
похожую штуку делал, собирал с локальных сайтов отзывы про мигрантов и оценивал тональность, нужно было понять какой % комментариев негативный и в чем притензия
Нажмите, чтобы раскрыть...Я тебе все что можно описал. А ты мне дизлайк поставил и еще какой то вопрос задаешь? Спасибо.
ну тебе такую инфу просто так вряд ли кто то скажет, даже потому, что на этой теме живут несколько компаний только в россии. например у интерфакса есть свой проект который этим занимается, есть бренд аналитикс, юскан итд, которые вроде только этим и занимаются и у них контракты на миллионы (по крайней мере когда то были щас хз)
могу сказать, что в соло вряд ли сделаешь такое, так как даже обходить защиту от роботов и дудоса надо уметь.
рекомендую забить на веб в таких масштабах и попробовать тг каналы парсить, вроде как должно быть легче, но я не уверен. слышал что там тоже есть нюансы.
Есть молодчики на хабре,по пальцам пересчитать.Иногда статьи выкатывают(большинтсво из них неактуальные/отчасти).
Твой вариант ток самописное, т.е засунуть в один из сервисов не выйдет - упрешься в лимит.
Я бы начал с распределния по регионам+язык т.е спец сайты вполне могут иметь url на своем языке и простыми методами там не обойдешься
Пойдём пить сидр, глядеть тебя красивую
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
Регистрация: 29.11.2013
Сообщения: 5584
Рейтинг: 3811
Нарушения: 240
y6ejushe сказал(а):↑Ты можешь осознать бред который ты спрашиваешь? Я не понимаю, что здесь сложного понять.
Нажмите, чтобы раскрыть...все понимают сложность задачи один ты не выкупаешь о чем речь, теперь понятно почему 50к получаешь, даже больше чем ты заслуживаешь
kemiqa сказал(а):↑да хз)
Если они зарабатывают с этого деньги, а учитывая описанный тобой масштаб, деньги они зарабатывают) То они используют все и сразу. Главное чтобы экономика сходилась. Если надо наймут 1000000 китайцев и будут они парсеры писать под каждый сайт. А сверху все это будет парсить еще и 10 разных вундервафель, которые будут искать разное. А еще наверное это разделено по вертекалям, аля «темам» и под каждую тему свой набор парсеров которые ищут специфичную инфу. Нет конкретного алгоритма) Только пробовать и выбирать лучшее на практике
Но с другой стороны, по 120 колонкам как то подробно классифицировать пол интернета.. думаю там какие-то обобщенные способы
а зачем это всё? Что с этими данными делать то) и скинь примеры колонок
Нажмите, чтобы раскрыть...я с 2020 собираю инфу по сайтам недвиги и цены на продукты питания, в прошлом году стат службе нашей продал, никогда не знаешь на чем можно заработать
Nikoliasik_Zeus сказал(а):↑Есть молодчики на хабре,по пальцам пересчитать.Иногда статьи выкатывают(большинтсво из них неактуальные/отчасти).
Твой вариант ток самописное, т.е засунуть в один из сервисов не выйдет - упрешься в лимит.
Я бы начал с распределния по регионам+язык т.е спец сайты вполне могут иметь url на своем языке и простыми методами там не обойдешься
Нажмите, чтобы раскрыть...а еще ограничивают выдачу, некоторые денамические, на других нужно залогиниться чтобы получить доступ и все это требует индивидуального подхода
666T1meToHermes6 сказал(а):↑все понимают сложность задачи один ты не выкупаешь о чем речь, теперь понятно почему 50к получаешь, даже больше чем ты заслуживаешь
я с 2020 собираю инфу по сайтам недвиги и цены на продукты питания, в прошлом году стат службе нашей продал, никогда не знаешь на чем можно заработать
а еще ограничивают выдачу, некоторые денамические, на других нужно залогиниться чтобы получить доступ и все это требует индивидуального подхода
Нажмите, чтобы раскрыть...Пхахаххахаха))) Почему бы не придумать, один сайт, зачем нам много сайтов?)) Можно было бы и парсинг один иметь. Эх, жизнь была бы так проста. Ты гений))) пхахаххахаа
666T1meToHermes6 сказал(а):↑хочешь сказать есть люди, которые ходят и собирают в ручную с тысячь сайтов названия класса для перебора по всем страницам? не верю что для такого не существует какой-то супер вундервафли
речь о том, что для того, чтобы спарсить данные со всех страниц на сайте нужно знать структуру ссылки\пагинации и имя класса к которому нужно обратиться чтобы вытянуть атрибут (ссылку). Каждый сайт имеет разные имена\названия этих класов\тегов, когда у тебя 10-20 разных сайтов можно сделать это в ручную, но когда у тебя 80,000 + сайтов только из одной категории (например недвига) то сделать это в ручную нереально
самые разные, от недвиги и машин до интернет вакансий и комментариев с локальных форумов
Нажмите, чтобы раскрыть...более чем уверен, что есть некая вундервафля, которая с помощью нейроночки забирает нужное для твоего проекта по изображениям карточки товара и сопоставляет с хтмлем забирая нужные классы и прочее. Потом эти данные модерируется, выделяются свойства и тд. Я привел один из вариантов как это можно автоматизировать, да по орочьи. Это гребанный парсинг, тут вариантов реализации милльен, чел
Тема закрыта
-
ЗаголовокРазделОтветов ПросмотровПоследнее сообщение
-
Forgiveness Day 09 Nov 2025 в 13:45Сообщений: 5 09 Nov 2025 в 13:45
Сообщений:5
Просмотров:10
-
я рабовл 09 Nov 2025 в 13:37Сообщений: 6 09 Nov 2025 в 13:37
Сообщений:6
Просмотров:15
-
xxzxcuzx_me 09 Nov 2025 в 13:21Сообщений: 18 09 Nov 2025 в 13:21
Сообщений:18
Просмотров:33
-
System5O 09 Nov 2025 в 13:10Сообщений: 13 09 Nov 2025 в 13:10
Сообщений:13
Просмотров:28
-
desavian 09 Nov 2025 в 12:31Сообщений: 6 09 Nov 2025 в 12:31
Сообщений:6
Просмотров:26