Kujivunia

Пользователь

Регистрация: 10.01.2015

Сообщения: 3445

Рейтинг: 469

Kujivunia

Регистрация: 10.01.2015

Сообщения: 3445

Рейтинг: 469

Хочу запарсить данные с сайтов разных. 

Тексты постов и комментов (с разбиением по авторам) с форумов и блогов, твиты и всё такое. 

 

(нужно для тестов моей проги по определению авторства текста)

 

Вот. Но я вебом никогда не интересовался и даже не представляю с какой стороны копать. Так что да, посоветуйте гайд по парсингу для тупых чайников. 

ForeverYang

Иньгяньг

Регистрация: 28.03.2019

Сообщения: 5497

Рейтинг: 707

ForeverYang

Регистрация: 28.03.2019

Сообщения: 5497

Рейтинг: 707

Смотря парсинг куда, могу посоветовать если в андроид 

TIRPITZ

Пользователь

Регистрация: 20.05.2019

Сообщения: 1605

Рейтинг: 330

TIRPITZ

Регистрация: 20.05.2019

Сообщения: 1605

Рейтинг: 330

Ретрофит

ForeverYang

Иньгяньг

Регистрация: 28.03.2019

Сообщения: 5497

Рейтинг: 707

ForeverYang

Регистрация: 28.03.2019

Сообщения: 5497

Рейтинг: 707

TIRPITZ сказал(а):

Ретрофит

Нажмите, чтобы раскрыть...

Что это есть?

HealSlut

Пользователь

Регистрация: 25.08.2018

Сообщения: 1020

Рейтинг: 4676

HealSlut

Регистрация: 25.08.2018

Сообщения: 1020

Рейтинг: 4676

img

Смотря в чем заключается парсинг. Условный твиттер, вроде, предоставляет апи для получения твитов, а вот какой-нибудь д2ру придется парсить как html и вытаскивать оттуда текст, что сильно отличается от твиттера. Но на самом деле должно быть полно корпусов текстов с разными метаданными, которые можно скачать (например, на каком-нибудь kaggle), так что проще взять оттуда чем самому париться.

ForeverYang

Иньгяньг

Регистрация: 28.03.2019

Сообщения: 5497

Рейтинг: 707

ForeverYang

Регистрация: 28.03.2019

Сообщения: 5497

Рейтинг: 707

HealSlut сказал(а):

Смотря в чем заключается парсинг. Условный твиттер, вроде, предоставляет апи для получения твитов, а вот какой-нибудь д2ру придется парсить как html и вытаскивать оттуда текст, что сильно отличается от твиттера. Но на самом деле должно быть полно корпусов текстов с разными метаданными, которые можно скачать (например, на каком-нибудь kaggle), так что проще взять оттуда чем самому париться.

Нажмите, чтобы раскрыть...

Хмм. Интересно, а если сайт динамический, то что делать? Условно говоря не сразу загружает блоки, а через секунд 20 в зависимости от интернета

Kujivunia

Пользователь

Регистрация: 10.01.2015

Сообщения: 3445

Рейтинг: 469

Kujivunia

Регистрация: 10.01.2015

Сообщения: 3445

Рейтинг: 469

HealSlut сказал(а):

Смотря в чем заключается парсинг. Условный твиттер, вроде, предоставляет апи для получения твитов, а вот какой-нибудь д2ру придется парсить как html и вытаскивать оттуда текст, что сильно отличается от твиттера. Но на самом деле должно быть полно корпусов текстов с разными метаданными, которые можно скачать (например, на каком-нибудь kaggle), так что проще взять оттуда чем самому париться.

Нажмите, чтобы раскрыть...

И то и другое. С апи сайтов тоже хочу научиться пользоваться (но уже по другим причинам). 

 

Да, есть разные корпуса, но я хочу свой так сказать, так интереснее .

+я смогу генерить комменты типичного юзера дота2ру)))0) 

HealSlut

Пользователь

Регистрация: 25.08.2018

Сообщения: 1020

Рейтинг: 4676

HealSlut

Регистрация: 25.08.2018

Сообщения: 1020

Рейтинг: 4676

img
ForeverYang сказал(а):

Хмм. Интересно, а если сайт динамический, то что делать? Условно говоря не сразу загружает блоки, а через секунд 20 в зависимости от интернета

Нажмите, чтобы раскрыть...

Есть либы, которые эмулируют js и могут получить итоговую страничку. Либо можно изучить как работает сайт и самому вызывать их внутреннее апи для получения данных. Но тут во всем этом, естественно, могут быть тонкости, и где-то может быть легко, а где-то очень сложно.


Kujivunia сказал(а):

И то и другое. С апи сайтов тоже хочу научиться пользоваться (но уже по другим причинам). 

Нажмите, чтобы раскрыть...

Ну тут тогда тебе придется изучать различные форматы и протоколы. В зависимости от сайта и способа его реализации набор может быть разным. Основное что тебя интересует - это html, rest api, ajax, json, xml и типо того.

Unlike

Пользователь

Регистрация: 08.09.2022

Сообщения: 35

Рейтинг: 34

Unlike

Регистрация: 08.09.2022

Сообщения: 35

Рейтинг: 34

Kujivunia сказал(а):

Вот. Но я вебом никогда не интересовался и даже не представляю с какой стороны копать.

Нажмите, чтобы раскрыть...

В случае какого-нибудь форума или другого статичного контента - все сводится к тому что ты загружаешь страничку в коде и потом просто разбираешь её HTML код, вытаскивая нужные куски и записывая всё что нашел.

 

В случае динамических сайтов - работаешь с API и JSONом, точно так же вытаскивая его, разбивая и записывая в файл или сразу выводя на свою страницу.

Kujivunia

Пользователь

Регистрация: 10.01.2015

Сообщения: 3445

Рейтинг: 469

Kujivunia

Регистрация: 10.01.2015

Сообщения: 3445

Рейтинг: 469

HealSlut сказал(а):

Есть либы, которые эмулируют js и могут получить итоговую страничку. Либо можно изучить как работает сайт и самому вызывать их внутреннее апи для получения данных. Но тут во всем этом, естественно, могут быть тонкости, и где-то может быть легко, а где-то очень сложно.

 

Ну тут тогда тебе придется изучать различные форматы и протоколы. В зависимости от сайта и способа его реализации набор может быть разным. Основное что тебя интересует - это html, rest api, ajax, json, xml и типо того.

Нажмите, чтобы раскрыть...

Это не сильно сужает круг моих поисков. Я на всякий случай повторю - я вообще не имею представления о парсинге, совсем

 

Ну а начнём давай с обычных html сайтиков типа старых форумов или этого сайта, без апишек и автоподгружаемой бесконечной ленты 

Вот про такое есть статья гайд для меня? 

cryptomagnat322

Пользователь

Регистрация: 09.02.2022

Сообщения: 641

Рейтинг: 353

cryptomagnat322

Регистрация: 09.02.2022

Сообщения: 641

Рейтинг: 353

мне кажется или я даже не увидел на каком языке ты собираешься это реализовывать?

HealSlut

Пользователь

Регистрация: 25.08.2018

Сообщения: 1020

Рейтинг: 4676

HealSlut

Регистрация: 25.08.2018

Сообщения: 1020

Рейтинг: 4676

img
Kujivunia сказал(а):

Вот про такое есть статья гайд для меня? 

Нажмите, чтобы раскрыть...

Сходу не нашел. Но, наверное, там сложно дать какой-то однозначный гайд, т.к. страницы на разных сайтах могут быть сильно разными и зависят только от фантазии разработчика. Если вкратце, то тебе нужно найти на странице в каких тегах содержится интересующий тебя текст и затем извлекать его по css или xpath (либы для этого есть для большинства языков). Т.е. можешь погуглить либу (что-то типо html parse <язык-нейм>) для своего языка и почитать доки, но тебе нужно будет задать этой библиотеке из каких тегов брать текст, а это только смотреть самому по коду страницы, особого гайда или способа тут нет.

TIRPITZ

Пользователь

Регистрация: 20.05.2019

Сообщения: 1605

Рейтинг: 330

TIRPITZ

Регистрация: 20.05.2019

Сообщения: 1605

Рейтинг: 330

ForeverYang сказал(а):

Что это есть?

Нажмите, чтобы раскрыть...

библиотека, которая помогает с парсингом

Kivooeo

Пользователь

Регистрация: 15.07.2019

Сообщения: 2645

Рейтинг: 981

Kivooeo

Регистрация: 15.07.2019

Сообщения: 2645

Рейтинг: 981

а язык какой? питон?

парсил как то новости с дота 2 ру)

 

vladisser

Пользователь

Регистрация: 25.03.2014

Сообщения: 4312

Рейтинг: 1553

vladisser

Регистрация: 25.03.2014

Сообщения: 4312

Рейтинг: 1553

img
HealSlut сказал(а):

Смотря в чем заключается парсинг. Условный твиттер, вроде, предоставляет апи для получения твитов, а вот какой-нибудь д2ру придется парсить как html и вытаскивать оттуда текст, что сильно отличается от твиттера. Но на самом деле должно быть полно корпусов текстов с разными метаданными, которые можно скачать (например, на каком-нибудь kaggle), так что проще взять оттуда чем самому париться.

Нажмите, чтобы раскрыть...

К апи твиттера очень сложно получить доступ, слышал человека, который сильно плевался.

боби (3)

Пользователь

Регистрация: 19.10.2021

Сообщения: 753

Рейтинг: 361

боби (3)

Регистрация: 19.10.2021

Сообщения: 753

Рейтинг: 361

+1 к теме, вопрос в том, как парсить авито, циан, и тд, через селениум?

Ananasiiik

Пользователь

Регистрация: 27.09.2021

Сообщения: 273

Рейтинг: 50

Нарушения: 35

Ananasiiik

Регистрация: 27.09.2021

Сообщения: 273

Рейтинг: 50

Нарушения: 35

боби (3) сказал(а):

+1 к теме, вопрос в том, как парсить авито, циан, и тд, через селениум?

Нажмите, чтобы раскрыть...

Заказать на фрилансе и не морочить сё голову. 

Kujivunia

Пользователь

Регистрация: 10.01.2015

Сообщения: 3445

Рейтинг: 469

Kujivunia

Регистрация: 10.01.2015

Сообщения: 3445

Рейтинг: 469

Kivooeo сказал(а):

а язык какой? питон?

парсил как то новости с дота 2 ру)

 

Нажмите, чтобы раскрыть...

Ну не знаю, но питон вроде норм тема, так что да 

Kivooeo

Пользователь

Регистрация: 15.07.2019

Сообщения: 2645

Рейтинг: 981

Kivooeo

Регистрация: 15.07.2019

Сообщения: 2645

Рейтинг: 981

Kujivunia сказал(а):

Ну не знаю, но питон вроде норм тема, так что да 

Нажмите, чтобы раскрыть...

чекни гайды по парсингу на питоне на ютубе тогда, но у тебя вроде шаблон посложнее, поэтому придется повозиться

боби (3)

Пользователь

Регистрация: 19.10.2021

Сообщения: 753

Рейтинг: 361

боби (3)

Регистрация: 19.10.2021

Сообщения: 753

Рейтинг: 361

Ananasiiik сказал(а):

Заказать на фрилансе и не морочить сё голову. 

Нажмите, чтобы раскрыть...

Мне хочется научиться это делать

YoshkinKot

Пользователь

Регистрация: 20.06.2016

Сообщения: 5182

Рейтинг: 1980

YoshkinKot

Регистрация: 20.06.2016

Сообщения: 5182

Рейтинг: 1980

Андрей Ахметшин

Пользователь

Регистрация: 13.11.2021

Сообщения: 1

Рейтинг: 0

Андрей Ахметшин

Регистрация: 13.11.2021

Сообщения: 1

Рейтинг: 0

Могу спарсить любой сайт. Копай в сторону python + selenium (библиотека для python).

y6ejushe

Пользователь

Регистрация: 24.10.2021

Сообщения: 4877

Рейтинг: 892

Нарушения: 70

y6ejushe

Регистрация: 24.10.2021

Сообщения: 4877

Рейтинг: 892

Нарушения: 70

Поробуй в гугле вбить, парсинг сайтов.