666T1meToHermes6 сказал(а):
↑ хочешь сказать есть люди, которые ходят и собирают в ручную с тысячь сайтов названия класса для перебора по всем страницам? не верю что для такого не существует какой-то супер вундервафли
Нажмите, чтобы раскрыть...
ну по идее сначала надо упростить html хотя бы
удалить хотя бы часть мусора со страницы автоматически: навигацию, банеры и т.д.
потом можно добавить разбор каких-то обычных паттернов: див с картинкой и кнопкой, ссылкой
можно сделать pattern matching на всякие "one thousand twenty five" -> 1025
у тебя заместо сотни различных вариантов расположения получится какой-то единый
ну и т.д.
в стиле того как это делают всякие математические солверы
типа wolfram alpha
как бы хотя бы это первая стадия
дальше можно на упрощенную страницу добавить еще один упроститель
ну вот есть например reading mode в браузерах они там section p article div считают "близкими элементами"
и в теории ты можешь всё превратить в единый какой-то тег
ну и если сделать вот такой каскадный упроститель в множество фаз
по отдельным элементам с сотней правил
у тебя на выходе начнуться получаться страницы "well formated"
чтобы их уже какой-нибудь кластеризации подвергнуть
ну короче что-то в стиле reading view в браузерах
что-то в стиле wolfram alpha
что-то в стиле того как компиляторы работают, когда каскад match / substitute происходит
в кучу этапов