Специалисты по Computer Science СЮДА!!!1

avatar 666T1meToHermes6

961

5

666T1meToHermes6

Z

Регистрация: 29.11.2013

Сообщения: 5373

Рейтинг: 3637

Нарушения: 175

666T1meToHermes6

Регистрация: 29.11.2013

Сообщения: 5373

Рейтинг: 3637

Нарушения: 175

Часик в радость чифир в сладость, господа аренстанты дединсайды дотеры,




В данный момент связан с одним проектом в финансах. С Computer Science общего особо ничего не имею, сделал пару MOOCs, но не более. В ИТ вкатываться (как полноценный кодер) желания не имею, однако есть одна задача, которую хочу реализовать. В общем возникла следующая ситуация - Есть 37 скриптов (часть написана на питоне, часть на R). Каждый день в 00-00 начинаю сбор данных с 37 ресурсов. Часть сервисов имеет API по этому тут просто, остальные порталы приходится скрапить. Статические с помощью beautifulsoup / rvest, и динамические с помощью селениума. После чего все приводится к одному виду и записывается в БД. На данный момент со всех ХДД имеется ~ 1,7 ТБ. Так же есть 2 дашборда написанных на R (фреймворк shiny, аналог питоновского dash). Локально запускаю его на компе и спокойно погружая данные кусками из БД строю модельки, делаю EDA (exploratory data analysis) а потом генерю отчетики. Короче проблема в том что все это делается локально, т.к. дашборд и БД у меня на компе. Хочу организовать доступ к этому для коллег.




Что я хочу сделать:


- Хочу сделать так, чтобы все 37 скриптов запускались параллельно, чтобы не тратить время. Запускаться должны автоматически каждые 2 часа и после записывать все в БД.


- Хочу захостить дашбоард так, чтобы сам обновлялся каждые 2 часа, подтягивал актуальную информацию с БД и был удаленно доступен ограниченному кругу людей.




В наличии имеется сервер на каком-то стареньком ЗЕОНе, 128 гб оперативки и 12 ТБ диск для БД. Примеры можно на питоне или других языках. Хочу понять какой стек технологий нужен чтобы такое организовать. Типа разбить физическую машину на N виртуальных, и с одной машины этим управлять, на ней же захостить дашбоард. Но я никогда такого не делал и не знаю что нужно и с чего начать. Серьезно заниматься этим не планирую, просто хочу минимально потраченным временем это все поднять.




Много раз видел как на форуме писали про вкат в ИТ, так могу предположить что хоть пару человек тут шарят или могут шарить как сделать то, что я хочу. На стаковер писать не хочу, т.к. опять скажут что не туда написал.




Кароч пацаны нужна хелпа

Dzen4

Пользователь

Регистрация: 03.07.2015

Сообщения: 800

Рейтинг: 167

Dzen4

Регистрация: 03.07.2015

Сообщения: 800

Рейтинг: 167

img

Выгоднее в плане ресурсов не поднимать несколько машин а запустить что то в докере

HealSlut

Пользователь

Регистрация: 25.08.2018

Сообщения: 2764

Рейтинг: 8309

HealSlut

Регистрация: 25.08.2018

Сообщения: 2764

Рейтинг: 8309

img

Не в курсе что за дешборды, так что, возможно, это не то что тебе нужно, но запускать задачи по расписанию можно с помощью банального cron, а раздавать статические страницы с базовой авторизацией с помощью nginx.

SSLPWNZ

Пользователь

Регистрация: 17.01.2019

Сообщения: 220

Рейтинг: 34

Нарушения: 1000

SSLPWNZ

Регистрация: 17.01.2019

Сообщения: 220

Рейтинг: 34

Нарушения: 1000

на linux есть аналоги планировщика заданий windows так же легко гуглятся

Luck1ess

Пользователь

Регистрация: 14.08.2016

Сообщения: 171

Рейтинг: 33

Luck1ess

Регистрация: 14.08.2016

Сообщения: 171

Рейтинг: 33

а если без кеков про планировщики и ансибл, то сделай на airflow https://airflow.apache.org/, обычно аналитики могут в него. Типа разбить физическую машину на N виртуальных - так давно никто не делает, собери все в докеры, https://www.statworx.com/ch/blog/how-to-dockerize-shinyapps/ , хотя тебе даже это не понадобится, поднимешь бд, поднимешь эйрфлоу, в нем будешь шедулисть скрипты, данные в бд обновятся = дашборды обновятся

666T1meToHermes6

Z

Регистрация: 29.11.2013

Сообщения: 5373

Рейтинг: 3637

Нарушения: 175

666T1meToHermes6

Регистрация: 29.11.2013

Сообщения: 5373

Рейтинг: 3637

Нарушения: 175

Luck1ess сказал(а):


а если без кеков про планировщики и ансибл, то сделай на airflow https://airflow.apache.org/, обычно аналитики могут в него. Типа разбить физическую машину на N виртуальных - так давно никто не делает, собери все в докеры, https://www.statworx.com/ch/blog/how-to-dockerize-shinyapps/ , хотя тебе даже это не понадобится, поднимешь бд, поднимешь эйрфлоу, в нем будешь шедулисть скрипты, данные в бд обновятся = дашборды обновятся


Нажмите, чтобы раскрыть...


о а вот это интересно, спасибо