Вопросы: 1. У балансировщика (под которым мастер и 2 реплики) нет кнопки назначить внешний IP. Видимо он где-то внутри указан? Т.е. если мне нужно подключаться к этой БД из другого сервера (который не у вас), это ведь возможно? 2. А могу я сначала создать просто облачную БД у вас и пользоваться ей. И если в будущем мне понадобится репликация, тогда уже создать кластер? Это возможно? Сложно ли это? Или нужно будет с нуля всё создавать?..
Да, почему-то в основном в СНГ. На западе данные хранят в S3, если это datalake/data lakehouse (snowflake/databricks), либо в базах данных типа druid, pinot, starrocks, иногда в teradata/vertica.
SQL constraints и DBT Test это разные системы для разных задач. Констрейнты - для транзакционного энфорсмента схемы. DBT Test - для проверки качества данных уже после загрузки данных для формирования пайплайна. То есть констрейнт проверяет целостнось данных по факту загрузки данных в таблицу вставки. DBT Test проверяет данные для того чтобы неверные данных не залились уже в следующую таблицу по пайплайну. Ну и в некоторых аналитических БД констрейнтов просто нет. А DBT Test можно везде сделать.
Абсолютно бесполезное видео, где лектор чисто для галочки выполняет поставленные ему в рамках работы задачу - записать видео по курсу, ну и сделал как будто бы для себя по быстренькому. Где то как то написал приложуху, развернул ее - готово и курс готов. Смысл это выкладывать как официальное видео курс по вк клауд платформе для клиентов. Бессмысленно...
Видео начинается с того, что "у нас имеется виртуальная машина, на которой установлен докер, на этой вм есть папка с приложением и нам надо собрать образ этого приложения" - и как выполнить все эти шаги? почему нельзя было включить их в видео? получается, без этого я выполнить урок не могу, надо либо самой сидеть разбираться, либо просто забить
Облако для аналитики дешевле только при условии, если ресурсы для вашего проекта требуются не всегда, а по запросу. Например, вам надо посчитать аналитику раз или несколько раз в день по данным в облачном s3. Тогда, да, это будет выгодно. Но посмотрите на кластеры хадуп, которые считают аналитику 24/7/365. Вы верите в то, что переехать в облако для них будет дешевле? Я, например, не верю... На тему производительности. В продакшн кластере хадуп, если посмотреть в логи спарк, локальность минимум на уровне стойки или датацентра, а в 30-40% случае - на уровне ноды. Тут все, конечно, может быть индивидуальным для вашего проекта. Но для связки кубера и s3 никакой локальности скорее всего не будет, даже на уровне датацентра. Поэтому, я не верю в просадку 4-5% по времени расчетов на одинаковом железе. Хоть это и "вилами по воде", но я бы говорил про потери производительности на уровне 15-20%. Соответственно, для получения того же времени выполнения расчета потребуется больше ресурсов, что в конечном итоге выльется в дополнительные расходы за компьют. Опять же, вот мы говорим про выбор между on-premise и облаком. Тогда почему мы не задаем вопрос, а жива ли Terradata или Greenplum? И мы почему-то не задаем вопрос, а жива ли Kafka? В определенных облаках для всего этого уже давно есть альтернатива. Впрочем, как и для самого кубернетеса, как уже написали в комментарии к этому видео. Выбор между облаком и on-premise не всегда однозначный даже для среднего бизнеса, а для крупного зачастую выгоднее построить свое частное облако, чем уехать в чье-либо. Пока что облака - это все-таки очень дорого, они больше подходят стартапам, малому и части среднего бизнеса. И про s3 в сравнении с hdfs тоже хотелось бы добавить. Вы можете назвать из всех имеющихся на рынке распределенных файловых систем что-то столь же надежное, простое и уже изъезженное вдоль и поперек как hdfs? Если скажете, что Ceph - я скорее улыбнусь. У того же амазона или gcp в s3 вложен колоссальный ресурс, это все на сегодня уже внутренняя разработка каждого серьезного облачного провайдера. В совокупности с erasure coding получается дешевый продукт для клиента и в тоже время с долгосрочной моделью окупаемости для самого облачного провайдера. А есть ли что-то подобное внутри РФ? Ну может у яндекса... Но я бы не понес свои данные в Ceph, не будучи уверенным, что его как следует "залатали" и умеют "правильно готовить".
Когда будете создавть кластер, то обязательно в "Доверенные Docker Registry" добавьте ip:port registry, который создали/используете в ходе выполнения курса
Снова я со своей обратной связью(если её ктото читает вообще). Вот эти моменты, когда лектор чето быстро набирает(по ошибке ли или по другой причине) - и совсем без комментариев голосом очень фрустрируют меня как зрителя - что там происходит, нужно ли мне это разбирать или это исправление ошибок того, кто дает материал, или это то, что мне потребуется повторить на моей тестовой машине - как это понять если ранее не работал с этими инструментами?
Это классно, но местами не понятно, например, в моменте как прокидываются переменные с логином-паролем. Я только изучаю эти темы потому возможно не улавливаю)
С середины видео становится мало понятно что делает спикер:( под конец конечно понятней стало, но как будто объяснял сначала одну тему, потом резко пошла консоль и непонятные телодвижения
@@user-sk4je6cx1z Да , начните с чистого листа ,после запуска инстансов поменяйте ресурсы на 2cpu-2gb. VK есть ограничения на количество cpu в старте ( 8 CPU ) что ли , старт Jupiter берет 4 старт MLflow ещё 4 и все он не одет создать деплой, не куда . Поэтому на инстансе ставим на все после запуска 2cpu 2gb, а также после старта MLflow deploy при performance=low он берет 4 CPU, запускаем его на low, а потом заходим в его инстанс и меняем на 2 CPU