Здравствуйте. Я немного не догоняю, почему в формуле прироста информации энтропия правой подвыбоки =1, если мы посчитали ее =0, ведь там все единицы, абсолютный порядок. Почему тогда в формулу мы вводим ее как 1 и еще нормируем 2/5*1 ? (это на 12 й мнуте) При этом итог получается правильным 0.419 .....опечатака однако )))
17:16 Почему разбиение было на [0, 3] и [1, 1], разве не лучше было бы на [0, 4] и [1, 0]? Может ли не быть такого вопроса, который отделял бы только эту единственную запись?
А если не задавать random_state, то чем обусловлено различие точности обученной модели, если обучать ее на одних и тех же данных, и проверять результат тоже на одинаковых данных?
Различия обусловлены случайностью, может повезти так, что выборка на тесте будет легче, поэтому метрика будет лучше, а может наоборот. И чтобы сравнивать именно модель, а не удачу, то и стоит фиксировать random_state
Большое спасибо за видео. Я правильно понял, что алгоритм считает IG по всем значениям фичей, кроме тех, которые не позволяют разбить на две подвыборки?
Очень интересно по технике, но есть вопрос по сути. Для чего в принципе составляется это дерево решений? Ищется какое-то оптимальное значение? То есть какая изначально задача? Спасибо.
Допустим у нас есть задача идентификации человека по его фотографии. С точки зрения машинного обучения - это задача многоклассовой классификации изображений. При этом, в тестовой выборке могут содержаться изображения людей, которых не было в обучающем наборе и такие фотографии нужно как-то браковать. В случае с логистической/softmax регрессией - можно задать порог по принадлежности объекта тестовой выборки к классам обучающей. В случае с ближайшими соседями, этим порогом будет являться расстояние между объектами. А что будет является порогом для дерева?)
Для деревьев такой же порог можно задать, как и с логистической регрессией - порог по предсказанным вероятностям. Но хочу еще добавить, что задачи, связанные с классификацией людей лучше решаются через сверточные нейронные сети, в частности через подход metric learning.
@@machine_learrrning, я пробовал решить эту задачу с помощью: метода главных компонент + метод ближайшего соседа/softmax регрессия, гистограмма направленных градиентов + метод ближайшего соседа/softmax регрессия, классификация карт признаков сверточной нейронной сети facenet + метод ближайшего соседа/softmax регрессия) Хотел опробовать деревянные алгоритмы)