Все построители деревьев , которые я знаю (из sklearn.tree) , в качестве признаков принимают только числовые данные.
Но как построить дерево на категориальных данных ?! Например, у меня есть 3 категориальных признака-симптома болезни, в каждом по 5 вариантов ответа … Неужели я должен превратить их в три столбца в которых будут числа от 1 до 5 ?! Анализ при построении дерева будет совершенно не логичным. Я хочу чтобы все категории были равноправными , чтобы в каждой вершине перебирались все возможные варианты разбиения пяти категорий на две подвыборки. И выбиралось то разбиение, которое делит их оптимальнее.
В теории это довольно просто , но на практике словно забыли реализовать. Может я чего-то не понимаю ? Может быть есть другой древесный классификатор и регрессор , который умеет полноценно работать с категориальными признаками ?