program story

randomForest (R 패키지)에 대한 데이터를 정규화 (또는 확장)해야합니까?

inputbox 2021. 1. 8. 08:11
반응형

randomForest (R 패키지)에 대한 데이터를 정규화 (또는 확장)해야합니까?


회귀 작업을 수행하고 있습니다. randomForest (R 패키지)에 대한 데이터를 정규화 (또는 확장)해야합니까? 목표 값도 확장해야합니까? 그리고 만약-캐럿 패키지의 스케일 기능을 사용하고 싶지만 데이터를 다시 얻는 방법을 찾지 못했습니다 (디 스케일, 비정규 화). 정규화 / 비정규 화에 도움이되는 다른 기능 (패키지 내)에 대해 모르십니까? 고마워, 밀란


아니요, 임의 포리스트에는 확장이 필요하지 않습니다.

  • RF의 특성상 수렴 및 수치 정밀도 문제는 때때로 로지스틱 및 선형 회귀뿐만 아니라 신경망에 사용되는 알고리즘을 넘어 뜨릴 수있는 문제가 그다지 중요하지 않습니다. 이 때문에 NN 에서처럼 변수를 공통 척도로 변환 할 필요가 없습니다.

  • 각 예측 변수와 반응 간의 관계를 측정하는 회귀 계수의 아날로그를 얻지 못합니다. 이 때문에 가변 측정 척도의 영향을받는 계수를 해석하는 방법도 고려할 필요가 없습니다.


특정 기능에 우선 순위가 부여되지 않도록 데이터 정규화를 위해 확장이 수행됩니다. 스케일링의 역할은 거리 기반이며 유클리드 거리가 필요한 알고리즘에서 가장 중요합니다.

Random Forest는 트리 기반 모델이므로 기능 확장이 필요하지 않습니다 .

이 알고리즘은 파티셔닝이 필요합니다. 정규화를 적용하더라도> 결과는 동일합니다.


에서 회귀 변수에 스케일링이 필요하다고 제안하는 도움말 페이지 또는 비 네트에 제안 사항이 없습니다 randomForest. Stats Exchange의이 예 에서는 확장도 사용하지 않습니다.

내 의견의 사본 :이 scale기능은 pkg : caret에 속하지 않습니다. "기본"R 패키지의 일부입니다. unscale패키지 grtDMwR 에는 변환을 반전 시키는 함수 가 있습니다 . 또는 단순히 scale 속성을 곱한 다음 중앙 속성 값을 추가 할 수 있습니다.

"정규화"를 수행해야하는 이유에 대한 개념은 비판적 조사가 필요할 수 있습니다. 비정규 성 검정은 회귀가 완료된 후에 만 ​​필요하며 적합도 방법론에 정규성에 대한 가정이없는 경우에는 전혀 필요하지 않을 수 있습니다. 그래서 : 왜 물어 보는거야? SO 및 Stats.Exchange에서 검색하면 유용 할 수 있습니다. citation # 1 ; 인용 # 2 ; 인용 # 3

boxcox함수는 분포가 "되어야하는"것에 대한 사전 지식이없고 실제로 변형을 수행해야 할 때 일반적으로 사용되는 변형입니다. 변형을 적용하는 데는 많은 함정이 있으므로 질문을해야한다는 사실은 추가 상담이나 자체 학습이 필요할 수 있다는 우려를 제기합니다.


데이터 세트에 상호 작용을 추가하려는 경우 (즉, 새 변수가 다른 변수의 일부 기능 (일반적으로 단순 곱셈)이고 새 변수가 의미하는 바를 느끼지 못하는 경우 (해석 할 수 없음)) 다음을 사용하여이 변수를 계산해야합니다. 척도 변수.


다음 예에서 어떤 일이 일어날까요? 20 개의 예측 특성이 있고 그중 18 개는 [0; 10] 범위에 있고 다른 2 개는 [0; 1,000,000] 범위에 있습니다 (실제 예에서 가져옴). 질문 1 : Random Forest가 할당하는 기능의 중요성. 질문 2 : 2 개의 대규모 기능을 확장 한 후 기능 중요도는 어떻게됩니까?

확장이 중요합니다. Random Forest는 다른 알고리즘보다 스케일링에 덜 민감하며 "대략"스케일링 된 기능으로 작동 할 수 있습니다.


Random Forest는 information gain / gini coefficient기본적으로 사용 되는 다른 많은 기계 학습 모델 (예 : k- 평균 클러스터링, PCA 등)과 달리 스케일링의 영향을받지 않습니다. 그러나 다른 답변에서 암시 한 것처럼 수렴을 '논의의 여지'로 고정시킬 수 있습니다.

참조 URL : https://stackoverflow.com/questions/8961586/do-i-need-to-normalize-or-scale-data-for-randomforest-r-package

반응형