BROKER SEGUR - Rio Ulla 7 , Madrid

r 서포트벡터머신 예제

이 지원 벡터 분류기에서는 관측값의 80%가 올바르게 분류되어 플롯에서 보는 것과 일치합니다. 분류자를 보다 엄격하게 테스트하려면 데이터를 교육 및 테스트 집합으로 분할한 다음 모델을 구성하는 데 사용되지 않는 관찰을 사용하여 SVC가 어떻게 수행되었는지 확인할 수 있습니다. 이 자습서의 후반부에서는 이 학습 테스트 방법을 사용하여 SVM의 유효성을 검사합니다. 요약하자면, 지원 벡터 컴퓨터는 두 개 이상의 그룹으로 기능 공간을 분할하려고 시도하는 감독된 분류기의 하위 클래스입니다. 알려진 클래스 레이블을 기반으로 이러한 그룹을 분리하는 최적의 방법을 찾아서 이를 달성합니다. 두 종류의 값만 있고 그림에서와 같이 이를 나타낼 수 있다고 가정해 봅시다: 빅 데이터 집합에서 작업하려면 일부 기계 학습 패키지를 직접 사용할 수 있습니다. R 프로그래밍 언어의 개발자 커뮤니티는 작업을 더 쉽게 할 수있는 몇 가지 훌륭한 패키지를 구축했습니다. 이러한 패키지의 장점은 최적화되어 있고 작업을 단순화하기 위해 최대 예외를 처리 할 수 있다는 것입니다. 배율 조정할 변수를 나타내는 논리 벡터입니다. 배율이 길이 1이면 값은 필요한 횟수만큼 재활용됩니다.

기본적으로 데이터는 내부적으로(x 및 y 변수 모두) 평균 및 단위 분산으로 배율이 조정됩니다. 중심 및 축척 값이 반환되고 이후 예측에 사용됩니다. 이제 데이터의 데이터 프레임을 만들어 y를 요인 변수로 전환합니다. 그런 다음 y를 응답 변수 및 기타 변수를 예측 변수로 사용하여 이 데이터 프레임에서 svm을 호출합니다. 데이터 프레임은 x1 및 x2라는 2개의 열로 행렬 x의 압축을 풀것입니다. SVM에 커널이 선형이고, 조정 매개 변수 비용이 10이고 배율이 false임을 알려줍니다. 이 예제에서는 변수를 표준화하지 않도록 요청합니다. 학습 샘플에 사용할 사례를 지정하는 인덱스 벡터입니다. (참고: 주어진 경우 이 인수의 이름을 지정해야 합니다.) 짧은 대답은, 예가있다.

이를 위한 한 가지 방법은 여백을 최대화하는 경계선, 즉 분리 경계와 가장 가까운 점 사이의 거리를 선택하는 것입니다. 이러한 최적 경계는 그림 3의 검정 색 중괄호에 의해 예시됩니다. 이 기준의 정말 멋진 점은 분리 경계의 위치는 가장 가까운 점에만 의존한다는 것입니다. 즉, 다른 분류 방법과 달리 분류기는 데이터 집합의 다른 점에 의존하지 않습니다. 경계와 양쪽의 가장 가까운 점 사이의 지시선을 지지 벡터라고 합니다(그림 3의 단색 검정선). 이 것의 직접적인 의미는 지원 벡터가 적을수록 경계의 일반화성이 향상된다는 것입니다. SVM 분류자(지원 벡터 시스템) 알고리즘의 원리는 다른 클래스에 대한 데이터를 분리하는 하이퍼플레인을 구축하는 것입니다. 이 초평면 구축 절차는 다양하며 SVM 분류기의 주요 작업입니다.

초평면을 그리는 동안 주요 초점은 초평면에서 두 클래스의 가장 가까운 데이터 점까지의 거리를 최대화하는 것입니다. 이러한 가장 가까운 데이터 포인트를 지원 벡터라고 합니다. […] 1 년 전, 나는 데이터 과학 R 시리즈에 대한 나의 부드러운 소개의 일환으로 지원 벡터 머신에 조각을 썼다.

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies