eda 예제

비닝은 숫자 변수를 범주형으로 변환하는 프로세스입니다. 예를 들어 연령은 0-12 (어린이), 13-19 (십대), 20-65 (성인), 65 + (노인)로 범주 될 수 있습니다. 비닝은 노이즈 또는 비선형성을 줄이기 위한 필터로 사용할 수 있으며 의사 결정 트리와 같은 일부 알고리즘에는 범주형 데이터가 필요합니다. 또한 비닝을 사용하면 데이터 과학자가 수치 값에 대한 이상값, 유효하지 않거나 누락된 값을 신속하게 평가할 수 있습니다. 비닝 기술에는 동일한 너비(범위 기준), 각 bin의 동일한 빈도, 정렬된 순위, 쿼틸수 또는 수학 함수(예: 로그)를 사용하는 것이 포함됩니다. 비닝은 정보 엔트로피 또는 정보 이득에 기초하여 사용될 수있다. 숫자 또는 연속 변수는 유한 또는 무한 간격 내의 모든 값일 수 있습니다. 예로는 온도, 높이, 무게가 있습니다. 숫자 변수에는 간격과 비율이 두 가지 유형이 있습니다. 간격 변수에는 숫자 배율과 배율 전체에 걸쳐 동일한 해석이 있지만 절대 0은 없습니다. 예를 들어 화씨 나 섭씨 의 온도는 의미있게 빼거나 추가 할 수 있습니다 (10도와 20도의 차이는 40 ~ 50도와 동일한 차이입니다) 그러나 곱할 수 없습니다.

예를 들어, 두 배 더 뜨거운 하루는 온도의 두 배가 되지 않을 수 있습니다. 예를 들어 다음 원형 차트에서 무엇을 결정합니까? 누락된 값이 있는 관측값이 기록된 값의 관측값과 다른 이유를 이해하려는 경우도 있습니다. 예를 들어 nycflights13::flight에서 dep_time 변수의 누락된 값은 항공편이 취소되었음을 나타냅니다. 따라서 취소 및 취소되지 않은 시간에 대한 예정된 출발 시간을 비교할 수 있습니다. is.na()를 사용하는 새 변수를 만들어 이 작업을 수행할 수 있습니다. 위의 예에서 aes(x = = 잘라내기, y = 색상)보다는 aes(x = 색상, y = 잘라내기)를 사용하는 것이 약간 더 나은 이유는 무엇입니까? 타이타닉 예제에서 섹스와 Pclass의 기여도가 가장 높았습니다. 왜 이것이 생각합니까? DresSMart Inc.라는 온라인 쇼핑 매장에서 최고 분석 책임자 및 비즈니스 전략 책임자인 사례 연구 예제(1부 및 2부 읽기)로 돌아갑니다. 회사의 캠페인 결과를 개선하기 위해 회사의 CMO를 돕고 있습니다. 지난 며칠 동안 탐색 데이터 분석의 일환으로 데이터를 가지고 놀고 있습니다. 다음은 데이터에서 발견한 몇 가지 흥미로운 결과 및 패턴 중 하나입니다. 여러 상품 카테고리(남성 셔츠, 캐주얼 팬츠, 정장 스커트 등)에 걸친 고객 분포를 분석한 결과, 각 고객이 구매한 경우 는 다음과 같은 패턴을 발견했습니다. 예를 들어 mpg 데이터 집합에서 클래스 변수를 가져 가십시오.

당신은 고속도로 마일리지가 클래스에 따라 어떻게 다른지 알고 관심이있을 수 있습니다 : GitHub의 노트북에 우리가 논의 한 모든 것 (그리고 더 많은 것)의 예와 YouTube에서 노트북 단계를 거치는 비디오가 있습니다 (코딩은 5:05에서 시작).

This entry was posted in Uncategorized. Bookmark the permalink.

Comments are closed.