0527 Orange3 알아보기(2)
오전
orange3를 알아보기 전에 기초 통계 지식부터 알고 가는 것이 좋다.
아래의 박스 안 부분을 skip하고 싶다면 그래도 된다.
기술통계 - 수집된 데이터의 요약과 설명
ex. 평균, 표준편차, 중앙값, 사분위수, 최빈값
추론통계 - 기술 통계 결과를 기반으로 일반화, 예측, 추정
기술통계
평균
평균의 특징 : 집단을 요약하는 대표값, 집단 값 비교를 위한 도구, 예측 모델의 기준점
ex)
-> '내일은 우리 상품이 얼마나 팔릴까?'
-> '이번 분기 실적은 지난 분기 실적과 왜 다르지?'
평균은 최초의 예측 모델!
표준편차 : 집단이 어떻게 분포되어있는지를 표현하는 숫자
'* 분포와 확률은 관련이 있다.
'내일 우리 상품이 10개 이상 팔릴 확률은?' / '이번 분기 실적은 지난 분기 실적보다 안정적이었나?'-> 분포를 보고 알 수 있다.
분산 : 데이터가 얼마나 퍼져있는지를 표현하는 통계값.
표준편차 : 평균과 개별 데이터 간 차이(=편차)를 통계적으로 표현한 것
Q. 평균 156cm, 표준편차 6.7cm의 의미는?
평균을 기준으로 1표준편차 149.3cm와 162.7cm 안에 68%의 학생이 있다.
왜도/첨도 - 왜도 : 중심이 어디에 가있냐, 첨도 : 얼마나 뾰족하냐.
중앙값 : 평균이 대표값 역할을 할 수 없을 때. 데이터 값을 정렬한 후 가장 가운데에 있는 값이 중앙값.
사분위수 : 표준편차를 보완한 것으로, 분포를 조금 더 알고 싶을 때 사용한다.
Lower bound, Lower quartile, Median, Upper quartile, Upper bound
중앙값과 사분위수 : 이상치에 강하나, 오차를 설명하기 어려움 -> 오차는 평균과 표준편차로 말해야
오후
Orange3 메뉴 정리 잘 해놓은 사이트
1. 오렌지3를 소개합니다.
 *출처 : 오렌지3 홈페이지([https://orangedatamining.…
wikidocs.net
RFM 분석 (충성 고객 분석)
RFM : 사용자별로 얼마나 최근에, 얼마나 자주, 얼마나 많은 금액을 지출했는지에 따라 사용자들의 분포를 확인하거나 사용자 그룹을 나누어 분류하는 분석기법cf : RFM은 다음의 단어들의 약자임. Recency 최근에 얼마나 구매했는지, Monetary 구매금액 : 얼마의 금액을 지출했는지, Frequency 행동빈도 : 얼마나 자주 구매했는지
데이터 분류 기준을 세워야함
Before we start, 판매 제품에 따라 3점을 어떻게 매길 것인지 정리 필요함. ex) 자동차는 3개월 이내에 또 구매할 가능성이 굉장히 낮은 고가의 품목!
1. File을 열어서 RFM.csv를 불러온다.
2. Formula를 가져온다.
3. Formula의 Variable Definitions에서 'Numeric'변수를 생성한다.
4. X1로 default 값이 설정되어 있는 곳에는 사용할 변수 명을 넣어주면 된다. Frequencuy라는 변수를 생성할 것인데, 이름을 간단하게 하기 위해 아래의 그림과 같이 변수명을 'F'로 넣으면 된다. 그리고 표현식에는 '1 if qtt order <=50 else 2 if qtt_order <=100 else 3'를 넣어준다.
5. 아래의 그림처럼, M변수도 Numeric으로 설정하여 표현식에 '1 if total_spent <= 100000 else 2 if total_spent <= 200000 else 3'를 입력해준다음 Send 버튼을 클릭해준다.
Data Table을 생성 및 연결하여 보면 변수에 F,M이 추가되어 있는 것을 알 수 있다.
6. 그 다음으로는 select rows앱을 생성하고, 연결한다.
R변수 생성을 위해, Data Table (1)에서 last_order 의 날짜들을 확인 (오름차순/내름차순으로 정렬)한다.
2023/01/07이 가장 최근 구매, 2021/01/26이 가장 오래된 구매라는 것을 알 수 있다.
그래서 2023/01/07로부터 3개월 전을 R로 잡으려고 한다.
R, F, M 값을 조건화해준다음 Concatenate 앱으로 파일을 합쳐준다.
캐글
Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
www.kaggle.com
RFM 위해 필요한 사이트 등 다양한 엑셀 자료가 있음.
군집화
Clustering
클러스트링이란 유사한 패턴, 이미지 등의 정보를 지닌 데이터들을 군집으로 묶어 분류하는 방법
넷플릭스 추천, 관심있을 옷 추천 등
그동안 답과 특징을 주고 학습시켰는데, 얘는 답이 없음. Unsupervised.
Shilluette Scores : 몇 개로 군집화했을 때 군집화가 더 잘 되는지를 나타내는 지수로, 1에 가까울 수록 군집화가 잘 되어 있는 거다.
군집화 해서 고객이 어디에 속하는지 보고 거기에 맞는 마케팅 하기 위해서 쓰인다.
카드 한도
카드 수
은행 방문하는지
고객의 카드 한도와 카드 수를 갖고, 은행 방문을 좋아하는지 온라인을 좋아하는지 전화를 좋아하는지
#Association rule 활용
고객 구매 패턴 분석 고객 추천에 활용 매대 진열 -> 매출 상승
Option>Add-ons>Associate
CSV File Import > EUC-KR 로 하면 깨진 한글을 보이게 할 수 있다.