leeyongjoo의 블로그

빅데이터 - Spark MLlib 모델 튜닝, PMML

2021-02-05T00:00:00+09:00

Spark MLlib

Spark MLlib 모델 튜닝
ML Pipeline 기반 머신러닝 모델 만들기
머신러닝 모델을 API를 이용하여 서빙하기
Spark 내용 총 정리

Spark MLlib 모델 튜닝

(ML Tuning)

최적의 하이퍼 파라미터 선택
- 최적의 모델 혹은 모델의 파라미터를 찾는 것이 아주 중요
- 하나씩 테스트 하는 것 vs 다수를 동시에 테스트 하는 것
- 모델 선택의 중요한 부분은 테스트 방법
  - 홀드 아웃, 교차 검증

👉 보통 ML Pipeline 과 같이 사용

📌 Spark MLlib 모델 테스트

모델 테스트 방법은 크게 2가지가 존재

홀드 아웃(Train-Validation Split) - TranValidationSplit
- 훈련용과 테스트용 데이터 기반 테스트
- 잘못 나눌경우 제대로 된 결과를 얻을 수 없다. → 교차 검증을 이용하여 해결
교차 검증(Cross Validation) - CrossValidator
- 홀드 아웃(Train-Validation Split)을 반복하여 여러번 훈련 후 성능 지표를 계산하고 그것들의 평균을 내는 방법
- K-Fold 테스트라고도 함
- 트레이닝 셋을 K 개의 서브셋으로 나누어 총 K 번을 훈련
  - i 번째 훈련 할 때는 다음을 반복
    1. i 번째 서브셋을 빼고 훈련을 진행하여 모델 빌딩
    2. i 번째 서브셋을 이용하여 테스트 수행
👉 홀드아웃 테스트보다 더 안정적이다 (오버피팅 문제가 감소)

Spark MLlib 모델 튜닝(Tuning)

TranValidationSplit : 홀드아웃 기반 테스트 수행
CrossValidator : 교차검증(K-Fold) 기반 테스트 수행
⭐ 3 개의 입력이 존재
- Estimator : 머신러닝 모델 (혹은 ML Pipeline)
- Evaluator : 머신러닝 모델의 성능을 나타내는 지표
- Parameter : 훈련 반복 횟수 등의 하이퍼 파라미터
  - ParamGridBuilder를 이용하여 ParamGrid 타입의 변수 생성
  - 예) 훈련 횟수, 트리의 최대 깊이 등

👉 최종적으로 가장 결과가 좋은 모델을 리턴!

Evaluator: 머신러닝 모델 성능 측정에 사용되는 지표(metrics)

evaluate 함수가 제공됨
- 테스트셋의 결과가 들어있는 데이터프레임(prediction 컬럼이 존재)과 파라미터(성능 지표 관련)를 입력
  - 보통 이 데이터프레임은 머신러닝 모델의 transform 함수가 리턴해준 값
머신러닝 알고리즘에 따라 다양한 Evaluator가 제공됨
- RegressionEvaluator, BinaryClassificationEvaluator (AUC가 성능 지표가 됨), MulticlassClassificationEvaluator, MultilableClassificationEvaluator, RankingEvaluaotr

📌 Spark MLlib 머신러닝 모델 빌딩 전체 프로세스

데이터프레임 기반 트레이닝 셋
ML Pipeline (Estimator)
머신러닝 모델
ML Tuning (TrainValidationSplit or CrossValidator)
- Estimator(ML Pipeline), Evaluator, Parameter(ParamGrid)
최종 모델

실습🖥️: ML Pipeline 기반 머신러닝 모델 만들기

ML pipeline 사용하여 모델 빌딩
다양한 Transformer 사용
- Imputer, StringIndexer, VectorAssembler
- MinMaxScaler를 사용하여 피쳐값을 0과 1 사이로 스케일링
  - 기본적으로 VectorAssembler로 벡터로 변환된 피쳐컬럼에 적용
머신러닝 알고리즘으로 GBTClassifier와 LogisticRegression을 사용 (2개 생성)
- 📌 GBTClassifier(Gradient Boosted Tree Classfier)
  - 의사결정 트리(Decision Tree)의 머신러닝 알고리즘
  - Regression과 Classification에 모두 사용 가능
모델 튜닝으로 CrossValidation을 사용하여 모델 파라미터 선택
- Estimator - ML Pipeline을 인자로 지정
- Evaluator - BinaryClassificationEvaluator 사용
- ParamGrid - ParamGridBuilder를 사용하여 생성

ML Pipeline 사용 절차

트레이닝 셋에 수행해야하는 feature transformer들을 생성
머신러닝 모델 알고리즘(Estimator)을 생성
순서대로 파이썬 리스트에 추가
- 머신러닝 알고리즘이 마지막으로 추가되어야 함
파이썬 리스트를 인자로 Pipeline 개체 생성
Pipeline 개체를 이용하여 모델 빌딩 → 2가지 방법 존재
- Pipeline의 fit 함수를 호출하여 트레이닝 셋 데이터프레임 지정
- ML Tuning의 입력으로 지정하여 여러 하이퍼 파라미터를 테스트해보고 결과가 가장 좋은 모델을 선택
  - 이때 교차검증을 사용

(예제) ML Pipleline 사용 - 타이타닉 생존 예측 모델

LogisticRegression 이용

필요한 Transformer와 Estimator 들을 만들고 순서대로 리스트에 추가

 from pyspark.ml.feature import Imputer, StringIndexer, VectorAssembler, MinMaxScaler

 # Gender
 stringIndexer = StringIndexer(inputCol = "Gender", outputCol = 'GenderIndexed')

 # Age
 imputer = Imputer(strategy='mean', inputCols=['Age'], outputCols=['AgeImputed'])

 # Vectorize
 inputCols = ['Pclass', 'SibSp', 'Parch', 'Fare', 'AgeImputed', 'GenderIndexed']
 assembler = VectorAssembler(inputCols=inputCols, outputCol="features")

 # MinMaxScaler
 minmax_scaler = MinMaxScaler(inputCol="features", outputCol="features_scaled")

 stages = [stringIndexer, imputer, assembler, minmax_scaler]

stringIndexer : 문자를 숫자로 변환
imputer : 비어있는 값을 처리 (strategy에 따라 처리)
assembler : inputCols 컬럼들을 벡터로 만들어 하나의 컬럼에 적재
minmax_scaler : 값 범위를 0~1 사이로 변환

 from pyspark.ml.classification import LogisticRegression

 algo = LogisticRegression(featuresCol="features_scaled", labelCol="Survived")
 lr_stages = stages + [algo]

 lr_stages
 # [StringIndexer_1976e7f16274,
 #  Imputer_56fe707b5a4d,
 #  VectorAssembler_98d57e0b3a89,
 #  MinMaxScaler_b3dd5bb113e7,
 #  LogisticRegression_7e7d6a154cc5]

마지막에 알고리즘 추가

앞서 만든 리스트를 Pipeline의 인자로 지정

 from pyspark.ml import Pipeline

 pipeline = Pipeline(stages = lr_stages)

 # evaluator 생성
 from pyspark.ml.evaluation import BinaryClassificationEvaluator

 evaluator = BinaryClassificationEvaluator(labelCol='Survived', metricName='areaUnderROC')

💡 다음과 같이 pipeline을 이용하여 바로 모델 빌드 하는것도 가능!

  df = data.select(['Survived', 'Pclass', 'Gender', 'Age', 'SibSp', 'Parch', 'Fare'])
  train, test = df.randomSplit([0.7, 0.3])

  lr_model = pipeline.fit(train)
  lr_cv_predictions = lr_model.transform(test)

  from pyspark.ml.evaluation import BinaryClassificationEvaluator

  evaluator = BinaryClassificationEvaluator(labelCol='Survived', metricName='areaUnderROC')
  evaluator.evaluate(lr_cv_predictions)
  # 0.8671428571428581

ML Tuning - ParamGrid와 CrossValidator 생성

 from pyspark.ml.tuning import ParamGridBuilder, CrossValidator

 paramGrid = (ParamGridBuilder()
              .addGrid(algo.maxIter, [1, 5, 10])
              .build())

 cv = CrossValidator(
     estimator=pipeline,
     estimatorParamMaps=paramGrid,
     evaluator=evaluator,
     numFolds=5
 )

 # Run cross validations.
 cvModel = cv.fit(train)
 lr_cv_predictions = cvModel.transform(test)
 evaluator.evaluate(lr_cv_predictions)
 # 0.8676819407008096

cv.fit() 는 교차 검증을 수행하고 가장 좋은 모델을 리턴

어느 하이퍼 파라미터 조합이 최선의 결과를 냈는지 알고 싶다면

  import pandas as pd

  params = [{p.name: v for p, v in m.items()} for m in cvModel.getEstimatorParamMaps()]
  pd.DataFrame.from_dict([
      {cvModel.getEvaluator().getMetricName(): metric, **ps}
      for ps, metric in zip(params, cvModel.avgMetrics)
  ])
  # 	  areaUnderROC  maxIter
  # 0	  0.826748	    1
  # 1	  0.838885	    5
  # 2	  0.845797	    10

GBT Classifier 이용

위의 과정에서 알고리즘 추가 이전 과정은 동일

  from pyspark.ml.classification import GBTClassifier

  gbt = GBTClassifier(featuresCol="features_scaled", labelCol="Survived")
  gbt_stages = stages + [gbt]

  gbt_stages
  # [StringIndexer_1976e7f16274,
  #  Imputer_56fe707b5a4d,
  #  VectorAssembler_98d57e0b3a89,
  #  MinMaxScaler_b3dd5bb113e7,
  #  GBTClassifier_2fe98abcabe9]

  from pyspark.ml import Pipeline
  pipeline = Pipeline(stages = gbt_stages)

  from pyspark.ml.tuning import ParamGridBuilder, CrossValidator

  paramGrid = (ParamGridBuilder()
               .addGrid(gbt.maxDepth, [2, 4, 6])
               .addGrid(gbt.maxBins, [20, 60])
               .addGrid(gbt.maxIter, [10, 20])
               .build())

  cv = CrossValidator(
      estimator=pipeline,
      estimatorParamMaps=paramGrid,
      evaluator=evaluator,
      numFolds=5
  )

  # Run cross validations.
  cvModel = cv.fit(train)
  lr_cv_predictions = cvModel.transform(test)
  evaluator.evaluate(lr_cv_predictions)
  # 0.8682479784366579

PMML

다양한 머신러닝 개발 플랫폼들이 존재

Scikit-Learn, PyTorch, Tensorflow 등 (Spark MLlib 포함)

다양한 머신러닝 개발 플랫폼이 공통적으로 지원해주는 파일 포맷이 있다면 머신러닝 모델 서빙환경의 통일이 가능!

👉 PMML, MLeap이 대표적인 범용 머신러닝 모델 파일포맷

이러한 공통 파일 포맷이 지원해주는 기능이 미약하여 복잡된 모델의 경우 지원 불가

PMML: Machine Learning 모델을 마크업 언어로 표현해주는 XML 언어 (Predictive Model Markup Language)

간단한 입력 데이터 전처리와 후처리 지원 (하지만 제약사항이 많음)
PySpark에서는 pyspark2pmml 을 사용
- 내부적으로 자바 jar 파일(jpmml-sparkml) 사용
- 너무 복잡함

전체적인 절차

ML Pipeline을 PMML 파일로 저장
- pyspark2pmml 파이썬 모듈 설치 (jar 파일 설치 필요)
- pyspark2pmml.PMMLBuilder 를 이용하여 ML Pipeline을 PMML 파일로 저장
PMML 파일을 기반으로 모델 예측 API로 론치
- Openscoring 프레임워크 (Java)
- AWS SageMaker
- Flask + PyPMML
이 API로 승객정보를 보내고 예측 결과를 받는 클라이언트 코드 작성

예제

머신러닝 모델을 PMML 파일로 저장하는 예제

  from pyspark2pmml import PMMLBuilder

  pmmlBuilder = PMMLBuilder(spark.sparkContext, train_fr, cvModel)
  pmmlBuilder.buildFile("titinic.pmml")

cvModel : 머신러닝 모델 혹은 ML Pipeline
train_fr : 트레이닝셋 데이터프레임

PMML 파일을 PyPPML로 로딩하고 호출하는 예제

  from pypmml import Model

  # loading
  model = Model.load('single_iris_dectree.pmml')

  # predict
  model.predict({'sepal_lenght': 5.1, 'sepal_width': 3.5, 'petal_length': 1.4, 'petal_width': 0.2})

빅데이터 - Spark MLlib

2021-02-04T00:00:00+09:00

빅데이터 - Spark SQL

2021-02-03T00:00:00+09:00

Spark SQL

SQL 이란?
SQL 실습
Spark SQL 이란?
Spark SQL 실습

SQL

구조화된 데이터를 다루는데 사용
- 모든 대용량 데이터 웨어하우스는 SQL 기반
  - Redshift, Snowflake, BigQuery, Hive
- Spark도 SparkSQL을 지원
데이터 분야에서 반드시 익혀야할 기본 기술

관계형 데이터베이스

대표적인 관계형 데이터베이스
- 서버 한대 - MySQL, Postgres, Oracle, …
  - 빠른 응답 속도, 용량 한계
- 데이터 웨어하우스 - Redshift, Snowflake, BigQuery, Hive, …
  - 큰 용량을 지원
관게형 데이터베이스는 테이블이 존재
- 테이블 구조
  - 테이블은 레코드로 구성
  - 레코드는 하나 이상의 필드로 구성
  - 필드(컬럼)는 이름과 타입으로 구성

(예제) 웹서비스 사용자/세션 정보

사용자 ID : 보통 웹서비스에서는 등록된 사용자마다 유일한 ID를 부여
세션 ID : 사용자가 외부 링크 또는 직접 방문해서 올 경우 세션을 생성
- 세션을 만들어낸 소스를 채널이란 이름으로 기록해둠 (시간도 포함)
- 하나의 사용자 ID 는 여러 개의 세션 ID를 가질 수 있음

👉 위 정보를 기반으로 다양한 데이터 분석과 지표 설정 가능 (마케팅, 사용자 트래픽 등)

위의 예제를 데이터베이스와 테이블로 표현

raw_data 데이터베이스
- user_session_channel 테이블
  - 컬럼명: userId, 타입: int
  - 컬럼명: sessionId, 타입: varchar(32)
  - 컬럼명: channel, 타입: varchar(32)
- session_timestamp 테이블
  - 컬럼명: sessionId, 타입: varchar(32)
  - 컬럼명: ts, 타입: timestamp

SQL 소개

SQL(Structured Query Language): 관계형 데이터베이스에 있는 데이터(테이블)를 질의하는 언어

두 종류의 언어로 구성(DDL, DML)

DDL(Data Definition Language): 테이블 구조 정의 언어

CREATE TABLE
DROP TABLE
ALTER TABLE

DML(Data Manipulation Language): 테이블 데이터 조작 언어

SELECT FROM

  SELECT 필드1, 필드2, ...
    FROM 테이블명
   WHERE 선택조건
   ORDER BY 필드지정 [ASC|DESC]
   LIMIT N;

INSERT INTO
UPDATE FROM
DELETE FROM

📌 테이블 조인(JOIN): 두개 이상의 테이블이나 데이터베이스를 연결하여 데이터를 검색하는 방법

INNER JOIN (교집합)
LEFT OUTER JOIN
RIGHT OUTER JOIN
FULL OUTER JOIN (합집합)

🖥️ SQL 실습

colab에서 Redshift 기반 SQL 실습

데이터베이스 테이블 (위의 예제의 테이블)
- raw_data.session_timestamp
- raw_data.user_session_channel
분석할 것들
- 월별 세션 수
- 월별 사용자 수 (MAU; Monthly Active User)
- 월별 채널별 사용자 수

주비터 SQL 엔진 설정

SQL 엔진 로드

  %load_ext sql

관계형 데이터베이스 연결 (AWS의 Redshift)

%sql postgresql://사용자ID:패스워드@호스트:포트번호/접속DB

  # ID와 PW를 자신의 환경에 맞게 수정
  %sql postgresql://guest:Guest1!*@learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/prod

SELECT 실행

일별 세션ID 개수를 세션ID 개수에 대하여 내림차순으로 10개 출력

  %%sql

  SELECT DATE(ts) date, COUNT(sessionID)
    FROM raw_data.session_timestamp
   GROUP BY 1
   ORDER BY 2 DESC
   LIMIT 10;

JOIN 추가

일별 방문 사용자 수

  # raw_data.user_session_channel과 raw_data.session_timestamp 테이블의 조인이 필요
  %%sql

  SELECT DATE(st.ts) date, COUNT(usc.userID)
    FROM raw_data.session_timestamp st
    JOIN raw_data.user_session_channel usc ON st.sessionID = usc.sessionID
   GROUP BY 1
   ORDER BY 1
   LIMIT 10;

‘o’ 를 포함하는 채널의 개수

  %%sql

  SELECT distinct channel FROM raw_data.user_session_channel
  WHERE channel ilike '%o%'

(distinct는 중복 제외, ilike는 소문자 대문자 구분 하지 않음)

pandas와 연동

user_session_channel 테이블 정보 가져오기

result = %sql SELECT * FROM raw_data.user_session_channel
type(result)
# sql.run.ResultSet

df = result.DataFrame()

df.head()
# userid	sessionid	channel
# 0	779	7cdace91c487558e27ce54df7cdb299c	Instagram
# 1	230	94f192dee566b018e0acf31e1f99a2d9	Naver
# 2	369	7ed2d3454c5eea71148b11d0c25104ff	Youtube
# 3	248	f1daf122cde863010844459363cd31db	Naver
# 4	676	fd0efcca272f704a760c3b61dcc70fd0	Instagram

df.groupby(["channel"]).size()
# channel
# Facebook     16791
# Google       16982
# Instagram    16831
# Naver        16921
# Organic      16904
# Youtube      17091
# dtype: int64

df.groupby(["channel"])["sessionid"].count()
# channel
# Facebook     16791
# Google       16982
# Instagram    16831
# Naver        16921
# Organic      16904
# Youtube      17091
# Name: sessionid, dtype: int64

session_timestamp 테이블 정보 가져오기

result = %sql SELECT * FROM raw_data.session_timestamp
df_st = result.DataFrame()

새로운 컬럼 만들기 (date)

df_st['date'] = df_st['ts'].apply(lambda x: "%d-%02d-%02d" % (x.year, x.month, x.day))

date 컬럼별로 세션 수를 카운트하고 date를 기준으로 내림차순 정렬

df_st.groupby(["date"])["sessionid"].count().reset_index(name='count').sort_values("date", ascending=False)

Spark SQL

SparkSQL과 Spark Core의 차이점
SparkSQL의 일반적인 사용법

SparkSQL: 구조화된 데이터 처리를 위한 Spark 모듈

대화형 Spark 셸 제공
Dataframe을 SQL로 처리 가능
- RDD 데이터나 외부 데이터(스토리지나 관계형 데이터베이스)를 Dataframe으로 변환한 후 처리
👉 데이터프레임은 테이블이 되고 sql 함수를 사용 가능
SparkSQL 사용하여 외부 데이터베이스 연결
- 외부 데이터베이스 기반으로 데이터프레임 생성
  - SparkSession의 read 함수를 사용하여 테이블 혹은 SQL 결과를 데이터프레임으로 읽어옴
  - 📌 Redshift 연결 에제
    1. SparkSession을 만들때 외부 데이터베이스에 맞는 JDBC jar 을 지정 (.config 에 지정)
    2. SparkSession의 read 함수를 호출
      - 로그인 정보와 읽어올 테이블 혹은 SQL 지정
      - 결과가 데이터프레임으로 리턴
    3. 리턴된 데이터프레임에 테이블 이름 지정
    4. SparkSession의 sql() 함수 사용

🖥️ Spark SQL 실습

PySpark, Py4J 패키지 설치

!pip install pyspark==3.0.1 py4j==0.10.9

Redshift 관련 JAR 파일을 설치

!cd /usr/local/lib/python3.6/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar

📌 구글 colab 에서의 pyspark의 jars 디렉토리 경로:

/usr/local/lib/python3.6/dist-packages/pyspark/jars

Spark Session

spark.jars를 통해 앞서 다운로드 받은 Redshift 연결을 위한 JDBC 드라이버를 사용함 (.config("spark.jars", ...))

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.jars", "/usr/local/lib/python3.6/dist-packages/pyspark/jars/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar") \
    .getOrCreate()

SparkSQL 맛보기

Pandas로 csv 파일 로드

import pandas as pd

namegender_pd = pd.read_csv("https://s3-geospatial.s3-us-west-2.amazonaws.com/name_gender.csv")

namegender_pd.head()
# name	gender
# 0	Adaleigh	F
# 1	Amryn	Unisex
# 2	Apurva	Unisex
# 3	Aryion	M
# 4	Alixia	F

Pandas 데이터프레임 ➡️ Spark 데이터프레임으로 변환

namegender_df = spark.createDataFrame(namegender_pd)

namegender_df.printSchema()
# root
#  |-- name: string (nullable = true)
#  |-- gender: string (nullable = true)

namegender_df.show()
# +----------+------+
# |      name|gender|
# +----------+------+
# |  Adaleigh|     F|
# |     Amryn|Unisex|
# |    Apurva|Unisex|
# |    Aryion|     M|
# |    Alixia|     F|
# |Alyssarose|     F|
# |    Arvell|     M|
# |     Aibel|     M|
# |   Atiyyah|     F|
# |     Adlie|     F|
# |    Anyely|     F|
# |    Aamoni|     F|
# |     Ahman|     M|
# |    Arlane|     F|
# |   Armoney|     F|
# |   Atzhiry|     F|
# | Antonette|     F|
# |   Akeelah|     F|
# | Abdikadir|     M|
# |    Arinze|     M|
# +----------+------+
# only showing top 20 rows

namegender_df.groupBy(["gender"]).count().collect()
# [Row(gender='F', count=65),
#  Row(gender='M', count=28),
#  Row(gender='Unisex', count=7)]

📌 참고링크: 🔗

데이터프레임을 테이블 뷰로 만들어서 SparkSQL로 처리

createOrReplaceTempView : SparkSession이 살아있는 동안 존재
createGlobalTempView : Spark 드라이버가 살아있는 동안 존재

namegender_df.createOrReplaceTempView("namegender")

namegender_group_df = spark.sql("SELECT gender, count(1) FROM namegender GROUP BY 1")

namegender_group_df.collect()
# [Row(gender='F', count(1)=65),
#  Row(gender='M', count(1)=28),
#  Row(gender='Unisex', count(1)=7)]

Redshift와 연결해서 테이블들을 데이터프레임으로 로딩

user_session_channel_df = spark.read \
    .format("jdbc") \
    .option("driver", "com.amazon.redshift.jdbc42.Driver") \
    .option("url", "jdbc:redshift://learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/prod?user=guest&password=Guest1!*") \
    .option("dbtable", "raw_data.user_session_channel") \
    .load()

session_timestamp_df = spark.read \
    .format("jdbc") \
    .option("driver", "com.amazon.redshift.jdbc42.Driver") \
    .option("url", "jdbc:redshift://learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/prod?user=guest&password=Guest1!*") \
    .option("dbtable", "raw_data.session_timestamp") \
    .load()

type(session_timestamp_df)
# pyspark.sql.dataframe.DataFrame

테이블 뷰 생성 후 해당 뷰를 이용하여 sql 함수 실행

user_session_channel_df.createOrReplaceTempView("user_session_channel")
session_timestamp_df.createOrReplaceTempView("session_timestamp")

channel_count_df = spark.sql("""
    SELECT channel, count(distinct userId) uniqueUsers
    FROM session_timestamp st
    JOIN user_session_channel usc ON st.sessionID = usc.sessionID
    GROUP BY 1
    ORDER BY 1
""")

위의 sql문은 당장 실행되지 않고 아래 .show() 메서드를 호출되면 그때 실행된다 → ⭐Lazy Execution 방식

channel_count_df
# DataFrame[channel: string, uniqueUsers: bigint]

channel_count_df.show()
# +---------+-----------+
# |  channel|uniqueUsers|
# +---------+-----------+
# | Facebook|        889|
# |   Google|        893|
# |Instagram|        895|
# |    Naver|        882|
# |  Organic|        895|
# |  Youtube|        889|
# +---------+-----------+

특정 조건에 맞는 데이터 조회 SQL문 실행 (like 이용): 채널명에 ‘o’를 포함하고 있는 채널의 개수를 출력

channel_with_o_count_df = spark.sql("""
    SELECT COUNT(1)
    FROM user_session_channel
    WHERE channel like '%o%'
""")

channel_with_o_count_df.collect()
# [Row(count(1)=50864)]

빅데이터 - Spark

2021-02-02T00:00:00+09:00

빅데이터

빅데이터 정의와 예
Hadoop
Spark
- 소개
- Spark 프로그래밍 개념(RDD, Dataframe, Dataset)
- Spark vs Pandas
- 데이터 구조
- 개발환경
- 맛보기

빅데이터 정의와 예

빅데이터 정의
- “서버 한대로 처리할 수 없는 규모의 데이터”
- “기존의 소프트웨어로는 처리할 수 없는 규모의 데이터”
  - 오라클이나 MySQL과 같은 관계형 데이터베이스
    - 분산환경을 염두에 두지 않음
    - Scale-up 접근방식 (메모리, CPU, 디스크 추가)
- 4V 관점
  - Volume: 데이터의 크기가 대용량인지
  - Velocity: 데이터의 처리 속도가 중요한지
  - Variety: 구조화/비구조화 데이터인지
  - Veracity: 데이터의 품질이 좋은지
빅데이터 예
- 모바일 디바이스
- 스마트 TV
- 각종 센서 데이터 (IoT 센서)
- 네트워킹 디바이스

Hadoop

대용량 처리 기술이란?
- 분산 환경 기반 (1대 혹은 그 이상의 서버로 구성)
  - 분산 컴퓨팅과 분산 파일 시스템이 필요
- Fault Tolerance : 소수의 서버가 고장나도 동작해야 함
- 확장이 용이해야 함 (Scale Out)

하둡(Hadoop): Doug Cutting이 구글랩 발표 논문들에 기반해 만든 오픈소스 프로젝트

2003년 The Google File System
2004년 MapReduce: Simplified Data processing on Large Cluster

처음 시작은 Nutch라는 오픈 소스 검색엔진의 하부 프로젝트
두 개의 서브 시스템으로 구현됨 (Hadoop 1.0)
- HDFS ← 분산 파일 시스템
- MapReduce ← 분산 컴퓨팅 시스템
  - 새로운 프로그래밍 방식으로 대용량 데이터 처리의 효율을 극대화하는데 맞춤

HDFS

HDFS(Hadoop Distributed File System): 분산 파일 시스템

데이터를 블록단위로 저장
블록 복제 방식 (Replication)
- Fault tolerance를 보장할 수 있는 방식으로 블록들이 저장됨

MapReduce

MapReduce 프로그래밍의 문제점
- 작업에 따라서 복잡해짐
  - Hive 처럼 MapReduce로 구현된 SQL 언어들이 다시 각광을 받게 됨
- 기본적으로 배치 작업에 최적화 (실시간 처리 ❌)
MapReduce 프로그래밍 예제
- Word Count : 문장이 주어지면 단어가 몇번 나오는지 카운트

🔥 하둡(Hadoop)을 이용한 데이터 시스템 구성

하둡은 Data Warehouse에 해당
워크플로우 관리에는 Airflow가 대세

📌 Hadoop 1.0 → Hadoop 2.0

사진출처: http://annovate.blogspot.com/2014/07/big-data-hadoop-1x-vs-hadoop-2x.html

하둡 1.0
- HDFS 위에 MapReduce 라는 분산 컴퓨팅 시스템이 도는 구조
하둡 2.0 (YARN 이라고 부르기도 함)
- 아키텍처가 크게 변경됨
- Spark는 하둡 2.0 위에서 애플리케이션 레이어로 실행됨

Spark

Hadoop은 1세대 빅데이터 처리기술이고

Spark은 2세대 빅데이터 기술이라고 할 수 있다.

Spark: 버클리 대학의 AMPLab에서 아파치 오픈소스 프로젝트로 2013년 시작

하둡의 뒤를 잇는 2세대 빅데이터 기술
- 하둡 2.0을 분산환경으로 사용 가능 (자체 분산환경을 지원하기도 함)
MapReduce의 단점을 대폭적으로 개선
- Pandas와 비슷함 (Pandas는 서버 한대, Spark는 다수 서버 분산환경)
Spark vs MapReduce
- MapReduce
  1. 디스크 기반
  2. 하둡 위에서만 동작
  3. 키와 밸류 기반 프로그래밍
- Spark
  1. 메모리 기반
    - 메모리가 부족해지면 디스크 사용
  2. 하둡(YARN)이외에도 다른 분산 컴퓨팅 환경 지원
  3. 다양한 방식의 컴퓨팅을 지원
    - 배치 프로그래밍, 스트리밍 프로그래밍, SQL, 머신 러닝, 그래프 분석 등
Spark 구조
- Driver Program : 여러개의 병렬적인 작업으로 나뉘어져

Spark 프로그래밍 개념

RDD(Resilient Distributed Dataset)
- 로우레벨 프로그래밍 API로 세밀한 제어가 가능
- 하지만 코딩의 복잡도 증가
DataFrame, Dataset (Pandas의 데이터프레임과 유사)
- 하이레벨 프로그래밍 API로 점점 많이 사용되는 추세
- SparkSQL 사용 시에 사용하게 됨
보통 Scala, Java, Python을 사용

Spark vs Pandas

📌 Pandas

파이썬으로 데이터 분석을 하는데 가장 기본이 되는 모듈 중의 하나
- 소규모의 구조화된 데이터(테이블 형태의 데이터)를 다루는데 최적
  - 작은 크기의 데이터로 제약 (큰 데이터의 경우 Spark 사용)
  - 병렬 처리를 지원하지 않음
Pandas로 할 수 있는 일 예시
- 구조화된 데이터 읽어오고 저장
  - csv, json 등 다양한 포맷 지원
  - 관계형 데이터베이스에서 읽어오는 것도 가능
- 다양한 통계 뽑기
  - 컬럼 별 평균, 표준편차, 상관관계 계산 등
- 데이터 청소 (데이터 전처리)
  - NA 값 처리
  - 정규화(normalization)
- 시각화(visualization)
  - matplotlib를 이용하여 다양한 형태로 시각화

데이터 구조

Spark 세션
- Spark 프로그램의 시작은 SparkSession을 만드는 것
- Spark 세션을 통해 Spark이 제공하는 다양한 기능 사용
  - Spark 컨텍스트, Hive 컨텍스트, SQL 컨텍스트
  - (Spark 2.0 이전에는 기능에 따라 다른 컨텍스트를 생성해야 했음)
Spark 데이터 구조 (3가지)
- RDD (Resilient Distributed Dataset)
  - 로우레벨 데이터로 클러스터내의 서버에 분산된 데이터를 지칭
  - 레코드별로 존재하며 구조화된 데이터나 비구조화된 데이터 모두 지원
- Dataframe, Dataset
  - RDD 위에 만들어지는 하이레벨 데이터로 RDD와는 달리 필드 정보를 가지고 있음 (테이블)
  - Dataset은 Dataframe과 달리 타입 정보가 존재하며 컴파일 언어에서 사용가능
    - 컴파일 언어: Scala/Java에서 사용가능
    - PySpark 에서는 Dataframe을 사용 (SparkSQL을 사용하는 것이 일반적💡)
RDD
- 변경이 불가능한 분산 저장된 데이터
  - RDD는 다수의 파티션으로 구성되고 Spark 클러스터 내 서버들에 나눠 저장됨
  - 로우레벨의 함수형 변환 지원 (map, filter, flatMap 등)
- RDD가 아닌 일반 파이썬 데이터는 parallelize 함수로 RDD로 변환
Dataframe 데이터프레임
- RDD처럼 변경이 불가능한 분산 저장된 데이터
- RDD와 다르게 관계형 데이터베이스 테이블처럼 컬럼으로 나눠 저장
  - pandas의 dataframe과 거의 유사
- 다양한 데이터 소스 지원: 파일, Hive, 외부 데이터베이스, RDD 등
Dataset 데이터셋 (Spark 1.6부터)
- RDD와 SparkSQL의 최적화 엔진 두 가지 장점을 취함
- 타입이 있는 컴파일 언어에서만 사용 가능
  - Scala와 Java 에서만 지원 (Python ❌)

개발 환경

개인 컴퓨터에 설치하고 사용하는 방법
- 설치가 복잡함
- spark-submit을 이용해 실행가능
각종 무료 노트북을 사용하는 방법⭐
- 구글 Colab 이용⭐
- 제플린의 무료 노트북 사용
AWS의 EMR 클러스터 사용하는 방법
- 거의 프로덕션 호나경에 가까움

💻 Spark 실습

PySpark, Py4J 패키지 설치

!pip install pyspark==3.0.1 py4j==0.10.9

!ls -tl
total 4
drwxr-xr-x 1 root root 4096 Feb  1 17:27 sample_data

!ls -tl sample_data
total 55504
-rw-r--r-- 1 root root 18289443 Feb  1 17:27 mnist_test.csv
-rw-r--r-- 1 root root 36523880 Feb  1 17:27 mnist_train_small.csv
-rw-r--r-- 1 root root   301141 Feb  1 17:27 california_housing_test.csv
-rw-r--r-- 1 root root  1706430 Feb  1 17:27 california_housing_train.csv
-rwxr-xr-x 1 root root     1697 Jan  1  2000 anscombe.json
-rwxr-xr-x 1 root root      930 Jan  1  2000 README.md

Spark Session

Spark 2.0 부터 entry point로 사용 (이전에는 SparkContext 사용)
SparkSession 을 이용하여 RDD, 데이터프레임 등을 생성

SparkSeesion.builder 를 호출하여 생성하며, 다양한 함수들을 통해 세부 설정 가능

.master : 클러스터 호스트를 지정
- local → 서버에 놀고 있는 spark
- [] → 숫자를 입력 (는 모두)
.getOrCreate() : appName에 해당하는 객체가 존재하면 그것을 가져오고 없으면 새로 생성

  from pyspark.sql import SparkSession

  spark = SparkSession.builder\
          .master("local[*]")\
          .appName('PySpark_Tutorial')\
          .getOrCreate()

  spark
  # SparkSession - in-memory
  # SparkContext
  # Spark UI

  # Version
  # v3.0.1
  # Master
  # local[*]
  # AppName
  # PySpark_Tutorial

Python 객체를 RDD로 변환

python 리스트 생성

 name_list_json = [ '{"name": "keeyong"}', '{"name": "benjamin"}', '{"name": "claire"}' ]

 import json

 for n in name_list_json:
   jn = json.loads(n)
   print(jn["name"])
 # keeyong
 # benjamin
 # claire

python 리스트를 RDD로 변환

RDD로 변환되는 순간 Spark 클러스터의 서버들에 데이터가 나눠 저장됨 (파티션) → Lazy Execution 방식
.parallelize() : RDD로 변환
.collect() : 파이썬 객체로 출력

 rdd = spark.sparkContext.parallelize(name_list_json)
 rdd
 # ParallelCollectionRDD[4] at readRDDFromFile at PythonRDD.scala:262
 rdd.count()
 # 3

 parsed_rdd = rdd.map(lambda el:json.loads(el))
 parsed_rdd
 # PythonRDD[3] at RDD at PythonRDD.scala:53

 parsed_rdd.collect()
 # [{'name': 'keeyong'}, {'name': 'benjamin'}, {'name': 'claire'}]

python 리스트를 데이터프레임으로 변환

  from pyspark.sql.types import StringType

  df = spark.createDataFrame(name_list_json, StringType())
  df.count()
  # 3

  df.printSchema()
  # root
  #  |-- value: string (nullable = true)

  df.select('*').collect()
  # [Row(value='{"name": "keeyong"}'),
  #  Row(value='{"name": "benjamin"}'),
  #  Row(value='{"name": "claire"}')]

컬럼 이름을 설정

  parsed_name_rdd = rdd.map(lambda el:json.loads(el)["name"])
  parsed_name_rdd.collect()
  # ['keeyong', 'benjamin', 'claire']

  from pyspark.sql import Row

  row = Row("name") # Or some other column name
  df_name = parsed_name_rdd.map(row).toDF()

  df_name.printSchema()
  # root
  # |-- name: string (nullable = true)

  df_name.select('name').collect()
  # [Row(name='keeyong'), Row(name='benjamin'), Row(name='claire')]

빅데이터 - 데이터 팀

2021-02-01T00:00:00+09:00

빅데이터

데이터 팀
- 역할
- 구성원
- 조직구조
모델 개발 시 고려할 점
데이터 관련 교훈

데이터 팀의 역할

데이터 팀의 미션
- 신뢰할 수 있는 데이터를 바탕으로 부가가치 생성
데이터 팀의 목표
- 정책 결정에 사용
  - 결정과학(Decision Science)라고 부르기도 함
    - 데이터 참고 결정(data informed decisions)을 가능하게 함
- 사용자의 서비스 경험 개선
  - 머신 러닝과 같은 데이터 기반 알고리즘을 통해 개선
    - 개인화를 바탕으로 추천과 검색 기능 제공
    - 사람의 개입/도움이 필요

1. 데이터 인프라 구축

데이터 인프라 : 데이터 웨어하우스와 ETL

데이터 웨어하우스란?: 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스 (SQL)

데이터의 크기에 맞게 어떤 데이터베이스를 사용할 지 선택

ETL(Extract, Transform, Load) 이란?: 소스에 존재하는 데이터들을 데이터 웨어하우스로 복사해오는 코드를 지칭

Extract : 외부 데이터 소스에서 데이터를 추출
Transform : 데이터의 포맷을 원하는 형태로 변환
Load : 변환된 데이터를 최종적으로 데이터 웨어하우스로 적재

2. 데이터 분석 수행

데이터 분석이란?: 회사와 팀별 중요 지표(metrics)를 정의하고 대시보스 형태로 시각화(visualization) (중요지표 예: 매출액, 월간 사용자 수 등); 이외에도 데이터와 관련한 다양한 분석/리포팅 업무 수행
시각화 대시보드: 보통 중요한 지표를 시간의 흐름과 보여줌

지표의 경우 3A(Accessible, Actionable, Auditable)가 중요

3. 머신러닝/인공지능 적용

데이터 인프라에 저장된 데이터를 기반으로 지도학습을 통해 머신러닝 모델들을 개발하여 추천, 검색 등을 개인화하는 것이 일반적인 패턴

데이터 팀의 구성원

데이터 엔지니어 (Data Engineer)
- 데이터 인프라 구축 (데이터 웨어하우스, ETL)
데이터 분석가 (Data Analyst)
- 데이터 웨어하우스의 데이터를 기반으로 지표를 만들고 시각화 (대시보드)
데이터 과학자 (Data Scientist)
- 과거 데이터를 기반으로 미래를 예측하는 머신러닝 모델을 만들어 고객들의 서비스 경험을 개선 (개인화, 자동화, 최적화 등)

작은 회사에서는 한 사람이 몇개의 역할을 동시에 수행하기도 한다…

데이터 엔지니어

기본적으로 소프트웨어 엔지니어
- 보통은 파이썬 사용. 자바 혹은 스칼라와 같은 언어도 아는 것이 좋음
데이터 인프라 구축
- 데이터 웨어하우스를 만들고 이를 관리 (보통 클라우드 사용)
  - 예) AWS의 Redshift, 구글 클라우드의 BigQuery, 스노우플레이크(Snowflake)나 오픈 소스 기반의 Hadoop/Spark
- ETL 코드를 작성하고 주기적으로 실행
  - 예) 스케줄러로 Airflow 사용
  - (Airflow는 오픈소스 프로젝트로 파이썬 3 기반이며 에어비앤비, 우버, 리프트, 쿠팡 등에서 사용)
데이터 분석가와 과학자 지원

데이터 분석가

비즈니스 인텔리전스를 책임
- 중요 지표를 정의하고 이를 대시보드 형태로 시각화
  - 예) 대시보드 - 태블로(Tableau), 룩커(Looker) / 오픈소스 - 수퍼셋(Superset) 을 많이 사용
회사 내 다른 팀들의 데이터 관련 질문 대답
필요한 스킬셋
- SQL, 통계적 지식
- 비즈니스 도메인에 관한 깊은 지식 💡
- 보통 코딩은 하지 않음

데이터 과학자

머신러닝 형태로 사용자들의 경험을 개선
- 문제에 맞춰 가설을 세우고 데이터를 수집한 후에 예측 모델을 만들고 이를 테스트
- 테스트는 가능하면 A/B 테스트를 수행하는 것이 좋음
필요한 스킬셋
- 머신러닝/인공지능에 대한 깊은 지식과 경험
- 코딩 능력 (파이썬과 SQL)
- 통계 지식, 수학 지식 (통계 > 수학)
- ⭐끈기와 열정 (박사 학위가 도움이 되는 이유 중의 하나)

📌

A/B 테스트란?: 온라인 서비스에서 새 기능의 임팩트를 객관적으로 측정하는 방법

새로운 기능을 론치함으로 생기는 위험부담을 줄이는 방법
- 100%를 론치하는 것이 아니라 작게 시작하고 관찰 후 결정
- 예) 먼저 5%의 사용자에게만 론치하고 나머지 95%의 사용자와 중요 지표를 비교 → 별 문제 없으면 10%, 20% 점진적으로 키워감
2개의 그룹으로 나누고 시간을 두고 관련 지표를 비교
- 두 그룹의 특성은 비슷해야한다.
가설에 영향을 주는 지표를 미리 정하고 시작

데이터 팀의 조직구조

중앙집중 구조: 모든 데이터 팀원들이 하나의 팀으로 존재
- 일의 우선 순위는 중앙 데이터팀이 최종 결정
- 데이터 팀원들간의 지식과 경험의 공유가 쉬워지고 커리어 경로가 더 잘 보임
- 현업 부서의 만족도가 떨어짐
분산 구조: 데이터 팀이 현업 부서별로 존재
- 일의 우선순위는 각 팀별로 결정
- 지식과 경험의 공유가 힘들고 데이터 인프라나 데이터 공유가 힘들어짐
- 현업 부서의 만족도는 처음에는 좋지만 갈수록 힘들어짐
중앙집중과 분산의 하이드리드 모델
- 가장 이상적인 조직 구조
- 데이터 팀원들은 일부는 중앙에서 인프라적인 일을 수행하고, 일부는 현업팀으로 파견식으로 일하되 주기적으로 일을 변경

모델 개발 시 고려할 점

누군가 모델 개발부터 최종 론치까지 책임질 사람이 필요
모델 개발 초기부터 개발/론치 과정을 구체화하고 소통
- 모델을 어떻게 검증할 것인지?
- 모델을 어떤 형태로 엔지니어들에게 넘길 것인지?
- 모델을 프로덕션에서 A/B 테스트할 것인지?
개발된 모델이 바로 프로덕션에서 론치가능한 프로세스/프레임워크가 필요
- 예) R로 개발된 모델은 바로 프로덕션 론치 불가능
첫 모델 론치는 시작일 뿐 → 운영을 통해 점진적인 개선을 하는 것이 중요
- 피드팩 루프 필요
  - 운영에서 생기는 데이터를 가지고 개선점 찾기
    - 검색이라면 CTR(Click Through Rate)을 모니터링하고 모든 데이터를 기록
  - 주기적으로 모델 재빌딩
    - 온라인 러닝 : 모델이 프로덕션에서 사용되면서 계속적으로 업데이트 되는 방식의 머신러닝
수익 증대 필요
- 데이터를 통해 회사 수익에 긍정적인 영향을 주어야 함
데이터 인프라
- 데이터 인프라 없이는 데이터 분석이나 모델링 불가능
- 고려할 점
  - 클라우드 vs 직접 구성
  - 배치 vs 실시간
데이터 품질
- 데이터 청소 작업 중요 (데이터 품질 유지에 노력 필요)
중요 지표
- 지표를 세우는 것이 중요
- 지표의 계산에 있어서 객관성이 중요

🔥 간단한 솔루션으로 시작하는 것이 좋다. (한 큐에 모델을 완성하는 것 보다는 반복 기반의 점전적인 개발방식이 더 좋다)

📌 요약

데이터 팀의 목표는 신뢰할 수 있는 데이터를 바탕으로 부가가치를 생성하는 것이다.
데이터 직군에는 엔지니어, 분석가, 과학가 이렇게 세 종류가 존재한다.
데이터 팀 조직 구조에는 중앙집중, 분산, 하이브리드의 세 종류가 존재한다.
모델 개발은 론치와 운영에 초점을 맞춰야 한다.
데이터 팀의 존재 여부는 수익 증대이다.
단순한 솔루션이 제일 좋은 솔루션이다. (모든 문제에 딥러닝 사용 ❌)