빅데이터 - Spark MLlib 모델 튜닝, PMML
Spark MLlib
Spark MLlib 모델 튜닝
ML Pipeline 기반 머신러닝 모델 만들기
머신러닝 모델을 API를 이용하여 서빙하기
Spark 내용 총 정리
Spark MLlib 모델 튜닝
(ML Tuning)
최적의 하이퍼 파라미터 선택
최적의 모델 혹은 모델의 파라미터를 찾는 것이 아주 중요
하나씩 테스트 하는 것 vs 다수를 동시에 테스트 하는 것
모델 선택의 중요한 부분은 테스트 방법
홀드 아웃, 교차 검증
👉 보통 ML Pipeline 과 같이...
빅데이터 - Spark SQL
Spark SQL
SQL 이란?
SQL 실습
Spark SQL 이란?
Spark SQL 실습
SQL
구조화된 데이터를 다루는데 사용
모든 대용량 데이터 웨어하우스는 SQL 기반
Redshift, Snowflake, BigQuery, Hive
Spark도 SparkSQL을 지원
데이터 분야에서 반드시 익혀야할 기본 기술
관계형 데이터베이스
대표적인 관계형 데이터베이스
서버 한대 - MySQL, Postgres, Oracle, …
...
빅데이터 - Spark
빅데이터
빅데이터 정의와 예
Hadoop
Spark
소개
Spark 프로그래밍 개념(RDD, Dataframe, Dataset)
Spark vs Pandas
데이터 구조
개발환경
맛보기
빅데이터 정의와 예
빅데이터 정의
“서버 한대로 처리할 수 없는 규모의 데이터”
“기존의 소프트웨어로는 처리할 수 없는 규모의 데이터”
오라클이나 MySQL과 같은 관계형 데이터베이스
분산환경을 염두에 두지 않...
빅데이터 - 데이터 팀
빅데이터
데이터 팀
역할
구성원
조직구조
모델 개발 시 고려할 점
데이터 관련 교훈
데이터 팀의 역할
데이터 팀의 미션
신뢰할 수 있는 데이터를 바탕으로 부가가치 생성
데이터 팀의 목표
정책 결정에 사용
결정과학(Decision Science)라고 부르기도 함
데이터 참고 결정(data informed decisions)을 가능하게 함
...