빅데이터 - Spark MLlib 모델 튜닝, PMML

Spark MLlib Spark MLlib 모델 튜닝 ML Pipeline 기반 머신러닝 모델 만들기 머신러닝 모델을 API를 이용하여 서빙하기 Spark 내용 총 정리 Spark MLlib 모델 튜닝 (ML Tuning) 최적의 하이퍼 파라미터 선택 최적의 모델 혹은 모델의 파라미터를 찾는 것이 아주 중요 하나씩 테스트 하는 것 vs 다수를 동시에 테스트 하는 것 모델 선택의 중요한 부분은 테스트 방법 홀드 아웃, 교차 검증 👉 보통 ML Pipeline 과 같이...

더보기

빅데이터 - Spark SQL

Spark SQL SQL 이란? SQL 실습 Spark SQL 이란? Spark SQL 실습 SQL 구조화된 데이터를 다루는데 사용 모든 대용량 데이터 웨어하우스는 SQL 기반 Redshift, Snowflake, BigQuery, Hive Spark도 SparkSQL을 지원 데이터 분야에서 반드시 익혀야할 기본 기술 관계형 데이터베이스 대표적인 관계형 데이터베이스 서버 한대 - MySQL, Postgres, Oracle, … ...

더보기

빅데이터 - Spark

빅데이터 빅데이터 정의와 예 Hadoop Spark 소개 Spark 프로그래밍 개념(RDD, Dataframe, Dataset) Spark vs Pandas 데이터 구조 개발환경 맛보기 빅데이터 정의와 예 빅데이터 정의 “서버 한대로 처리할 수 없는 규모의 데이터” “기존의 소프트웨어로는 처리할 수 없는 규모의 데이터” 오라클이나 MySQL과 같은 관계형 데이터베이스 분산환경을 염두에 두지 않...

더보기

빅데이터 - 데이터 팀

빅데이터 데이터 팀 역할 구성원 조직구조 모델 개발 시 고려할 점 데이터 관련 교훈 데이터 팀의 역할 데이터 팀의 미션 신뢰할 수 있는 데이터를 바탕으로 부가가치 생성 데이터 팀의 목표 정책 결정에 사용 결정과학(Decision Science)라고 부르기도 함 데이터 참고 결정(data informed decisions)을 가능하게 함 ...

더보기