컴굥일지

01. 데이터 사이언스 본문

프로그래밍 강의/코드잇-데이터 사이언스 입문

01. 데이터 사이언스

gyong 2021. 9. 16. 23:20
반응형

1. 데이터 사이언스

- 데이터 과학이란, 다양한 데이터로부터 지식과 인사이트를 추출하는 분야이다.

- 데이터 사이언스는 데이터와 연관된 모든 것을 의미한다.

- 데이터 사이언스에 필요한 역량은 프로그래밍, 수학과 통계, 그리고 특정 분야에 대한 전문성이다.

 

* 사람들이 하는 흔한 오해 *

1. 데이터 사이언스에서 가장 중요한 건 인공지능, 딥러닝이다.  => X

- 인공지능 밑의 과정 또한 매우 중요하다. 인공지능은 할 수 있으면 좋지만 그 밑의 과정만으로도 유의미한 결과를 낼 수 있다.

 

2. 데이터 사이언티스트들은 왠지 하루 종일 컴퓨터랑 수학만 하는 사람일 것 같다. => X

- 수학과 통계가 모두 중요하기는 하다. 그러나 가장 중요한 것은 아니다.

- 데이터 사이언스의 목표는 세상에 가치를 더할 수 있는 문제를 찾아내어 데이터를 이용해 그 문제를 해결하는 일이다.

=> 데이터 사이언스는 그저 기술적인 분야 만은 아니다. 어떤 문제인지를 잘 파악하고, 그 문제를 창의적으로 해결해 나가기 위해 인사이트와 커뮤니케이션이 필요하다. 통계, 프로그래밍 모두 필요하지만, 그것 이외의 많은 역량이 필요하다.

 

 

2. 데이터 사이언스를 위한 도구: 파이썬(Python)

- 데이터 사이언스를 위한 언어를 꼽자면 대표적으로 R과 Python이 있다.

 

1) R

- 통계와 시각화를 위해 만들어진 언어 => 데이터 분석이나 시각화를 할 수 있는 툴이 매우 많다.

- 데이터 분석의 도구가 잘 갖춰짐

 

2) Python

- 다양한 분야에서 두루두루 사용 가능한 언어 => 데이터 관련 일을 웹 개발이나 다른 쪽에 접목시키기 유리하다.

- 데이터 분석의 도구가 평범

- numpy나 pandas 같은 파이썬 라이브러리들이 R의 장점들을 많이 가져오기 시작했고, 최근에는 TensorFlow 같은 것이 생겨서 파이썬의 인기가 많아졌다.

- 간단하고 직관적이기 때문에, R에 비해 처음 배우기 좋은 언어이다.

 

 

3. 데이터 사이언스의  과정

- 문제 정의하기 => 데이터 모으기 => 데이터 다듬기 => 데이터 분석하기 => 데이터 시각화 및 커뮤니케이션

 

1) 문제 정의하기

- 맨 처음 단계로서, 해결하고자 하는 문제를 정의하는 단계이다.

- 목표, 기간, 평가 방법, 필요한 데이터 등을 설정해야 한다. 아무런 목적 없이 데이터를 살피면, 의미있는 발견을 하기 어렵기 때문에 이런 과정이 필요하다.

 

2) 데이터 모으기

- 필요한 데이터를 모을 수 있는 방법을 찾아야 한다.

- 웹 크롤링, 자료 모으기, 파일 읽고 쓰기 등, 누군가 모아둔 데이터를 활용할 수도 있고, 공공 기관 등에서 배포한 자료를 찾아볼 수도 있고, 웹 사이트에서 직접 데이터를 수집할 수도 있다.

 

3) 데이터 다듬기

- 데이터를 다듬어 퀄리티를 높여서 의미 있는 분석이 가능하도록 해야한다.

- "쓰레기를 넣으면 쓰레기가 나온다"라는 표현이 있을 정도로, 우리가 수집한 데이터에는 많은 문제가 있을 수 있고, 이로 인해 분석이 불가하거나 잘못 이루어지는 경우도 있다. 그렇기 때문에 데이터를 다듬는 과정이 꼭 필요하다.

- 데이터 관찰, 데이터 오류 제거, 데이터 정리 등의 과정을 거쳐야 한다.

 

4) 데이터 분석하기

- 위의 여러 과정에서 준비한 데이터로부터 의미를 찾는 과정이다.

- 데이터 파악 및 변형, 통계 분석, 인사이트 발견, 의미 도출 등의 과정을 거친다.

- 이 과정은 통계를 이용하여 수치적으로도 할 수 있고, 여러 종류의 그래프를 그리면서 탐색할 수도 있다. 

 

5) 커뮤니케이션

- 분석 결과를 다른 사람들에게 전달하는 과정이다.

- 자료를 시각화하거나, 레포트를 작성하거나 다양한 방법으로 다른 사람들에게 전달해야 프로젝트가 원활하게 이루어진다.

반응형
Comments