컴굥일지
01. 데이터 사이언스 본문
1. 데이터 사이언스
- 데이터 과학이란, 다양한 데이터로부터 지식과 인사이트를 추출하는 분야이다.
- 데이터 사이언스는 데이터와 연관된 모든 것을 의미한다.
- 데이터 사이언스에 필요한 역량은 프로그래밍, 수학과 통계, 그리고 특정 분야에 대한 전문성이다.
* 사람들이 하는 흔한 오해 *
1. 데이터 사이언스에서 가장 중요한 건 인공지능, 딥러닝이다. => X
- 인공지능 밑의 과정 또한 매우 중요하다. 인공지능은 할 수 있으면 좋지만 그 밑의 과정만으로도 유의미한 결과를 낼 수 있다.
2. 데이터 사이언티스트들은 왠지 하루 종일 컴퓨터랑 수학만 하는 사람일 것 같다. => X
- 수학과 통계가 모두 중요하기는 하다. 그러나 가장 중요한 것은 아니다.
- 데이터 사이언스의 목표는 세상에 가치를 더할 수 있는 문제를 찾아내어 데이터를 이용해 그 문제를 해결하는 일이다.
=> 데이터 사이언스는 그저 기술적인 분야 만은 아니다. 어떤 문제인지를 잘 파악하고, 그 문제를 창의적으로 해결해 나가기 위해 인사이트와 커뮤니케이션이 필요하다. 통계, 프로그래밍 모두 필요하지만, 그것 이외의 많은 역량이 필요하다.
2. 데이터 사이언스를 위한 도구: 파이썬(Python)
- 데이터 사이언스를 위한 언어를 꼽자면 대표적으로 R과 Python이 있다.
1) R
- 통계와 시각화를 위해 만들어진 언어 => 데이터 분석이나 시각화를 할 수 있는 툴이 매우 많다.
- 데이터 분석의 도구가 잘 갖춰짐
2) Python
- 다양한 분야에서 두루두루 사용 가능한 언어 => 데이터 관련 일을 웹 개발이나 다른 쪽에 접목시키기 유리하다.
- 데이터 분석의 도구가 평범
- numpy나 pandas 같은 파이썬 라이브러리들이 R의 장점들을 많이 가져오기 시작했고, 최근에는 TensorFlow 같은 것이 생겨서 파이썬의 인기가 많아졌다.
- 간단하고 직관적이기 때문에, R에 비해 처음 배우기 좋은 언어이다.
3. 데이터 사이언스의 과정
- 문제 정의하기 => 데이터 모으기 => 데이터 다듬기 => 데이터 분석하기 => 데이터 시각화 및 커뮤니케이션
1) 문제 정의하기
- 맨 처음 단계로서, 해결하고자 하는 문제를 정의하는 단계이다.
- 목표, 기간, 평가 방법, 필요한 데이터 등을 설정해야 한다. 아무런 목적 없이 데이터를 살피면, 의미있는 발견을 하기 어렵기 때문에 이런 과정이 필요하다.
2) 데이터 모으기
- 필요한 데이터를 모을 수 있는 방법을 찾아야 한다.
- 웹 크롤링, 자료 모으기, 파일 읽고 쓰기 등, 누군가 모아둔 데이터를 활용할 수도 있고, 공공 기관 등에서 배포한 자료를 찾아볼 수도 있고, 웹 사이트에서 직접 데이터를 수집할 수도 있다.
3) 데이터 다듬기
- 데이터를 다듬어 퀄리티를 높여서 의미 있는 분석이 가능하도록 해야한다.
- "쓰레기를 넣으면 쓰레기가 나온다"라는 표현이 있을 정도로, 우리가 수집한 데이터에는 많은 문제가 있을 수 있고, 이로 인해 분석이 불가하거나 잘못 이루어지는 경우도 있다. 그렇기 때문에 데이터를 다듬는 과정이 꼭 필요하다.
- 데이터 관찰, 데이터 오류 제거, 데이터 정리 등의 과정을 거쳐야 한다.
4) 데이터 분석하기
- 위의 여러 과정에서 준비한 데이터로부터 의미를 찾는 과정이다.
- 데이터 파악 및 변형, 통계 분석, 인사이트 발견, 의미 도출 등의 과정을 거친다.
- 이 과정은 통계를 이용하여 수치적으로도 할 수 있고, 여러 종류의 그래프를 그리면서 탐색할 수도 있다.
5) 커뮤니케이션
- 분석 결과를 다른 사람들에게 전달하는 과정이다.
- 자료를 시각화하거나, 레포트를 작성하거나 다양한 방법으로 다른 사람들에게 전달해야 프로젝트가 원활하게 이루어진다.
'프로그래밍 강의 > 코드잇-데이터 사이언스 입문' 카테고리의 다른 글
04. Numpy_1 (0) | 2021.09.23 |
---|---|
03. Jupyter 사용하기 (0) | 2021.09.21 |
02. 주피터 노트북(Jupyter Notebook) 설치하기 - for Windows User (0) | 2021.09.17 |