안녕하세요 에이든입니다.

현재 저는 비전공자로서 데이터 사이언스 공부를 하고 있는데요,

정확하게는 아직 프로그래밍 언어를 배우는 단계입니다.

 

현재 제가 공부하고 있는 언어는 Python, MYSQL 2가지인데요,

차후 Tableau 및 R 언어에 대한 필요성도 느끼고 있습니다.

부가적으로 Excel도...

 

아래에 적는 내용들은 저의 개인적인 공부입니다.

100% 정확한 내용들이 아니니 참고만 바랍니다.

 

1. Python

: 파이썬은 여러 프로그래밍 언어 중, 배우기 쉽고, 접근성이 높은 언어로 여겨지는데요,

데이터 사이언스 업무 시에는 필수적인 언어 중 하나입니다.

태블루(Tableau)와 같이, 데이터 시각화를 위한 프로그램도 있지만,

파이썬은 코드를 통해서 데이터 시각화 및 통계 분석, 계산 등이 모두 가능합니다.

 

2. 라이브러리(Library) 또는 패키지

: 라이브러리는 필요한 기능들을 미리 만들어 놓은 것이라 생각하면 됩니다.

예를 들어, 대표적인 라이브러리 중 하나인 numpy에서  'numpy.linspace(1,10,10)'이라고 입력하면,

'1에서 10까지를 10개의 간격으로 만든다.'는 의미인데, 이걸 하나하나 코드로 짤 필요 없이

라이브러리에 저장된 'linspace'라는 함수를 불러서 만드는 것입니다.

일반적으로 '메소드 -> 함수 -> 모듈 -> 패키지 -> 라이브러리' 순으로 보면 됩니다.

 

제가 배우고 있는 라이브러리(패키지)는 대표적으로 'Numpy, Pandas, Matplotlib, Seaborn, Plotly 등'이 있습니다.

 

3. Anaconda

: 공식적인 파이썬자체에서 기본적인 패키지를 여러 개 포함해서 배포된 버전입니다. 다이어리를 예로 들어보면,

그냥 줄만 있는 공책에서, 일별, 주별, 월별 달력을 포함시키고, 거기에 세계 지도 등을 넣고 하는 식으로

다이어리를 구성한다고 가정해보면, 여기서 달력이나 지도 등은 패키지가 되는 것이고,

기본적인 패키지가 포함된 다이어리가 아나콘다입니다.

 

빈공책 = 파이썬 / 달력, 지도 등 = 패키지 / 기본구성이 완료된 다이어리 = 아나콘다

 

 

라이브러리 공부하기(MAC os기준)

 

1. Numpy

The fundamental package for scientific computing with Python.

-  파이썬으로 과학적 계산을 하기 위한 기본적인 패키지라고 홈페이지에 나와있습니다.

 

pip install numpy

- numpy 라이브러리를 다운받는 과정입니다. 라이브러리를 사용하려면 우선 다운로드가 되어 있어야겠죠? 보통 다운로드는 terminal을 통해 이루어집니다.

 

import numpy as np

- numpy 라이브러리를 np라는 이름으로 호출했습니다. 매번 numpy라고 작성하기 어려우니, np라는 이름으로 단축시킵니다.

 

np.zeros(10)

0이 10개 들어있는 numpy 배열을 만듭니다.

 

arange(x,y,z) : x에서 y까지 z값 간격으로 배열합니다. 이 때  z는 기본값이 1입니다.

간격 디폴트값은 1입니다.

reshape(n,n) : numpy 배열의 모양을 바꿔주는 메소드.

1열로 9개의 숫자가 적혀있는 배열을 3x3 배열로 바꿔줍니다.

 

np.random.randn(n) : random 자체는 임의로 숫자를 선택하는 것인데, randn이 붙으면서 정규분포에서 n개의 값을 뽑아냅니다.

random.randn(n) n개의 값을 정규분포에서 랜덤으로 가져옵니다.

https://numpy.org/doc/stable/reference/index.html

 

NumPy Reference — NumPy v1.23 Manual

 

numpy.org

numpy에 대해 더 공부하고 싶다면, 해당 사이트를 참고하시면 도움이 많이 됩니다.

+ Recent posts