Language&Framework&Etc/Pandas
판다스 기본 학습
머리올리자
2023. 2. 19. 23:30
# 인덱스 차이
pd_series = pd.Series([1, 2, 3, 4], index=["일", "이", "삼", "사"])
pd_series_no_idx = pd.Series([1, 2, 3, 4])
index 있을 때
일 1
이 2
삼 3
사 4
dtype: int64
index 없을 때
0 1
1 2
2 3
3 4
dtype: int64
range
pd.Series(range(100, 110))
0 100
1 101
2 102
3 103
4 104
5 105
6 106
7 107
8 108
9 109
dtype: int64
인덱스 접근
pd_series.index
Index(['일', '이', '삼', '사'], dtype='object')
값 접근
pd_series.values
array([1, 2, 3, 4])
시리즈 데이터 이름 정의
pd_series.name = "정보"
pd_series
일 1
이 2
삼 3
사 4
Name: 정보, dtype: int64
시리즈 인덱스 이름 정의
pd_series.index.name = "순서"
pd_series
순서
일 1
이 2
삼 3
사 4
Name: 정보, dtype: int64
여러 시리즈 결합으로 데이터프레임 만들기
s1 = pd.Series([1,2,3,4,5])
s2 = pd.Series([2,3,4,5,1])
s3 = pd.Series([3,4,5,1,2,])
df = pd.DataFrame({'S1': s1,
'S2': s2,
'S3': s3})
S1 S2 S3
0 1 2 3
1 2 3 4
2 3 4 5
3 4 5 1
4 5 1 2
결측치 확인
df.isnull()
df.isna()
# 위 두개는 같은 동작 수행 -> 판다스가 R영향 받았는데 R에서는 na와 null 데이터를 다른 데이터로 구분
df.isin([np.nan])
값의 개수
df.count() #NaN을 제외한 모든 데이터 개수 출력
여러 컬럼들을 가져올 때(리스트 형태로 전달)
df[['Open', 'Close']]
여러 행들을 가져올 때(슬라이싱)
df[0:3]
df['인덱스 탐색 시작 지점':'인덱스 탐색 종료 지점']
# df["2010-01-01" : "2011-01-01"]
column과 날짜지정
아래와 같은 코드를 수행하면 index_col을 그냥 숫자가 아닌 'Data'의 값들을 가져온다.
parse_dates를 수행하면, 내부적으로 날짜 데이터 인식
appl_df = pd.read_csv("../test.csv", index_col='Date', parse_dates=['Date'])
loc, iloc
loc : 인덱스 라벨 값 기반으로 데이터 추출
iloc : 정수형 값으로 데이터 추출
df.loc[행 인덱싱, 열 인덱싱]
# df.loc['2018-10-10':'2018-10-20', ['Open', 'High', 'Low', 'Close']]
df.iloc[행 인덱싱, 열 인덱싱]
# appl_df.iloc[8000:8010, [0, 1, 2, 3]]
iloc :데이터를 정수형으로 전달할 수 있어 문자로 전달하는 것보다 간단하게 사용 가능 / 반면 데이터 수가 많을 때는 원하는 데이터를 쉽게 취득하기 어려움
shift 함수
인덱스에 연결된 데이터를 일정 간격으로 이동시키는 함수.
이전 일자 데이터 혹은 N일 전 데이터를 손쉽게 가져올 수 있음.
pct_change()
현재 값과 이전 요소의 값의 백분율 변화량을 연산하는 함수
pct_change 함수를 사용하면 수익율을 쉽게 계산
diff
변화량 계산
rolling
이동 평균 계산
-> 윈도우 기반 시간 delta 간격으로 새로운 값을 보여준다.
제한된 범위 없이 윈도우 크기로 새로운 시점에 새로운 결괏값을 계산
-> 시간 기반 윈도우
resample
함수의 시간 간격을 재조정하는 기능.
일별 -> 월별 / 월별 -> 일별
- 업 샘플링 : 분 단위, 초 단위로 샘플의 빈도수 증가 : interpolation으로 누락된 데이터를 채워나감
- 다운 샘플링 : 몇 일, 몇 달 단위로 샘플의 빈도수를 감소 : aggregation하는 방법으로 데이터 사용
금융이나 시계열 데이터를 다룰 때는 업 샐플링보다 다운 샘플링을 사용하는 경우가 많음.
주기 기반으로 동작하므로 고정된 크기 내에서 최솟값과 최댓값 사이의 일정 값을 보여주게 된다.
-> 주 기반 윈도우