안녕하세요, 여러분! 오늘은 데이터 전처리 과정 중 결측치를 다루는 데 도움이 되는 KNNImputer에 대해 알아보겠습니다. 때로는 데이터셋에서 결측치가 발생할 수 있습니다. 이러한 결측치를 처리하는 방법 중 하나로 KNNImputer를 사용하여 이웃 값들의 평균으로 채울 수 있습니다. 먼저 아래 코드를 살펴봅시다. import numpy as np from sklearn.impute import KNNImputer # 예제 데이터 생성 data = {'A': [1, 2, np.nan, 4, 5], 'B': [6, np.nan, 8, 9, 10], 'C': [11, 12, 13, np.nan, 15], 'D': [16, 17, 18, 19, 20]} df = pd.DataFrame(data) print..

import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('../data_adp_book/student_data.csv') print(df) df.info() plt.bar(df['grade'].value_counts().index, df['grade'].value_counts().values) print(f"평균성적 {df['grade'].mean()}") plt.show() value_counts() 함수는 pandas의 Series 객체에서 사용할 수 있는 메서드로, 해당 Series에서 값들의 빈도수를 계산하여 반환합니다. 반환되는 값은 새로운 Series 객체이며, 이 객체의 인덱스는 고유한 값들이고, 해당 인덱스의 값은 각 값의..
안녕하세요! 오늘은 파이썬을 사용하여 대출 소득 데이터를 시각화하는 방법에 대해 알아보겠습니다. 우리는 주어진 데이터셋에서 샘플을 추출하고, 이를 시각화하여 샘플 크기에 따른 평균 소득의 분포를 비교하는 과정을 살펴볼 것입니다. 아래에 사용한 파이썬 코드와 함께 설명을 차례대로 살펴보겠습니다. 먼저, 필요한 라이브러리를 임포트합니다. import pandas as pd import seaborn as sns import matplotlib.pyplot as plt 다음으로, 대출 소득 데이터를 읽어온 후, DataFrame에서 Series로 변환합니다. loan_income = pd.read_csv('data_practical_statistics/loans_income.csv').squeeze() 이제 ..
안녕하세요 여러분, 오늘은 판다스(Pandas) 라이브러리를 이용하여 기본적인 데이터 처리를 해보는 실습을 진행해볼 것입니다. 먼저, 아이리스 데이터셋을 불러와서 간단한 데이터 선택 방법을 알아봅시다. from sklearn.datasets import load_iris import pandas as pd iris = load_iris() iris = pd.DataFrame(iris.data, columns=iris.feature_names) 위 코드에서는 사이킷런의 load_iris() 함수를 사용하여 아이리스 데이터셋을 불러온 후, 이를 판다스 데이터 프레임으로 변환했습니다. print(iris[1:4]) print(iris[:4]) # compare it with iris[1:4] 위 코드는 슬라이..
안녕하세요 여러분, 오늘 우리는 판다스(Pandas) 라이브러리에서 iloc()과 loc() 두 함수의 차이점에 대해 알아볼 것입니다. 먼저, 아래 코드를 통해 데이터를 준비해봅시다. import pandas as pd from sklearn.datasets import load_iris iris_data = load_iris() iris_df = pd.DataFrame(data=iris_data.data, columns=iris_data.feature_names) 위 코드에서는 사이킷런의 load_iris() 함수를 사용하여 아이리스 데이터셋을 불러온 후, 이를 판다스 데이터 프레임으로 변환했습니다. 이제 우리는 이 데이터 프레임에서 iloc()과 loc()을 사용하여 데이터를 선택할 수 있습니다. p..

안녕하세요, 여러분! 오늘은 경사하강법(Gradient Descent)을 사용하여 간단한 선형회귀(Linear Regression) 문제를 풀어볼까요? 파이썬 코드를 이용하여 쉽게 이해하고 구현할 수 있습니다. Andrew Ng의 Machine Learning lecture note를 참조했습니다. https://drive.google.com/file/d/10L-uvv2y6VI0Bgtv3-egqnR4JGcBTrlQ/view 먼저 필요한 라이브러리를 불러옵니다. import numpy as np import matplotlib.pyplot as plt 다음과 같은 5개의 샘플 데이터를 사용하겠습니다. X = np.array([1, 2, 3, 4, 5]) y = np.array([2, 4.2, 5.7, 8...
오늘은 간단한 파이썬 코드를 통해 pandas와 scikit-learn 라이브러리를 사용하여 데이터 처리를 하는 방법을 알아보겠습니다. 여러분이 이해하기 쉽게 설명하며 진행하겠습니다. 먼저 코드에 사용된 라이브러리들을 불러오겠습니다. import pandas as pd import numpy as np 다음은 세 가지 방법으로 데이터프레임을 생성하는 코드입니다. dataset = np.array([['kor', 70], ['math', 80]]) df = pd.DataFrame(dataset, columns=['class', 'score']) df = pd.DataFrame(data=[['kor', 70], ['math', 80]], columns=['class', 'score']) df = pd.Dat..

LSTM(Long Short-Term Memory)을 사용하여 구글 주가를 예측하는 파이썬 코드를 소개합니다. 코드는 다음과 같은 라이브러리를 사용합니다: numpy, pandas, keras, matplotlib, pandas_datareader, yfinance. import math import numpy as np import pandas as pd from sklearn.preprocessing import MinMaxScaler from keras.models import Sequential from keras.layers import Dense, LSTM import matplotlib.pyplot as plt import pandas_datareader as web import yfinan..

오늘은 주가 데이터를 활용하여 군집화를 하는 예제를 소개하려고 합니다. 이를 위해 PCA(주성분 분석, Principal Component Analysis)를 사용하겠습니다. 먼저 필요한 라이브러리들을 임포트합니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA 주어진 데이터셋을 pandas를 이용해 불러옵니다. 여기서는 구글 주가 데이터(GOOG-year.csv)를 사용합니다. df = pd.read_csv('dataset/GOOG-year.csv', index_col=..
matplotlib.pyplot과 pandas DataFrame을 사용하여 선 그래프를 그리는 다양한 방식을 소개하겠습니다. matplotlib.pyplot의 plt.plot() 사용 import pandas as pd import matplotlib.pyplot as plt # 데이터 읽기 df = pd.read_csv("../dataset/GOOG.csv", index_col=0, parse_dates=True) # plt.plot() 사용하여 선 그래프 그리기 plt.figure() plt.plot(df.index, df['Close'], label="close") plt.plot(df.index, df['High'], label="high") plt.xlabel("Date") plt.ylabel(..

안녕하세요, 여러분! 오늘은 주식 데이터를 사용하여 K-means 클러스터링을 구현하는 방법에 대해 알아보겠습니다. 이 글에서는 Tesla 주식 데이터를 이용해 클러스터링을 수행하며, 주식 데이터를 분석하는 데 도움이 되는 지표들을 사용해 보겠습니다. 먼저, 필요한 라이브러리들을 불러옵니다. import matplotlib.pyplot as plt import pandas as pd 다음으로, Tesla 주식 데이터를 불러와 날짜 형식을 변환합니다. tsla = pd.read_csv('dataset/TSLA.csv') tsla['Date'] = pd.to_datetime(tsla['Date']) print(tsla.head()) 이어서, 주가 데이터에 대한 이동평균을 계산합니다. 이동평균은 주식의 일정 ..

안녕하세요, 오늘은 파이썬을 이용하여 TSLA 주식 가격 데이터를 분석하는 방법에 대해 살펴보겠습니다. 이 예제에서는 pandas와 matplotlib 라이브러리를 사용하여 주식 데이터를 처리하고 시각화하겠습니다. 먼저, pandas를 이용하여 CSV 파일을 읽어 DataFrame으로 저장하겠습니다. df = pd.read_csv('dataset/TSLA.csv') 그 다음, 'Date' 열의 데이터 타입을 datetime으로 변환하고, 필요한 열들만 선택합니다. df['Date'] = pd.to_datetime(df['Date']) df = df[['Date', 'Close']] 이제 데이터 프레임의 처음 5개 행을 출력해봅니다. print(df.head()) 다음으로, 주어진 데이터를 이용해 이동평균..