'머신러닝 파이썬' 카테고리의 글 목록

결측치 대처법 - KNNImputer로 데이터셋의 빈칸 채우기

안녕하세요, 여러분! 오늘은 데이터 전처리 과정 중 결측치를 다루는 데 도움이 되는 KNNImputer에 대해 알아보겠습니다. 때로는 데이터셋에서 결측치가 발생할 수 있습니다. 이러한 결측치를 처리하는 방법 중 하나로 KNNImputer를 사용하여 이웃 값들의 평균으로 채울 수 있습니다. 먼저 아래 코드를 살펴봅시다. import numpy as np from sklearn.impute import KNNImputer # 예제 데이터 생성 data = {'A': [1, 2, np.nan, 4, 5], 'B': [6, np.nan, 8, 9, 10], 'C': [11, 12, 13, np.nan, 15], 'D': [16, 17, 18, 19, 20]} df = pd.DataFrame(data) print..

머신러닝 파이썬 2023. 5. 2. 15:19

pandas value_counts()함수를 이용하여 bar차트 그리기

import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('../data_adp_book/student_data.csv') print(df) df.info() plt.bar(df['grade'].value_counts().index, df['grade'].value_counts().values) print(f"평균성적 {df['grade'].mean()}") plt.show() value_counts() 함수는 pandas의 Series 객체에서 사용할 수 있는 메서드로, 해당 Series에서 값들의 빈도수를 계산하여 반환합니다. 반환되는 값은 새로운 Series 객체이며, 이 객체의 인덱스는 고유한 값들이고, 해당 인덱스의 값은 각 값의..

머신러닝 파이썬 2023. 5. 2. 09:24

대출 소득 데이터 시각화: 샘플 크기에 따른 평균의 분포 비교(feat. seaborn, 중심극한정리)

안녕하세요! 오늘은 파이썬을 사용하여 대출 소득 데이터를 시각화하는 방법에 대해 알아보겠습니다. 우리는 주어진 데이터셋에서 샘플을 추출하고, 이를 시각화하여 샘플 크기에 따른 평균 소득의 분포를 비교하는 과정을 살펴볼 것입니다. 아래에 사용한 파이썬 코드와 함께 설명을 차례대로 살펴보겠습니다. 먼저, 필요한 라이브러리를 임포트합니다. import pandas as pd import seaborn as sns import matplotlib.pyplot as plt 다음으로, 대출 소득 데이터를 읽어온 후, DataFrame에서 Series로 변환합니다. loan_income = pd.read_csv('data_practical_statistics/loans_income.csv').squeeze() 이제 ..

머신러닝 파이썬 2023. 4. 27. 15:16

판다스(Pandas)를 이용한 데이터 처리 기초

안녕하세요 여러분, 오늘은 판다스(Pandas) 라이브러리를 이용하여 기본적인 데이터 처리를 해보는 실습을 진행해볼 것입니다. 먼저, 아이리스 데이터셋을 불러와서 간단한 데이터 선택 방법을 알아봅시다. from sklearn.datasets import load_iris import pandas as pd iris = load_iris() iris = pd.DataFrame(iris.data, columns=iris.feature_names) 위 코드에서는 사이킷런의 load_iris() 함수를 사용하여 아이리스 데이터셋을 불러온 후, 이를 판다스 데이터 프레임으로 변환했습니다. print(iris[1:4]) print(iris[:4]) # compare it with iris[1:4] 위 코드는 슬라이..

머신러닝 파이썬 2023. 4. 20. 10:14

판다스(Pandas)에서 iloc()과 loc()의 차이점 이해하기

안녕하세요 여러분, 오늘 우리는 판다스(Pandas) 라이브러리에서 iloc()과 loc() 두 함수의 차이점에 대해 알아볼 것입니다. 먼저, 아래 코드를 통해 데이터를 준비해봅시다. import pandas as pd from sklearn.datasets import load_iris iris_data = load_iris() iris_df = pd.DataFrame(data=iris_data.data, columns=iris_data.feature_names) 위 코드에서는 사이킷런의 load_iris() 함수를 사용하여 아이리스 데이터셋을 불러온 후, 이를 판다스 데이터 프레임으로 변환했습니다. 이제 우리는 이 데이터 프레임에서 iloc()과 loc()을 사용하여 데이터를 선택할 수 있습니다. p..

머신러닝 파이썬 2023. 4. 20. 09:02

경사하강법을 사용한 선형회귀 문제 풀이(feat. python)

안녕하세요, 여러분! 오늘은 경사하강법(Gradient Descent)을 사용하여 간단한 선형회귀(Linear Regression) 문제를 풀어볼까요? 파이썬 코드를 이용하여 쉽게 이해하고 구현할 수 있습니다. Andrew Ng의 Machine Learning lecture note를 참조했습니다. https://drive.google.com/file/d/10L-uvv2y6VI0Bgtv3-egqnR4JGcBTrlQ/view 먼저 필요한 라이브러리를 불러옵니다. import numpy as np import matplotlib.pyplot as plt 다음과 같은 5개의 샘플 데이터를 사용하겠습니다. X = np.array([1, 2, 3, 4, 5]) y = np.array([2, 4.2, 5.7, 8...

머신러닝 파이썬 2023. 4. 17. 14:08

파이썬을 활용한 데이터 처리 기초: Pandas와 Scikit-learn 소개

오늘은 간단한 파이썬 코드를 통해 pandas와 scikit-learn 라이브러리를 사용하여 데이터 처리를 하는 방법을 알아보겠습니다. 여러분이 이해하기 쉽게 설명하며 진행하겠습니다. 먼저 코드에 사용된 라이브러리들을 불러오겠습니다. import pandas as pd import numpy as np 다음은 세 가지 방법으로 데이터프레임을 생성하는 코드입니다. dataset = np.array([['kor', 70], ['math', 80]]) df = pd.DataFrame(dataset, columns=['class', 'score']) df = pd.DataFrame(data=[['kor', 70], ['math', 80]], columns=['class', 'score']) df = pd.Dat..

머신러닝 파이썬 2023. 4. 14. 09:30

LSTM을 활용한 구글 주가 예측: 딥러닝을 이용한 주식 시장 맛보기 분석(feat. Keras)

LSTM(Long Short-Term Memory)을 사용하여 구글 주가를 예측하는 파이썬 코드를 소개합니다. 코드는 다음과 같은 라이브러리를 사용합니다: numpy, pandas, keras, matplotlib, pandas_datareader, yfinance. import math import numpy as np import pandas as pd from sklearn.preprocessing import MinMaxScaler from keras.models import Sequential from keras.layers import Dense, LSTM import matplotlib.pyplot as plt import pandas_datareader as web import yfinan..

머신러닝 파이썬 2023. 4. 13. 15:23

주가 데이터 군집화 탐색: PCA와 K-means를 활용한 시각적 분석

오늘은 주가 데이터를 활용하여 군집화를 하는 예제를 소개하려고 합니다. 이를 위해 PCA(주성분 분석, Principal Component Analysis)를 사용하겠습니다. 먼저 필요한 라이브러리들을 임포트합니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA 주어진 데이터셋을 pandas를 이용해 불러옵니다. 여기서는 구글 주가 데이터(GOOG-year.csv)를 사용합니다. df = pd.read_csv('dataset/GOOG-year.csv', index_col=..

머신러닝 파이썬 2023. 4. 7. 11:40

matplotlib.pyplot 을 이용하여 dataframe 을 출력하는 다양한 방법

matplotlib.pyplot과 pandas DataFrame을 사용하여 선 그래프를 그리는 다양한 방식을 소개하겠습니다. matplotlib.pyplot의 plt.plot() 사용 import pandas as pd import matplotlib.pyplot as plt # 데이터 읽기 df = pd.read_csv("../dataset/GOOG.csv", index_col=0, parse_dates=True) # plt.plot() 사용하여 선 그래프 그리기 plt.figure() plt.plot(df.index, df['Close'], label="close") plt.plot(df.index, df['High'], label="high") plt.xlabel("Date") plt.ylabel(..

머신러닝 파이썬 2023. 4. 5. 17:34

주식 데이터를 사용하여 K-means 클러스터링을 구현하는 방법(feat. 파이썬, 3D 시각화, Elbow curve)

안녕하세요, 여러분! 오늘은 주식 데이터를 사용하여 K-means 클러스터링을 구현하는 방법에 대해 알아보겠습니다. 이 글에서는 Tesla 주식 데이터를 이용해 클러스터링을 수행하며, 주식 데이터를 분석하는 데 도움이 되는 지표들을 사용해 보겠습니다. 먼저, 필요한 라이브러리들을 불러옵니다. import matplotlib.pyplot as plt import pandas as pd 다음으로, Tesla 주식 데이터를 불러와 날짜 형식을 변환합니다. tsla = pd.read_csv('dataset/TSLA.csv') tsla['Date'] = pd.to_datetime(tsla['Date']) print(tsla.head()) 이어서, 주가 데이터에 대한 이동평균을 계산합니다. 이동평균은 주식의 일정 ..

머신러닝 파이썬 2023. 4. 4. 16:04

주가 데이터를 히스트로그램으로 시각화하기

안녕하세요, 오늘은 파이썬을 이용하여 TSLA 주식 가격 데이터를 분석하는 방법에 대해 살펴보겠습니다. 이 예제에서는 pandas와 matplotlib 라이브러리를 사용하여 주식 데이터를 처리하고 시각화하겠습니다. 먼저, pandas를 이용하여 CSV 파일을 읽어 DataFrame으로 저장하겠습니다. df = pd.read_csv('dataset/TSLA.csv') 그 다음, 'Date' 열의 데이터 타입을 datetime으로 변환하고, 필요한 열들만 선택합니다. df['Date'] = pd.to_datetime(df['Date']) df = df[['Date', 'Close']] 이제 데이터 프레임의 처음 5개 행을 출력해봅니다. print(df.head()) 다음으로, 주어진 데이터를 이용해 이동평균..

머신러닝 파이썬 2023. 3. 31. 14:34

이전 1 2 3 다음

이전 다음

250x250

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

공지사항

Fast Learner

티스토리툴바