목록AIS 7 (15)
SERi

https://www.kaggle.com/datasets/alexattia/the-simpsons-characters-dataset In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import os import cv2 In [2]: root_dir = 'C:/Users/tpfl1/Desktop/dataset/simpson/simpsons_dataset/' # image_label = os.listdir(root_dir) In [3]: # 캐릭터이름 별 이미지개수 char_dict = {} image_label = os.listdir(root_dir) for c..

다수결 투표 분류기는 Ensemble에 포함된 개별 분류기 중에서 가장 뛰어난 것보다도 정확도가 높을 경우가 많음 예를 들어서 Accuracy. 첫 번째 분류기는 60%의 정확도를 보이고 두 번째는 70%, 세 번째는 80%, N번째는 65% 이렇게 개별적으로 봤을 때는 이런 성능이 쭉 나올 텐데 세번째가 가장 높은 정확도라고 할때 , 80%. 그럼 이 80%보다도 정확도가 높은 경우들이 굉장히 많다는 것이 경험적으로 잘 밝혀졌 여기서 80%가 가장 좋은거면 Ensemble했을 때는 Ensemble 모형은 이 80%보다 더 높다. Weak Learner, Strong Learner Weak와 Strong의 기준? 성능 쉽게 이야기해서 분류 문제는 분류 성능 아니면 Regression 문제는 수치를 예측한..

Ensemble Learning 하나의 모형의 결과만 사용하는것이 아니라 예를 들어서 Decision Tree 모형 하나의 결과만을 사용하는 것이 아니라 예를 들어서 k-NN 모형, Logistic, SVM의 결과가 있을 수 있음 다른 시각을 가지고 나온 결과물들을 다 종합해서 좋은 결과를 내 보자고 하는 게 Ensemble Learning → 실제로 집단 지성과 근본적인 원리는 굉장히 비슷 분류나 회귀 모형들로부터 예측을 수집하고 그다음에 종합하면 일반적으로, 이론적으로 알려져 있기로 단순한 모델 하나보다 더 좋은 예측 성능을 얻을 수 있다는 게 잘 알려져 있다. 여러 분류기나 회귀 모형들, 모형들을 통합해서 하나의 결과물을 내는 그런 일련의 과정들을 통칭해서 Ensemble Learning Ensem..

분류가 어떠한 작업을 하는 것인지 환경이 있고 기계학습 모형이 활동 또는 문제를 해결해야 하는 환경이 있고 환경에서 태스크가 주어지게 되고, 우리는 어떤 performance measure를 정의하게 됩니다. 해당 태스크를 해결했을 때, 문제를 해결했을 때 그걸 잘 했는지 못했는지. 대표적으로 accuracy, error 이런 경험을 통해서 축적된 데이터를 이용해서, 데이터에서 유의미한 패턴들을 찾아내는 작업들이 머신러닝이라고 볼 수 있겠습니다. 머신러닝의 가장 중요한 개념 과거에 패턴, 어떤 input을 넣어줬을 때 output이 나오는 logic 또는 function 또는 pattern의 규칙들을 사람이 직접 입력해줬다면 이제는 데이터를 통해서 학습 머신러닝 모형 세 가지 유형 Supervised L..

머신러닝(Machine Learning) 머신(Machine)이 기계 러닝(Learning)은 학습 ‘기계가 학습한다. 컴퓨터가 학습한다. 인공지능과 머신러닝 개념 인공지능을 구현하는 방법은 여러 가지가 있을 수 있고, 머신러닝은 그 중에 하나인 방법 - 머신러닝이라고 하는 것은 인공지능을 구현하는 한 가지의 방법 머신러닝이라는 게 무엇인가? 머신러닝이라고 하는 건 함수를 학습하는것 - 데이터가 있고 그 다음에 우리가 컴퓨터를 학습시킬 수 있는 알고리즘을 컴퓨터에게 입력을 시켜주면 컴퓨터가 스스로 데이터 안에 있는 유용한 패턴을 찾아서 이와 같이 함수를 찾아주는 것 예시 ; 고양이랑 강아지를 구분. 그러면 어떻게 해야 되느냐? 1. 고양이 사진을 모으고 2. 강아지 사진을 모으고 3. 모아진 데이터를 머..

https://www.kaggle.com/competitions/amazon-employee-access-challenge¶ In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import plotly.express as px from catboost import CatBoostClassifier, Pool from catboost import datasets from sklearn.model_selection import train_test_split from sklearn import metrics from sklearn.ensemble import GradientBoost..

https://dacon.io/competitions/official/235985/data In [95]: import matplotlib.pyplot as plt import numpy as np import pandas as pd import seaborn as sns In [96]: train = pd.read_csv("jeju_car/train.csv") test = pd.read_csv("jeju_car/test.csv") train.shape, test.shape Out[96]: ((4701217, 23), (291241, 22)) In [97]: info = pd.read_csv("jeju_car/data_info.csv", index_col="변수명") info Out[97]: 변수 설명 ..
보호되어 있는 글입니다.