반응형

파이썬 함수 42

pandas 라이브러리(7) 데이터 정렬 SORTING AND ORDERING

pandas 데이터를 정리할때 오름차순 또는 내림차순으로 데이터를 볼 수 있다. 변수명.sort_values('컬럼명')으로 sort_values 함수를 이용하여 정렬 할 수 있다. #데이터 프레임 작성 df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) df #경력을 오름차순으로 정렬하세요. df.sort_values('Years of Experience') #문자열이면 그 언어 순서대로 정렬한다. df.sort_values('Employ..

파이썬 함수 2022.11.25

pandas 라이브러리(6) 함수 적용 APPLYING FUNCTIONS

데이터 프레임을 실행할때 문자열 데이터를 활용하여 함수를 적용하고 그 값을 다시 새로운 컬럼에 적용할 수 있다. 이때 pandas는 하나하나 일일이 하던 기존 방식과 다르게 데이터 프레임내에 데이터 전체에 함수를 적용하여 빠른 작업을 할 수 있다. 함수 적용 방법은 크게 2가지가 있다. 1. apply 함수를 이용하는 방법 pandas내에 apply 함수를 이용하여 함수를 적용 시킬수 있다. 이때 주의 할점은 변수가 앞에 들어가는 파이썬 기본 함수 가 아닌 함수는 적용할 수 없다. 대신 자신이 def함수를 이용해 정의한 함수들은 적용이 가능하다. import pandas as pd #데이터 프레임 생성 df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'E..

파이썬 함수 2022.11.25

pandas 라이브러리(5) PANDAS OPERATIONS

이번엔 데이터 프레임에 조건을 추가하여 원하는 데이터를 출력하도록 하는 방법을 알아본다. df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) df 위에 데이터에서 조건을 만족하는 사람의 데이터를 가져오려면 이 데이터가 조건에 만족하면 Ture인지 False인지 출력해주어야한다. # 경력이 3년 이상인 사람의 데이터만(행을) 가져오시오 #Ture인지 False인지를 판별해준다. df['Years of Experience']>=3 >>> 0 T..

파이썬 함수 2022.11.24

pandas 라이브러리(4) 카테고리컬 데이터( Categorical Data)

pandas 데이터프레임중 특정 칼럼이 중복인 데이터가 있는데 이 데이터를 카테고리컬 데이터( Categorical Data) 라 한다. 이 카테고리컬 데이터( Categorical Data)는 항목을 찾는데 pandas로 다룰수 있다. #데이터프레임을 외부에서 부르기 때문에 #더 이상 코드로 데이터프레임을 만들지 않는다 df = pd.read_csv('../data/fake_company.csv') df #중복된 데이터는 무엇인가? df['Year'].unique() >>> array([1990, 1991, 1992], dtype=int64) #중복된 데이터의 항목수는 얼마인가? df['Year'].nunique() >>> 3 describe() 함수는 카테고리컬 데이터( Categorical Data..

파이썬 함수 2022.11.24

pandas 라이브러리(3) NaN값 다루기

비어 있는 데이터(NaN)는 인공지능으로 예측할수 없다. 따라서 NaN을 처리하여 데이터 프레임으로 인공지능을 활용할수 있는 상태로 해야한다. NaN을 처리하는데는 2가지 방법이 있다. 1. .dropna() 함수로 NaN을 삭제한다. dropna()함수로 NaN를 삭제할때는 반드시 NaN가 들어는 행이나 열로 삭제된다. 물론 임계값을 설정하여 한행이나 열에 NaN값이 여러개 들어있는 경우만 삭제할수 있긴하다. items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':..

파이썬 함수 2022.11.24

pandas 라이브러리(2) 데이터프레임 컬럼 추가하기, 데이터프레임 불러오기

pandas 라이브러리는 기존에 데이터구조 처럼 수동적으로 for문 등 반복문을 통해서 데이터를 추가하는 방식이 아닌 훨씬 간단한 방식으로 가능하다. 우선 데이터를 특정값으로 변경하는 방식부터 알아보자 import pandas as pd # We create a list of Python dictionaries items2 = [{'bikes': 20, 'pants': 30, 'watches': 35}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5}] df = pd.DataFrame(data=items2, index = ['store1','store2']) # 데이터의 값을 변경! #스토어2의 watches 데이터를 20으로 변경해주세요. df #이미지..

파이썬 함수 2022.11.24

pandas 라이브러리(1) pandas라이브러리 활용

pandas라이브러리는 파이썬 언어로 제작된 데이터 분석용 라이브러리이다. 기존의 데이터 구조보다 기능이 많이 확장되어 다양한 데이터 조작과 가공이 가능하다. 1. pandas의 특징 기본적인 통계 데이터 제공 없는 수치(NaN=Not a Number) 자동 처리 데이터셋 재구조화 통합 인덱싱을 활용한 데이터 조작 2. pandas 호출 하기 #기존 numpy와 똑같이 별명을 붙여 호출한다. import pandas as pd 3. pandas series 데이터 생성 pandas는 pandas series 데이터를 생성 할수 있으며 데이터를 메모리에 저장하면 기존 데이터 구조와 마찬가지로 데이터를 활용한 다양한 함수를 적용할 수 있다. index = ['eggs', 'apples', 'milk', 'b..

파이썬 함수 2022.11.24

numpy 라이브러리(5) 2차원 배열 연산

numpy데이터는 기존list등의 데이터구조와 달리 데이터 단위로 연산이 가능하다. P = np.random.randint(1,10,(3,2)) P >>> array([[7, 3], [4, 1], [9, 7]]) Q = np.random.randint(10,100,(3,2)) Q >>> array([[48, 41], [88, 10], [31, 16]]) #더하기 P+Q >>> array([[55, 44], [92, 11], [40, 23]]) #빼기 >>> array([[-41, -38], [-84, -9], [-22, -9]]) #곱하기 >>> array([[336, 123], [352, 10], [279, 112]]) #나누기 >>> array([[0.14583333, 0.07317073], [0.0..

파이썬 함수 2022.11.23

numpy 라이브러리(4) 데이터 인덱싱과 boolean 연산

numpy라이브러리의 데이터도 다른 데이터 구조들처럼 데이터를 일정 범위 만큼 불러오거나 슬라이싱 할수 있다. 1. 다차원배열의 인덱스 접근 행렬데이터에서 원하는 값을 가져오려면 어느행 어느열인지 numpy에 명시하면 된다. X >>>> array([[ 1, 2, 3, 4, 5], [ 6, 7, 8, 9, 10], [11, 12, 13, 14, 15], [16, 17, 18, 19, 20], [21, 22, 23, 24, 25]]) #콤마의 왼쪽이 행!, 콤마의 오른쪽은 열을 적어준다. X[ 1, 2] >>> 8 X[ 2, 4] >>> 15 2. numpy데이터 슬라이싱 numpy데이터도 다른 데이터구조들처럼 슬라이싱을 할수가 있다. ndarray[start:end] 형식으로 사용된다. x >>> arr..

파이썬 함수 2022.11.23

numpy라이브러리(3) 연산자 함수

numpy 라이브러리는 평균,중앙값, 합계, 표준편차등을 구할수 있는 함수가 있다. 1. sum함수 데이터의 전체의 합계를 알려준다. X >>>> array([[ 15, 32, 79, 84, 81], [ 71, 67, 83, 86, 56], [ 28, 63, 44, 75, 72], [ 43, 84, 22, 7, 100]]) X.sum() >>>> 1192 2. mean 함수 데이터의 전체의 평균을 알려준다. #아까 메모리로 저장된 X활용 X.mean() >>>> 59.6 3. np.median 함수 데이터의 중앙값을 구하는데 2차원 데이터부터는 기존의 median함수가 행렬에서 중앙값을 판별할수 없기에 numpy안에 있는 median함수로 판별한다. X.median() >>>> --------------..

파이썬 함수 2022.11.23