Bankruptcy: 기업 파산 데이터셋

목차

1. 데이터 설명 및 보기

1-1. 데이터 불러오기

•

변수 정보

Bankrupt? : 파산 여부 (0 : N, 1 : Y)

ROA(C) : 이자 부여 전, 감가상각 전의 수익률

ROA(A) : 이자 부여 전, 세후 수익률

ROA(B) : 이자 부여 전, 세후 + 감가상각 후의 수익률

Operating Gross Margin : 영업총이익 (총이익/순매출) - OGM

Realized Sales Gross Margin : 실현된 매출총이익 (실현된 총이익/순매출) - RGM

Operating Profit Rate : 영업이익률 (영업이익/순매출) - OPR

Pre-tax net Interest Rate : 세전 순이자율 (세전이익/순매출)

After-tax net Interest Rate : 세후 순이자율 (순이익/순매출)

10.

Tax rate : 유효세율

11.

Net Value Per Share : 주당 순자산가치 ((자산-부채)/발행주식 수) - BPS

•

감가상각 : 고정자산에 투자한 금액을 유효기간 내에 회수하는 것. (가치감소 현상을 반영)

•

유효세율 : 세금을 차감하기 전 순이익. 즉, 세전소득에서 세금이 차지하는 비율.

•

순매출 : 총매출 - (은행이자, 운영비용 등의 합)

•

영업수익(매출) - 매출원가 = 매출총이익

•

매출총이익 - 관리비 = 영업이익

•

영업이익 - 영업외비용 = 세전이익

•

세전이익 - 법인세비용(세금) = 순이익

•

주당 순자산가치(BPS) - 기업이 활동을 중단한 뒤 그 자산을 모든 주주들에게 나눠줄 경우 1주당 얼마씩 배분되는가를 나타내는 것으로, BPS가 높을수록 수익성 및 재무건전성이 높아 투자가치가 높은 기업이라 할 수 있음.

import pandas as pd
import matplotlib as mpl
import matplotlib.pylab as plt
import seaborn as sns
import numpy as np

file_path = 'Bankruptcy/bank.csv'

b_data = pd.read_csv(file_path)

b_data
Python
복사

1-2. 데이터 백업

b_data_copy_backup = b_data.copy()
b_data.to_csv('Bankruptcy/bank.csv')

file_path = 'Bankruptcy/bank.csv'
b_data_csv_backup = pd.read_csv(file_path)
b_data_csv_backup.drop(['Unnamed: 0'], axis = 1, inplace = True)
b_data_csv_backup
Python
복사

b_data.info()
Python
복사

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6819 entries, 0 to 6818
Data columns (total 11 columns):
 #   Column                        Non-Null Count  Dtype
---  ------                        --------------  -----
 0   Bankrupt?                     6819 non-null   int64
 1    ROA(C)                       6819 non-null   float64
 2    ROA(A)                       6819 non-null   float64
 3    ROA(B)                       6819 non-null   float64
 4    Operating Gross Margin       6819 non-null   float64
 5    Realized Sales Gross Margin  6819 non-null   float64
 6    Operating Profit Rate        6819 non-null   float64
 7    Pre-tax net Interest Rate    6819 non-null   float64
 8    After-tax net Interest Rate  6819 non-null   float64
 9    Tax rate                     6819 non-null   float64
 10   Net Value Per Share          6819 non-null   float64
dtypes: float64(10), int64(1)
memory usage: 586.1 KB
Plain Text
복사

b_data.describe()
Python
복사

2. 데이터 기초 분석 및 탐색

2-1. 데이터 재구조화

b_data1 = b_data.rename({'Bankrupt?':'Bankrupt', ' ROA(C)':'ROA(C)', ' ROA(A)':'ROA(A)', ' ROA(B)':'ROA(B)', ' Operating Gross Margin':'OGM', ' Realized Sales Gross Margin':'RGM', ' Operating Profit Rate':'OPR', ' Pre-tax net Interest Rate':'Pre_tax_IR', ' After-tax net Interest Rate':'After_tax_IR', ' Tax rate':'Tax_rate', ' Net Value Per Share':'BPS'}, axis = 'columns')
b_data1
Python
복사

앞에 막 공백이 있고 그래서 모두 수정해주었다.

3. 데이터 클린징

3-1. 결측치 확인

import missingno as msno

b_data1.isnull().sum()
Python
복사

Bankrupt        0
ROA(C)          0
ROA(A)          0
ROA(B)          0
OGM             0
RGM             0
OPR             0
Pre_tax_IR      0
After_tax_IR    0
Tax_rate        0
BPS             0
dtype: int64
Plain Text
복사

결측치 없음

3-2. 이상치 확인

figure, ((ax1, ax2), (ax3, ax4), (ax5, ax6), (ax7, ax8), (ax9, ax10)) = plt.subplots(nrows=5, ncols=2)
figure.set_size_inches(15, 25)   # 각 표의 사이즈 정하기

sns.boxplot(x = "ROA(C)", data = b_data1, ax=ax1)
sns.boxplot(x = "ROA(A)", data = b_data1, ax=ax2)
sns.boxplot(x = "ROA(B)", data = b_data1, ax=ax3)
sns.boxplot(x = "OGM", data = b_data1, ax=ax4)
sns.boxplot(x = "RGM", data = b_data1, ax=ax5)
sns.boxplot(x = "OPR", data = b_data1, ax=ax6)
sns.boxplot(x = "Pre_tax_IR", data = b_data1, ax=ax7)
sns.boxplot(x = "After_tax_IR", data = b_data1, ax=ax8)
sns.boxplot(x = "Tax_rate", data = b_data1, ax=ax9)
sns.boxplot(x = "BPS", data = b_data1, ax=ax10)
Python
복사

b_data2 = b_data1[(b_data1["OGM"]>0.4) & (b_data1["OGM"]<0.8) & (b_data1["RGM"]>0.4) & (b_data1["RGM"]<0.8) & (b_data1["OPR"]>0.8) & (b_data1["Pre_tax_IR"]>0.6) & (b_data1["Pre_tax_IR"]<1.0) & (b_data1["After_tax_IR"]>0.7) & (b_data1["After_tax_IR"]<1.0) & (b_data1["BPS"]>0.0) & (b_data1["BPS"]<0.8)]
b_data2
Python
복사

9개의 인스턴스가 삭제되었다.

figure, ((ax1, ax2), (ax3, ax4), (ax5, ax6), (ax7, ax8), (ax9, ax10)) = plt.subplots(nrows=5, ncols=2)
figure.set_size_inches(15, 25)   # 각 표의 사이즈 정하기

sns.boxplot(x = "ROA(C)", data = b_data2, ax=ax1)
sns.boxplot(x = "ROA(A)", data = b_data2, ax=ax2)
sns.boxplot(x = "ROA(B)", data = b_data2, ax=ax3)
sns.boxplot(x = "OGM", data = b_data2, ax=ax4)
sns.boxplot(x = "RGM", data = b_data2, ax=ax5)
sns.boxplot(x = "OPR", data = b_data2, ax=ax6)
sns.boxplot(x = "Pre_tax_IR", data = b_data2, ax=ax7)
sns.boxplot(x = "After_tax_IR", data = b_data2, ax=ax8)
sns.boxplot(x = "Tax_rate", data = b_data2, ax=ax9)
sns.boxplot(x = "BPS", data = b_data2, ax=ax10)
Python
복사

4. 데이터 시각화

4-1. countplot

sns.countplot('Bankrupt', data=b_data2)
Python
복사

파산한 기업은 파산하지 않은 기업에 비해 매우 적다.

4-2. catplot

sns.catplot(x = "Bankrupt", y = "ROA(C)", data=b_data2, ax=ax1)
sns.catplot(x = "Bankrupt", y = "ROA(A)", data=b_data2, ax=ax2)
sns.catplot(x = "Bankrupt", y = "ROA(B)", data=b_data2, ax=ax3)
Python
복사

파산한 기업은 ROA(수익률)가 모든 면에서 다른 기업에 비해 낮았다.

sns.catplot(x = "Bankrupt", y = "OGM", data=b_data2)
sns.catplot(x = "Bankrupt", y = "RGM", data=b_data2)
sns.catplot(x = "Bankrupt", y = "OPR", data=b_data2)
Python
복사

파산한 기업은 영업총이익(총이익/순매출), 실현된 매출총이익(실현된 총이익/순매출)이 파산하지 않은 기업에 비해 낮았다. 이는 총이익이 적거나 순매출이 큰 경우에 해당한다.

영업이익률(영업이익/순매출)은 두 케이스 모두 비슷했다. 따라서 파산한 기업은 그렇지 않은 기업과 순매출 자체는 비슷하지만 총이익이 적은 것이므로 중간에 생기는 관리비(세금, 판매관리비 등)에서 많은 손실이 생긴다는 것을 알 수 있다.

sns.catplot(x = "Bankrupt", y = "Pre_tax_IR", data=b_data2)
sns.catplot(x = "Bankrupt", y = "After_tax_IR", data=b_data2)
Python
복사

세전 순이자율과 세후 순이자율은 두 케이스 모두 비슷하다. → 이자는 파산에 직접적인 영향을 주지 못함

sns.catplot(x = "Bankrupt", y = "Tax_rate", data=b_data2)
sns.catplot(x = "Bankrupt", y = "BPS", data=b_data2)
Python
복사

파산한 기업의 유효세율은 매우 낮았다. 세금이 낮으면 유효세율이 낮아지고 세율이 낮으면 그만큼 순이익이 많다는 소리인데 왜 파산했는지 모르겠다.

→ 소득별 세율로 인해 저런 결과가 나온게 아닐까? 소득이 많은 기업일수록 정부에서 높은 비율의 과세를 할 것이고 때문에 파산하지 않은 기업이 더 높은 세율을 가지고 있는 것인듯.

BPS는 파산한 기업이 그렇지 않은 기업에 비해 현저히 낮았다. 주식러의 입장에서 보기에도 BPS가 낮은 주식은 결국 상장폐지 → 파산

당연함.

5. 상관분석

corrMatt = b_data2[['Bankrupt', 'ROA(C)', 'ROA(A)', 'ROA(B)', 'OGM', 'RGM', 'OPR', 'Pre_tax_IR', 'After_tax_IR', 'Tax_rate', 'BPS']]
corrMatt = corrMatt.corr()
corrMatt
Python
복사

mask=np.zeros_like(corrMatt, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

figure, ax = plt.subplots()
figure.set_size_inches(16, 8)
sns.heatmap(corrMatt, mask=mask, vmin=-1, vmax=1, square=True, annot=True)
Python
복사

•

ROA는 모든 경우에서 강한 상관관계를 가진다.

•

실현된 매출총이익(RGM)과 영업총이익(OGM)은 매우 강한 양의 상관관계를 가진다.

•

순이자율은 영업이익률과 강한 상관관계를 가진다.

•

주당 순자산가치(BPS)는 수익률(ROA)과 뚜렷한 상관관계를 가진다.