주요 도서관으로, 나는 팬더를 사용하고 있습니다, Numpy 와 시간; 팬더: 데이터 조작 및 데이터 분석에 사용합니다. Numpy: 파이썬과 과학 컴퓨팅을위한 기본 패키지. Python에서 데이터 집합을 가져오려면 데이터 집합을 가져오기 전에 가장 먼저 해야 할 일은 작업 디렉토리를 설정하는 것이고, 데이터 집합을 가져올 때 언제든지 데이터 집합을 가져오려면 FILEEXPLORER로 이동하여 작업 디렉토리 폴더를 지정해야 합니다. 디렉터리. 그런 다음 가져올 데이터 집합의 이름과 균등하게 되는 “데이터 집합”이라고 하는 새 변수를 선언하여 올바른 형식을 지정합니다. 파이썬에는 데이터 집합이 있지만 기능의 행렬과 dipendent 변수 벡터를 구별해야합니다. 그래서 우리가 할 일은 우리의 디펜덴트 변수 X의 행렬과 dipendent 변수 Y가있는 벡터를 만드는 것입니다. 함수 ILOC를 통해 피펜던트 변수를 포함한 데이터 집합을 균등화하고 매트릭스에 포함할 컬럼을 지정하는 X를 호출할 것입니다. dipendent 변수 벡터를 만들려면 Y에 해당하는 열만 포함하여 데이터 집합과 Y를 동일하게 설정합니다(파이썬 인덱스에서는 0에서 시작한다는 것을 기억하십시오). 변수에 대해 특정 작업을 수행할 수 있습니다. 예를 들어 변수에서 데이터를 그룹화하는 방법을 보여 줍니다. 이를 위해 groupby() 함수를 사용합니다. 이 분석을 위해 파이썬 NumPy를 살펴보십시오, 나는 Kaggle에서 제공하는 신용 카드 거래 데이터 세트를 사용할 것입니다.

나는 이미 Autoencoders를 사용하여 신용 카드 사기 탐지에 대한 기사를했다. 링크는 여기: https://medium.com/@manisharajarathna/신용 카드 사기-감지-자동 엔코더-in-h2o-399cbb7ae4f1 교육 데이터에 범주형 기능이 누락될 가능성이 있는 경우 지정하는 것이 더 좋을 수 있습니다. handle_unknown=`ignore`는 위와 같이 범주를 수동으로 설정하는 대신에 무시됩니다. handle_unknown=`ignore`가 지정되고 변환 중에 알 수 없는 범주가 발생하면 오류가 발생하지 않지만 이 기능에 대한 결과 핫 인코딩된 열은 모두 0(handle_unknown=`ignore`)은 한 핫에 대해서만 지원됩니다. 인코딩: le.fit(data.value) 이 줄에 오류가 발생합니다. scikit-learn 라이브러리의 StandardScaler 클래스가 데이터 집합을 확장하는 데 도움이 될 수 있도록 도와주세요. Matplotlib및 Seaborn을 사용하는 시각화에 관해서는 데이터 전처리 기술 및 알고리즘을 위해 Scikit 학습 라이브러리를 사용했습니다. 다음은 다양한 확률 분포에 적용된 Box-Cox 및 Yeo-Johnson의 예입니다.

특정 분포에 적용하면 전력 변환이 매우 가우시안과 같은 결과를 얻을 수 있지만 다른 분포에서는 효과가 없습니다. 변환 전후에 데이터를 시각화하는 것이 중요합니다.