行业案例 | 数据分析在银行业应用之虚假检测

阜宁娱乐新闻网 2025-08-29

5050non- nullfloat64

8V9 5050non- nullfloat64

9V10 5050non- nullfloat64

10V11 5050non- nullfloat64

11V12 5050non- nullfloat64

12V13 5050non- nullfloat64

13V14 5050non- nullfloat64

14V15 5050non- nullfloat64

15V16 5050non- nullfloat64

16V17 5050non- nullfloat64

17V18 5050non- nullfloat64

18V19 5050non- nullfloat64

19V20 5050non- nullfloat64

20V21 5050non- nullfloat64

21V22 5050non- nullfloat64

22V23 5050non- nullfloat64

23V24 5050non- nullfloat64

24V25 5050non- nullfloat64

25V26 5050non- nullfloat64

26V27 5050non- nullfloat64

27V28 5050non- nullfloat64

28Amount 5050non- nullfloat64

29Class5050non- nullint64

dtypes: float64( 29), int64( 1)

memory usage: 1.2MB

V1 V2 V3 V4 V5 V6 V7

01.725265-1.337256-1.012687-0.361656-1.431611-1.098681-0.842274

10.683254-1.6818750.533349-0.326064-1.4556030.101832-0.520590

21.067973-0.6566671.0297380.253899-1.1727150.073232-0.745771

V8 V9 V10 V11 V12 V13 V14

0-0.026594-0.0324090.2151131.618952-0.654046-1.442665-1.546538

10.114036-0.6017600.4440111.5215700.499202-0.127849-0.237253

20.2498031.383057-0.483771-0.7827800.005242-1.273288-0.269260

V15 V16 V17 V18 V19 V20 V21

0-0.2300081.7855391.4197930.0716660.2330310.2759110.414524

1-0.7523510.6671900.724785-1.7366150.7020880.6381860.116898

20.091287-0.3479730.495328-0.9259490.099138-0.083859-0.189315

V22 V23 V24 V25 V26 V27 V28

00.7934340.0288870.419421-0.367529-0.155634-0.0157680.010790

1-0.304605-0.1255470.2448480.069163-0.460712-0.0170680.063542

2-0.4267430.0795390.1296920.0027780.970498-0.0350560.017313

Amount Class

0189.000

1315.170

259.980

统计数据集包涵以下函数:

数参数编码的函数V1到V28是从PCA变换中获得的主分量。由于保密关键问题,并未提供有关类似功能的背景信息。 Amount函数表示股票交易总额。 Class函数显示股票交易是不是为欺骗(1)或非欺骗(0)。

幸运的是,就其性质而言,欺骗事件在任何股票交易列表中都是极少数。然而,当统计数据密集包涵的不同各种类型或多或少普遍存在时,神经网络插参数通常效果最好。否则,就没有什么统计数据可供借鉴,这个关键问题被专指各种类型不均。

接着计算欺骗股票交易占统计数据密集股票交易数目的比例:

round(creditcard_data[ 'Class'].value_counts* 100/ len(creditcard_data)).convert_dtypes

099

11

Name: Class, dtype: Int64

并创建一个表格,将欺骗与非欺骗的统计数据点仿真。

importmatplotlib.pyplot asplt

importnumpy asnp

defprep_data(df):

X = df.iloc[:, 1: 28]

X = np.array(X).astype(float)

y = df.iloc[:, 29]

y = np.array(y).astype(float)

returnX, y

defplot_data(X, y):

plt.scatter(X[y== 0, 0], X[y== 0, 1], label= 'Class #0', alpha= 0.5, linewidth= 0.15)

plt.scatter(X[y== 1, 0], X[y== 1, 1], label= 'Class #1', alpha= 0.5, linewidth= 0.15, c= 'r')

plt.legend

returnplt.show

X, y = prep_data(creditcard_data)

plot_data(X, y)

可以确认的是,欺骗性股票交易的比例非常低,中普遍存在一个各种类型不抵消关键问题的犯罪行为。

为了解决这个关键问题,我们可以常用制备少数人超量化核心技术(SMOTE)来重新抵消统计数据。与随机扣除取样不同,SMOTE稍微复杂一些,因为它不只是创建观察参数的精确副本。

相反,它常用欺骗刑事案件的最近邻居的相似性来创建最初、制备的取样,这些取样与少数人各种类型中的现阶段观察参数相当相同,让我们把SMOTE引入该分行卡统计数据。

fromimblearn.over_sampling importSMOTE

method = SMOTE

X_resampled, y_resampled = method.fit_resample(X, y)

plot_data(X_resampled, y_resampled)

正如所见到的,常用SMOTE顿时提供了更为多的少数各种类型的观察结果。为了更为多地见到这种方法的结果,这里将把其与类似统计数据展开比较。

defcompare_plot(X, y, X_resampled, y_resampled, method):

f, (ax1, ax2) = plt.subplots( 1, 2)

c0 = ax1.scatter(X[y== 0, 0], X[y== 0, 1], label= 'Class #0',alpha= 0.5)

c1 = ax1.scatter(X[y== 1, 0], X[y== 1, 1], label= 'Class #1',alpha= 0.5, c= 'r')

ax1.set_title( 'Original set')

ax2.scatter(X_resampled[y_resampled== 0, 0], X_resampled[y_resampled== 0, 1], label= 'Class #0', alpha= .5)

ax2.scatter(X_resampled[y_resampled== 1, 0], X_resampled[y_resampled== 1, 1], label= 'Class #1', alpha= .5,c= 'r')

ax2.set_title(method)

plt.figlegend((c0, c1), ( 'Class #0', 'Class #1'), loc= 'lower center', ncol= 2, labelspacing= 0.)

plt.tight_layout(pad= 3)

returnplt.show

print( f'Original set:'

f' {pd.value_counts(pd.Series(y))}'

f'SMOTE:'

f' {pd.value_counts(pd.Series(y_resampled))}' )

compare_plot(X, y, X_resampled, y_resampled, method= 'SMOTE')

Originalset:

0 .05000

1 .050

dtype: int64

SMOTE:

0 .05000

1 .05000

dtype: int64

因此,SMOTE方法已经基本上抵消了统计数据,少数小团体以前与多数小团体的生产能力相等。

例如,此类规章可能关的不寻常的股票交易地点或知情的频繁股票交易。其初衷是基于常见的粗略低估计统计数据定义阈参数,通常是基于观察参数的平均参数,并在功能上常用这些阈参数来样品欺骗。

print(creditcard_data.groupby( 'Class').mean.round( 3) [['V1', 'V3']])

V1V3

Class

0 0 .0350 .037

1 -4.985-7.294

在特殊只能,可以系统设计以下条件:V1<-3和V3<-5。然后,为了评估这种方法的性能,我们将把标记的欺骗犯罪行为与实际犯罪行为展开比较:

creditcard_data[ 'flag_as_fraud'] = np.where(np.logical_and(creditcard_data[ 'V1']<-3, creditcard_data[ 'V3']

print(pd.crosstab(creditcard_data[ 'Class'], creditcard_data[ 'flag_as_fraud'], rownames=[ 'Actual Fraud'], colnames=[ 'Flagged Fraud']))

FlaggedFraud 01

Actual Fraud

0498416

12822

fromsklearn.model_selection importtrain_test_split

fromsklearn.linear_model importLogisticRegression

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.3, random_state= 0)

lr = LogisticRegression

lr.fit(X_train, y_train)

predictions = lr.predict(X_test)

print(pd.crosstab(y_test, predictions, rownames=[ 'Actual Fraud'], colnames=[ 'Flagged Fraud']))

FlaggedFraud0 .01 .0

ActualFraud

0 .01504 1

1 .01 9

能够注意的是,在混淆向量中要拍照的精确测量参数较少,因为我们只常用测试集来计算模型结果,即仅占整个统计数据集的30%。

结果是发掘出了更为较高比例的欺骗刑事案件:90%(9/10),而之前的结果是44%(22/50),取得的误报也比以前少了很多,这是一个进步。

以前让我们回到前面争论的类不抵消关键问题,并探索是不是可以通过将演算重返模型与SMOTE重采样方法相结合来进一步提较高分析结果。为了较高效、一次性地展开这项工作,我们能够定义一个管道,并在统计数据上运行:

from imblearn.pipeline import Pipeline

# Defining which resampling method and which ML model to use in the pipeline

resampling = SMOTE

lr = LogisticRegression

pipeline = Pipeline([('SMOTE', resampling), ('Logistic Regression', lr)])

pipeline.fit(X_train, y_train)

predictions = pipeline.predict(X_test)

print(pd.crosstab(y_test, predictions, rownames=['Actual Fraud'], colnames=['Flagged Fraud']))

FlaggedFraud0 .01 .0

ActualFraud

0 .01496 9

1 .01 9

可以见到,在犯罪行为中,SMOTE并没有带来任何加以改进:仍然猎取了90%的欺骗事件,而且假非典型数量略低较高。

这里的解释是,重新取样未必在所有只能都能带来更为多的结果。当欺骗刑事案件在统计数据中非常分散时,其最近的未必也是欺骗刑事案件,所以常用SMOTE会引入愚昧关键问题。

为了提较高演算重返模型的可信度,我们可以变更一些插参数表达式,也可以考虑采用K-fold平行验证法,而不是从外部将统计数据集分成两部分。

最后,还可以在此之后一些其他的神经网络插参数(如决策树或随机森林),看看它们是不是能给出更为多的结果。

参考链接:

好,以上就是现今的分享。如果大家还有统计数据分析方面涉及的疑问,就在纽约时报区留言。

更为多难忘犯罪行为;未较高度重视4月7日直播,以前扫码免费预约~

直播预告

预约直播

点这里👇较高度重视我,回忆起标星哦~

CDA课程咨询

北京看白癜风哪家比较好
北京妇科医院哪家看的好
长春看牛皮癣什么医院最好
湘潭白癜风治疗医院
太原男科检查
甲流引起的咳嗽吃什么药
孩子反反复复咳痰怎么办
慢性支气管炎咳嗽怎么治
事关全国人!最新变异株“来势汹汹”,感染后不及时治疗很危险
血友病
相关阅读

涂料中需要聚苯乙烯蜡吗

时尚 2025-08-29

颜料之前需要塑料制成吗?塑料制成在催化剂型涂膜之前的主要抑制则有用为:折射、抑制划伤、抑制耐用、抑制抛光、抑制手抄、防范粘连、防范凝固、触变官能;良好的通气官能和加工官能;金属粉彩有别于官能。

分析师表示AirPods Pro 2将在上周下半年登场

八卦 2025-08-29

苹果公司旗下除了iPhone全球性热卖,AirPods系列也是全球性龙头,时隔本年发售AirPods 3之后,也有很多人关心分队款的AirPods Pro 2何时发售,以前分析家表示一段时间将落

胫骨网络服务表面处理工艺改良方案

写真 2025-08-29

胫骨游戏平台较厚处置生产工艺简化方案 胫骨游戏平台是佐技很早以从前就原料过的一款产品线,随着服务业关键技术工业发展,产品线的形态已经从以往常规的一般而言演变成愈来愈简单的形状。以从前的原

OPPO智能指环商标注册公布!布局万物互联,绿厂藏了多少黑科技

资讯 2025-08-29

电脑可身着电子系统在近几年可谓一个近来里的近来了,身边的很多老友一开始都觉得平平很漂亮,但是先前之后就回不去了。比如前段时间iPhone还不用面罩追加的时候,Apple Watch就为苹果电脑服

boAt日前新一代音频产品将搭载Dirac数字音频优化方案

时尚 2025-08-29

2022年4年初5日,印度排名第一的无线听戴设备服装品牌Imagine Marketing Limited(依据其旗下分队服装品牌“boAt”2019年至2022财年第一月份的多个月份销量数据)

友情链接