如何用交互式特征工程工具进行数据分析处理

【摘要】 凭据业界着名剖析机构的观察发现,在机械学习一样平常开发工作中,数据预处置和特征工程(涉及数据的剖析和处置)约占工作量的60%以上,对于机械学习来说至关重要。

数据剖析和处置的问题与挑战

近年来,越来越多的企业使用机械学习手艺举行智能化的决议支持。机械学习通过使用算法来识别数据中的模式,并使用这些模式建立一个可以举行展望的数据模子,这个流程通常包罗数据预处置,特征工程,算法开发,模子评估等多个环节。凭据业界着名剖析机构的观察发现,在机械学习一样平常开发工作中,数据预处置和特征工程(涉及数据的剖析和处置)约占工作量的60%以上,对于机械学习来说至关重要。

1.1质量乱七八糟的数据

数据质量是数据管理中的一个非常重要的问题,由于脏数据通常会导致不正确的数据剖析,从而引发不正确的营业决议。脏数据通常来源于数据录入历程中的人工错误或系统信息转变数据未实时更新的一些过期数据。多项观察显示脏数据是数据科学家普遍面临的障碍,毫无疑问,提供有用的数据洗濯解决方案十分具有挑战,往往需要较深的理论知识和工程履历。

1.2 数据的可视化探索剖析

相比于原始的数据,数据的可视化的图表可以更好的提供注释和明白。数据的可视化不仅可以提供快速清晰的信息明白,还可以用于识别数据转变的趋势及数据资产之间的关系和模式。虽然数据可视化十分有用,手工构建图表往往十分耗时和繁琐。

1.3 多样化的特征工程

特征工程是将原始数据转换成特征的数据处置历程,其目的是为了更好的表征数据和模子,提升模子展望和评估的精度。转换形成的特征利害与数据/模子密切相关,由于数据和模子的多样性,因此很难提取出通用的特征工程手艺,适用于所有的项目。数据科学家往往需要连系应用领域及数据的特点,频频不停的迭代开发,验证,形成特定于详细数据和模子的特征工程。

1.4 容纳大规模的数据剖析处置平台

随着数据规模的不停扩大,现有的数据剖析和处置能力受限于单机的内存容量,很难举行伸缩。若何将开发探索阶段的小样本数据剖析和处置能力伸缩到产物化场景下的大数据样本,是越来越多企业面临的伟大的挑战。

NAIE交互式特征工程先容

为了应对数据剖析和处置的挑战,华为NAIE产物基于开源jupyterlab项目,沉淀内部多年的数据剖析和处置履历,打造了NAIE交互式特征工程。NAIE交互式特征工程旨在降低数据剖析处置的门槛,提升数据剖析处置的效率。

2.1 零编码的数据可视化探索

数据探索部门主要包罗数据的描述性统计剖析,数据的可视化图表剖析,数据的特征关系剖析三大部门。

通过数据的描述性统计剖析可以举行数据的基础统计量剖析,数据的空值和无效值的漫衍剖析,原始数据的表格预览。

如何用交互式特征工程工具进行数据分析处理基础统计量剖析如何用交互式特征工程工具进行数据分析处理数据空值无效值漫衍剖析如何用交互式特征工程工具进行数据分析处理原始数据在线表格预览

通过数据的可视化图表剖析可以凭据数据一键式天生散点图,折线图,直方图,箱线图等多种图表,通过图表直观辅助剖析。

如何用交互式特征工程工具进行数据分析处理可视化图表剖析

通过数据的特征关系剖析可以使用卡方检测,F磨练,信息增益,递归消除特征等多种算法举行特征选择剖析,通过ACE算法剖析特征和标签之间的非线性关系。

如何用交互式特征工程工具进行数据分析处理特征关系剖析

2.2 厚实多样的数据处置能力

NAIE交互式特征工程内置了数据采样,数据增强,数据洗濯,特征转换,特征选择,特征提取等常用的数据处置算子,用户可以凭据需要通过界面点击操作即可完成常用的数据处置。

通过数据采样在不引入外部数据的情形下调整数据样本数目和类漫衍。

域名注册诈骗邮件We are an agency engaging in registering brand name and domain names

如何用交互式特征工程工具进行数据分析处理

通过数据增强引入外部数据扩展当前数据集的样本数目或字段数目。

如何用交互式特征工程工具进行数据分析处理

通过数据洗濯对数据举行审查和校验,删除重复信息,纠正错误,处置无效值和缺失值,提供数据的一致性。

如何用交互式特征工程工具进行数据分析处理

通过特征转换对现有的特征举行归一化或编码等变换操作,便于更好的表征学习的问题。

如何用交互式特征工程工具进行数据分析处理

通过特征选择剔除不相关或冗余的特征,提高模子精度,削减模子运行时间,增强模子的可注释性。

如何用交互式特征工程工具进行数据分析处理

通过特征提取从原始数据中构建出富含信息且不冗余的特征。

如何用交互式特征工程工具进行数据分析处理

2.3 可伸缩的数据处置引擎

NAIE交互式特征工程预置python3和pyspark两种数据处置引擎,python3引擎使用开源pandas数据处置框架举行数据处置,一样平常用于中小规模(10G以下)的数据处置。pyspark使用开源spark大规模数据(10G-500G)处置引擎举行数据处置,通过漫衍式数据处置能力,支持可伸缩的大数据处置。NAIE特征工程内置的数据处置算子使用统一的对外SDK,适配差别的数据处置实现,可以知足在探索阶段使用python处置引擎,在产物阶段大数据场景下代码不做任何修改无缝适配到spark处置引擎下举行大规模可伸缩的数据处置。

NAIE交互式特征工程的应用

在一样平常出行时,当打开某款打车软件的时刻,输入起始地址和竣事地址,打车软件系统会自动估算出一个价钱,用户可以凭据价钱选择是否乘坐或选择乘坐哪种类型。

车费除了依赖于搭车距离,还与搭车时间,搭车地址等多种因素有关,没有一个正确的公式可以盘算。

通过机械学习学习历史数据训练模子举行展望是越来越盛行的做法,通常的机械学习工作流中包罗数据的预处置,模子训练,模子评估,模子部署展望等几个环节,其中数据预处置环节对于整个历程来说至关重要,以下展示若何使用NAIE交互式特征工程举行出租车搭车纪录数据的预处置历程。

如何用交互式特征工程工具进行数据分析处理

通过使用NAIE交互式特征工程,用户可以通过界面操作一键式完成数据的可视化探索,领会数据的统计漫衍,质量情形,特征间的关系等,从而直观的获取数据的洞察效果。连系NAIE交互式特征工程沉淀的多种开箱即用的数据处置能力,用户只需要通过菜单选择相关的数据处置算子,即可完成庞大的数据处置义务。相比于传统的开发代码举行数据剖析和处置方式,NAIE交互式特征工程极大的降低了数据剖析处置的门槛,通过复用华为工程师在此领域沉淀的专家履历,对数据剖析和处置的效率也有极大的提升。

 

点击关注,第一时间领会华为云新鲜手艺~

如何用交互式特征工程工具进行数据分析处理

原创文章,作者:admin,如若转载,请注明出处:https://www.2lxm.com/archives/16453.html