50 沙箱点
提示: 实验资源会在固定时间后释放,请创建资源后尽快操作。

实验评分

平均时长

1 小时

难易程度

普通

实验编号

SL4008

学习次数

148

实验概述

某公司通过网络爬虫从亚马逊网站上爬取了书籍的历史数据,请数据分析人员将爬取的数据进行清洗,并转换成企业希望得到的格式。通过学习本实验,学员熟练掌握利用SQL编程实现基本的数据转换和清洗,包括查找缺失值、处理离群值、检查重复数据元组、检查数据不一致性、检查数据删失和截断。

实验目的

数据转换和清洗在大数据领域是一个工作人员每天都要接触的工作内容。在一个数据文化和管理不太良好的企业,通常数据转换和清洗需要占据80%甚至以上的工作时间。这项工作在整个数据项目中的作用非常显著,没有好的数据质量,项目就无法得到期望的结果。通过本实验的练习,学生掌握基本的数据转换和清洗技能。

实验架构

DataWorks

机器学习PAI