CRISP-DM的应用与理解

天翼云开发者社区
• 阅读 320

本文分享自天翼云开发者社区《CRISP-DM的应用与理解》,作者:吴****嫄

CRISP-DM是一个数据挖掘项目规划的开放标准流程框架模型,主要分为业务理解、数据理解、数据准备、建模、评估、部署六个阶段。

业务理解 从业务的角度理解项目的目标和需求,将业务的目的转换为一个数据挖掘的问题,制定一个初步的实现计划计划。 商业理解是明确要达到的业务目标,并将其转化为数据挖掘主题。要从商业角度对业务部门的需求进行理解,并把业务需求的理解转化为数据挖掘的定义,拟定达成业务目标的初步方案。具包括商业背景分析、商业成功标准的确定、形势评估、获得企业资源清单、获得企业的要求和想、评估成本和收益、评估风险和意外、初步理解行业术语,并确定数据挖掘的目标和制定数挖掘计划。 在整个CRISP-DM的过程当中,围绕数据为核心,项目可能会在各个阶段之间跳跃,因为数据分析一定是一个不断迭代的过程。是否可以继续进行下一个阶段取决于是否有达到最初的业务目标,如果业务目标没有达到,那么就要考虑是否是数据不够充分或算法需要调整,一切都以业务目标为导向。

数据理解 初步收集数据,了解、熟悉数据。关注数据质量,进行探索性的分析。数据理解是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。数据理解从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解,简单描述数据,探测数据意义,并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。

数据准备 准备最终输入到模型中的数据,数据的选择,数据清晰等。 数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集。数据准备阶段的具体工作主要包括数据制表、记录处理、变量选择、数据转换、数据格式化和数据清理等,各项工作并不需要预先规定好执行顺序,而且数据准备工作还有可能多次执行。

建模 一般使用多种技术进行建模,将模型调整到最佳状态。 建立模型是应用软件工具,选择合适的建模方法,处理准备好的数据宽表,找出数据中隐藏的规律。在建立模型阶段,将选择和使用各种建模方法,并将模型参数进行优化。对同样的业务问和数据准备,可能有多种数据挖掘技术方法可供选用,此时可优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方法。在建模过程中,还可能会发现一些潜在的数据问题,要求回到数据准备阶段。建立模型阶段的具体工作包括:选择合适的建模技术、进行检验设计、建造模型。

评估 到这个阶段一般已经有从数据角度来看满足要求的模型。重点是评估是否有业务问题还没有考虑到,是否已经完全满足业务要求。评估数据挖掘结果的使用可能性。 模型评估是要从业务角度和统计角度进行模型结论的评估。要求检查建模的整个过程,以确保型没有重大错误,并检查是否遗漏重要的业务问题。当模型评估阶段结束时,应对数据挖掘结果的发布计划达成一致。

部署 数据分析完成了但是还不是最后一步。最后一步的部署可能是生成一个报告,也可能是需要建立一个整个公司层面的新的系统,这是看业务的需求来定。要保证数据分析的结果被正确的使用。 模型发布又称为模型部署,建立模型本身并不是数据挖掘的目标,虽然模型使数据背后隐藏的作息和知识显现出来,但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。当然,在实际的数据挖掘工作中,根据不同的企业业务需求,模型发布具体工作可能简单到提交数据挖掘报告,也可能复杂到将模型集成到企业的核心运营系统中去。

点赞
收藏
评论区
推荐文章
CuterCorley CuterCorley
3年前
Python数据分析实战(2)使用Pandas进行数据分析
一、Pandas的使用1.Pandas介绍Pandas的主要应用包括:数据读取数据集成透视表数据聚合与分组运算分段统计数据可视化Pandas的使用很灵活,最重要的两个数据类型是DataFrame和Series。对DataFrame最直观的理解是把它当成一个Excel表格文件,如下:索引是从0开始的,也
黎明之道 黎明之道
3年前
天池比赛数据挖掘心电图赛题理解
Datawhale零基础入门数据挖掘Task1赛题理解Task1赛题理解比赛地址:https://tianchi.aliyun.com/competition/entrance/531883/introduction1.1学习目标理解赛题数据和目标,清楚评分体系。完成相应报名,下载数据和结果提交打卡(可提交示例结果),熟悉比赛
黎明之道 黎明之道
3年前
天池比赛数据挖掘心电图模型调参
Task4建模与调参4.1学习目标学习机器学习模型的建模过程与调参流程完成相应学习打卡任务4.2内容介绍逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型基于bagging思想的集成
wanQQ wanQQ
3年前
数据库系统概论学习笔记Day02
数据库系统概论学习笔记Day02ER模型的数据库设计设计阶段数据库设计者必须与应用的用户进行交互以理解应用的需求,把它们以用户能够理解的高层的形式表示出来,然后再将需求转换为更低层次的设计。需求分析:此阶段是完整的描述未来数据库用户的需求。数据库设计者需要和应用领域的专家和用户进行深入♂沟通。这一阶段产出的是用户需求规格说明概念设计:设计者选用
Easter79 Easter79
3年前
SwiftUI 跨组件数据传递
作者:Cyandev,iOS和MacOS开发者,目前就职于字节跳动0x00前言众所周知,SwiftUI的开发模式与React、Flutter非常相似,即都是声明式UI,由数据驱动(产生)视图,视图也会与数据自动保持同步,框架层会帮你处理“绑定”的问题。在声明式UI中不存在命令式地让一个视图变成xxx
Stella981 Stella981
3年前
53 数据库的基本操作 数据库的安装和基本的mysql语句
主要内容:0.数据库的理解    数据库服务器:   运行数据库管理软件(相当于一台计算机)     数据库管理系统: 管理数据库(如mysql是一个软件)     数据库:         即文件夹,用来组织文件/表    表:            即文件,用来存放多行内容/多
领域建模之数据模型设计方法论 | 京东云技术团队
本文通过实际业务需求场景建模案例,为读者提供一种业务模型向数据模型设计的方法论,用于指导实际开发中如何进行业务模型向数据模型转化抽象,并对设计的数据模型可用性、扩展性提供了建议性思考。通过文章,读者可以收获到业务模型向数据模型抽象可参考的一种方法论,并针对后期业务需求变化,尽可能降低模型调整或者模型推a倒重建的风险。本文可以重点关注建模实施流程,针对自己实际业务场景,不断抽象优化自己的数据模型。
四儿 四儿
1年前
自然语言理解数据与大语言模型的关系
自然语言理解数据在大语言模型中扮演着至关重要的角色。大语言模型是一种能够理解和生成自然语言的计算机程序,能够识别和学习语言中的规律和模式。自然语言理解数据是通过对自然语言进行标注和注释而生成的数据,其中包含了语法、语义、上下文、情感等信息。这些数据可以帮助
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
740
粉丝
16
获赞
40