期刊介绍
期刊导读
- 12/13水下无人系统学报论文指导(水下无人航行器控
- 12/07水下无人系统学报论文格式怎么写(无人潜航器
- 10/18健身党 篇二:如何认识【肥胖】这件事?系统学
- 09/24新泰市羊流镇教育系统召开学习贯彻教师节庆祝
- 09/20市直军休系统“迎国庆”门球赛成功举行
策略产品经理必读系列-第一讲机器学习(3)
学术界:
用上图清晰地给大家介绍彼此之间的关系:人工智能包含机器学习,机器学习又包含强化学习和深度学习等。目前人类所研究的AI还是弱人工智能,电影里面看到的那种机器完全和人类一样去思考、行动的智能还远远达不到。然后强化学习和深度学习都是机器学习里面的两个子技术,两个不同研究领域。可以通俗地理解为物理学里面的力学和电学。
数据穿越:数据穿越是科学家建模在挑选数据的过程中常见的一个问题。比如说现在这个时间点2020.2.23日我们需要构建一个反欺诈模型,来判断2019.2.1日开始的用户是正常用户还是欺诈用户。那么我们只能使用2019.2.1日之前的历史用户数据来进行训练,而不能使用截止到2020.2.23日的用户数据,因为此时此刻我们已经知道了绝大部分2019.2.1日的用户是正常用户还是欺诈用户,用截止到此时此刻的数据来训练模型就相当于作弊,训练出来的模型效果很好也不具备参考价值。很多情况下数据科学家还会遇到一个问题就是没有历史数据。是的,这种情况也经常有。没有积累历史数据,或者历史数据太少几乎等于没有,那么怎么办?这个时候就直接照搬同样场景下另外一个项目的模型直接用,这种我们叫做“冷启动”。因为相同场景下,模型大同小异,可以直接先用着历史其他项目的模型。然后再积累一段时间的数据后,再根据该场景下的积累的历史数据对模型进行调优。
构建完特征工程后,科学家们开始要生成初版的模型,模型的表现形式是一个函数。假设在反欺诈场景下,函数为z=ax+by+c这么一个函数,x和y是特征,a、b、c就是参数,z是结果。当z大于0时,用户为正常用户,z小于等于0时,用户为欺诈用户。(为了方便大家理解,这边举了一个比较简单的函数。实际反欺诈场景下,我们使用的是逻辑回归函数)
数据切分:就是将我们抽样出来的数据分为训练集和测试集,我们在训练集上进行训练,测试集上面测试我们模型的效果。必须要区分开训练集和测试集,不可能一个数据集既作为训练集又作为测试集。就相当于,你准备考试的模拟试卷你拿来练习,结果考试的试卷就是模拟试卷,那没办法反映出你真实的水平。一般我们训练和测试集的比例是9:1。但实际工作中这个比例也不是固定的。
专门提一下机器学习为什么叫机器学习。
什么是特征工程?我们如何评估一个用户是否是欺诈用户还是正常用户,那么我们就需要找到这二者在哪些特征上表现存在明显差异,通过这些特征来进行区分。寻找特征来有效的区分不同label的样本,这个就是特征工程。
数据抽样:数据抽样一般是因为历史数据太多了,而且有的历史数据太久远不具有参考意义。所以我们一般都是选择近期的用户数据。如果数据还是太多,导致训练时间太长,我们就会采用随机抽样的方法,再从近期的用户数据中,随机抽取XX%的数据出来。
实际模型训练当中经常出现的一个问题叫做过拟合Overfitted。
机器学习这些年在国内很火,其实机器学习在国际上研究很久了,1952年一位IBM的工程师Arthur Samuel研发了一个西洋跳棋程序,然后一些知名的棋手都输给了这个程序,有点像上个世纪50年代的阿法狗。后来1956年,这位工程师受邀,在达沃斯会议上介绍自己的这项研究,第一次提出了“Machine Learning”这个词汇, Arthur Samuel也因为被称为“机器学习之父”,他将“Machine Learning”定义为“不需要确定性编程就可以赋予机器某项技能的研究领域“,让机器像人一样学习起来。
定义完问题后,我们需要收集数据,数据质量的好坏,对模型效果的影响非常大。根据场景下,我们需要使用的数据不一样。比如反欺诈场景下,我们需要使用到用户的基本信息、历史还款信息等,这里面包含正常用户和欺诈用户的,二者的信息都需要。正常情况下,用户的数据都会分布在数据库不同的表里面,为了建模的方便,通常我们都是合并成一张大宽表。
简单点讲:
机器学习,是一个非常宽泛的概念,它是一门学科。你可以理解为和数学、物理一样的学科。
步骤六模型应用:
比如说金融领域,利用机器学习来构建一个反欺诈模型。银行做金融贷款业务时,很多客户是欺诈客户,专门来骗取贷款的。根据历史上还款的好客户和首次即逾期的欺诈客户的数据,去找出“好客户”的特征和“欺诈客户”的特征,然后利用机器学习构建一个模型来区分出客户的欺诈度。模型的好坏决定了识别客户欺诈的能力。
文章来源:《水下无人系统学报》 网址: http://www.sxwrxt.cn/zonghexinwen/2022/0801/521.html
上一篇:B端产品系统的基础概念
下一篇:如何平稳入门并掌握Linux系统?