期刊介绍
期刊导读
- 12/13水下无人系统学报论文指导(水下无人航行器控
- 12/07水下无人系统学报论文格式怎么写(无人潜航器
- 10/18健身党 篇二:如何认识【肥胖】这件事?系统学
- 09/24新泰市羊流镇教育系统召开学习贯彻教师节庆祝
- 09/20市直军休系统“迎国庆”门球赛成功举行
策略产品经理必读系列-第一讲机器学习(2)
这是硅谷的一位工程师的调侃:AI和机器学习的区别。AI基本上都是PPT,而机器学习是真材实料用Python写出来的。这虽然是调侃,但却是当前人工智能发展的现状。所有人都在吹嘘AI,自己的AI多么牛逼,但都是仅限于PPT层面,等到落地的时候就没有那么神话了,很多时候都是打着AI的噱头。
本文由 @King James 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议
数据标注:清洗完数据后,有的时候我们甚至还需要进行数据标注。比如在反欺诈场景下,大宽表里面一条客户的记录,到底是正常用户还是欺诈用户,有的时候数据库里面没有对这些数据进行分类,我们还需要人工地去判断这条记录应该属于哪个label的客户。
特征工程是工业界建模中最最最重要的一个模块。模型效果的好坏,一部分是由数据质量决定的,另一部分是由特征工程决定的。
步骤二收集数据:
当你有了学习算法,你在工业界实际应用的时候,你还得做特征工程,做训练和评估等等。最后才能产生一个效果不错的模型。而在工业界很多应用机器学习的场景下,实际上后者的重要性大于前者(此部分后面会专门介绍)。
复杂点讲:
以下是正常一位数据科学家进行建模的步骤:
工业界:
我们可以发现,一共10个欺诈用户,模型挑出来了8个欺诈用户,查全率Recall Rate=8/10=80%,模型把80%的欺诈用户都找出来了。但是模型将10个用户误判成了欺诈用户,查准率Precision Rate=8/18。我们在评估模型效果好坏的时候会综合考虑Recall Rate和Precision Rate一起评估。不同模型评估的指标完全不一样,刚刚列举的模型评估指标只是分类模型的一种评估指标。
模型训练很多情况下,数据科学家们都会训练好几版模型出来,这几版模型在训练集上表现差异不大,但特征工程等不一样,最后统一拿到测试集上进行评估。
那物理学除了电和力,还有光学、磁场等等。所以机器学习技术中还有很大一部分是“高维特征大数据建模”。其实现在我们在工业界专门提“机器学习”技术,更多地指的是我所列出来的第三部分“高维特征大数据建模”。前两者我们不会说机器学习技术,而是直接说强化学习和深度学习。
步骤四训练出来的模型,我们如何来评估模型效果的好坏?就需要在测试集上面进行验证了。分类模型评估最经常使用的两个指标就是查全率Precision Rate和召回率Recall Rate。假设现在测试集有100个用户,90个为正常用户,10个为欺诈用户。我们的目的是为了把测试集里面的欺诈用户全部找出来,下图为预测结果:
机器学习是机器从历史数据中学习规律,来提升系统的某个性能度量。
第二件事情是决定了数据科学家如何来评估模型的好坏。模型没有对错之分,只存在效果的好坏之分。那在反欺诈场景下,哪个模型能够将正常客户和欺诈客户分类的最准确,哪个模型的效果就好。而在推荐场景下,那么就是同时对模型进行一段时间的观察,哪个模型为用户推荐的商品,用户的点击率下单率更高,哪个模型的效果更好。
很多时候数据科学家还要去请教业务专家,和业务专家调研他们在做实际业务中,发现不同label的用户在哪些特征上表现差异化比较明显。业务专家懂业务,有很多经验规则是数据上面看不出来的,就需要业务专家的输入。业务专家的输入,可以让科学家们锁定到一些有效的特征上,而舍弃一些无效的特征,对建模过程起到一定的指导作用,提高了效率。
步骤四模型训练:
所以为了构建一个高维特征的模型,实际建模中科学家们会将很多特征组合在一起构造一些原本历史数据中没有的特征。就像我们只通过两三个特征去评估一个人好坏,是很难评估的,容易片面。当我们通过成百上千个特征去评估时就比较客观。特征工程很多时候科学家们会做很多组不同的特征工程,因为有时候科学家们也无法判断哪一组更好,就多几种可能性,放到模型训练中去训练。
步骤五模型评估:
步骤五介绍了,一般数据科学家会训练出好几版模型出来,我们会挑选在测试集上表现最好的模型作为最终的模型。
那么模型训练什么?模型训练就是训练参数。最开始的时候我们会对a、b、c设置一个初始值,假设都设置为1。接下来我们就需要通过步骤二里面的训练数据来训练模型,不停地调整我们的参数。训练的过程可以理解为就是不停地尝试各种参数组合,使得每条用户记录评估出来的z的值和用户真实z的值接近。当然尝试是有技巧性的尝试,而不是穷举,模型训练的方式有梯度下降法等等,在此不详细叙述。实际工作中每一次模型训练的时间,短的以天为单位,长的甚至可能以周为单位。对的不夸张,正常情况下每一次模型训练的时间都要很长,计算机要不停地高速运转去计算。
文章来源:《水下无人系统学报》 网址: http://www.sxwrxt.cn/zonghexinwen/2022/0801/521.html
上一篇:B端产品系统的基础概念
下一篇:如何平稳入门并掌握Linux系统?