tag

机器学习平台TI

本文原作者:汪毅雄,经授权后发布。 ​ 导语:本文用了从数学层面和代码层面,再结合一些通俗易懂的例子,详细地描述了回归主要涉及的原理和知识,希望对于机器学习的初学者或者有兴趣研究模型具体实现的同学带来一点帮助。 接上篇文章 机器学习之数据清洗与特征提取 我们知道了,机器学习中重要的一步是数据的分析处

本文原作者:汪毅雄,经授权后发布。 导语:本文在上篇线性回归的基础上,延伸到广义线性模型,并把广义线性模型目的、假设条件来源,指数族分布、连接函数等各个函数的关系都进行详细地解释。最后用两个常见的GLM特例Logistics回归、Softmax模型进行了推导。 接上篇,我们了解了一下线性回归及其延伸

本文原作者:汪毅雄,经授权后发布。 导语:本文用一些简单的例子来解释了SVM是什么,然后通过SVM中最大间隔、核函数、软间隔、SMO四个关键部分,依次进行数学推导和解释。 相信了解机器学习的同学都知道,SVM的“完美强迫症”使得其在各大模型中,几乎是一个“统治性”的地位。但是也不是那么绝对啦,SVM

本文原作者:汪毅雄,经授权后发布。 导语:本文先介绍了凸优化的满足条件,然后用一个通用模型详细地推导出原始问题,再解释了为什么要引入对偶问题,以及原始问题和对偶问题的关系,之后推导了两者等价的条件,最后以SVM最大间隔问题的求解来说明其可行性。 凸优化理论广泛用于机器学习中,也是数学规划领域很重要的

本文原作者:蒋凯,经授权后发布。 导语 :工业界机器学习大杀器解读。 GBDT是常用的机器学习算法之一,因其出色的特征自动组合能力和高效的运算大受欢迎。 这里简单介绍一下GBDT算法的原理,后续再写一个实战篇。 1、决策树的分类 决策树分为两大类,分类树和回归树。 分类树用于分类标签值,如晴天/阴天

本文原作者:游遵文,经授权后发布。 Spark的核心概念是RDD,而RDD的关键特性之一是其不可变性,来规避分布式环境下复杂的各种并行问题。这个抽象,在数据分析的领域是没有问题的,它能最大化的解决分布式问题,简化各种算子的复杂度,并提供高性能的分布式数据处理运算能力。 然而在机器学习领域,RDD的弱

本文原作者:游遵文,经授权后发布。 参考文献 [1] 李航,统计学习方法 [2] An overview of gradient descent optimization algorithms [3] Optimization Methods for Large-Scale Machine Lear

本文原作者:陈亮,经授权后发布。 导语 机器学习模型的评估指标很多,对于分类问题常会看到AUC作为性能衡量指标,大家往往对AUC值本身感兴趣,如其具体值的物理含义等。本文希望不引入太多公式,简单讨论下AUC指标。 通俗理解AUC指标 AUC是二分类模型的评价指标。 AUC的通俗解释是:随机给定一个正

本文原作者:陈亮,经授权后发布。 导语 模型可解释性方面的研究,在近两年的科研会议上成为关注热点,因为大家不仅仅满足于模型的效果,更对模型效果的原因产生更多的思考,这样的思考有助于模型和特征的优化,更能够帮助更好的理解模型本身和提升模型服务质量。本文对机器学习模型可解释性相关资料汇总survey。

本文原作者:彭江军,经授权后发布。 1: 搜索排序的概念 搜索排序:在一次会话中,用户在交互界面输入需要查询的query,系统给返回其排好序的doc例表的过程。 2:搜索排序和推荐排序的区别 推荐:基于用户的行为挖掘出用户的兴趣,为其推荐对应的视频,doc等。 2.1从展示形式来讲: 搜索排序每次展

本文原作者:彭江军,经授权后发布。 导语:对于做算法的而言,了解一下整个流程是必要的。一来加深对整个环节的理解,二来:方便在定位badcase的知道可能是那块的问题所在。 1:写在前头,不专业的地方求轻喷 这部分做的时间比较短,大概半年的ES引擎维护工作,负责了两个小频道的召回服务(具体那两个不能说

本文原作者:彭江军,经授权后发布。 导语 在搜索排序概述里面说到搜索排序算法的发展的第二个阶段Learning to rank (LTR) 的时候就已经提到了机器学习,还整出了哲学词:审时度势。 在这里接着对机器学习的概念以及一般化的结构做一个系统的简略的描述,并看看机器学习的结构是如何适配搜索排序

本文原作者:彭江军,经授权后发布。 导语:数据决定了任务的上限,模型方法决定达到上限的能力。在机器学习三要素里面,经验数据是极其重要的一环,直接决定了该机器学习任务的最终能达到的效果。尤其是在进入大数据时代,数据获取上面会比以往容易许多,选取数据集有时候带来的提升比更改模型带来的要快速的多。 1:数

本文原作者:汪毅雄,经授权后发布。 导语:本文用容易理解的语言和例子来解释了决策树三种常见的算法及其优劣、随机森林的含义,相信能帮助初学者真正地理解相关知识。 决策树 引言 决策树,是机器学习中一种非常常见的分类方法,也可以说是所有算法中最直观也最好理解的算法。先举个最简单的例子: A:你去不去吃饭

本文原作者:彭江军,经授权后发布。 导语: 数据决定了任务的上限,模型方法决定达到上限的能力。在这里想借助信息熵的一些概念来对数据的重要性做一些分析,将数据的分布差异度量出来,并据此得到特征对于分类的重要性度量。 对于特征的重要性的分析不适合放到特征特别多的情况下,因为往往特征之间是不独立的,所以去