机器学习
导语:腾讯大数据举办星火计划技术沙龙为广大大数据爱好者提供线下交流活动机会,技术沙龙第一期将于10月13日在深圳腾讯大厦举办,为您揭秘海量机器学习之道与Angel开源背后的故事。 大数据技术在过去10多年中改变了企业对数据的存储、处理和分析的过程,如今的大数据技术栈逐渐成熟并涵盖了计算、存储、数仓、


导语:腾讯大数据举办星火计划技术沙龙为广大大数据爱好者提供线下交流活动机会,技术沙龙第一期将于10月13日在深圳腾讯大厦举办,为您揭秘海量机器学习之道与Angel开源背后的故事。 大数据技术在过去10多年中改变了企业对数据的存储、处理和分析的过程,如今的大数据技术栈逐渐成熟并涵盖了计算、存储、数仓、


本文原作者:游遵文,经授权后发布。 参考文献 [1] 李航,统计学习方法 [2] An overview of gradient descent optimization algorithms [3] Optimization Methods for Large-Scale Machine Lear


本文原作者:陈亮,经授权后发布。 导语 机器学习模型的评估指标很多,对于分类问题常会看到AUC作为性能衡量指标,大家往往对AUC值本身感兴趣,如其具体值的物理含义等。本文希望不引入太多公式,简单讨论下AUC指标。 通俗理解AUC指标 AUC是二分类模型的评价指标。 AUC的通俗解释是:随机给定一个正


本文原作者:陈亮,经授权后发布。 导语 模型可解释性方面的研究,在近两年的科研会议上成为关注热点,因为大家不仅仅满足于模型的效果,更对模型效果的原因产生更多的思考,这样的思考有助于模型和特征的优化,更能够帮助更好的理解模型本身和提升模型服务质量。本文对机器学习模型可解释性相关资料汇总survey。


本文原作者:彭江军,经授权后发布。 1: 搜索排序的概念 搜索排序:在一次会话中,用户在交互界面输入需要查询的query,系统给返回其排好序的doc例表的过程。 2:搜索排序和推荐排序的区别 推荐:基于用户的行为挖掘出用户的兴趣,为其推荐对应的视频,doc等。 2.1从展示形式来讲: 搜索排序每次展


本文原作者:彭江军,经授权后发布。 导语:对于做算法的而言,了解一下整个流程是必要的。一来加深对整个环节的理解,二来:方便在定位badcase的知道可能是那块的问题所在。 1:写在前头,不专业的地方求轻喷 这部分做的时间比较短,大概半年的ES引擎维护工作,负责了两个小频道的召回服务(具体那两个不能说


本文原作者:彭江军,经授权后发布。 导语 在搜索排序概述里面说到搜索排序算法的发展的第二个阶段Learning to rank (LTR) 的时候就已经提到了机器学习,还整出了哲学词:审时度势。 在这里接着对机器学习的概念以及一般化的结构做一个系统的简略的描述,并看看机器学习的结构是如何适配搜索排序


模型可解释性方面的研究,在近两年的科研会议上成为关注热点,因为大家不仅仅满足于模型的效果,更对模型效果的原因产生更多的思考,这样的思考有助于模型和特征的优化,更能够帮助更好的理解模型本身和提升模型服务质量。本文对机器学习模型可解释性相关资料汇总survey。 综述 机器学习业务应用以输出决策判断为目


本文原作者:彭江军,经授权后发布。 导语:数据决定了任务的上限,模型方法决定达到上限的能力。在机器学习三要素里面,经验数据是极其重要的一环,直接决定了该机器学习任务的最终能达到的效果。尤其是在进入大数据时代,数据获取上面会比以往容易许多,选取数据集有时候带来的提升比更改模型带来的要快速的多。 1:数


本文原作者:汪毅雄,经授权后发布。 导语:本文用容易理解的语言和例子来解释了决策树三种常见的算法及其优劣、随机森林的含义,相信能帮助初学者真正地理解相关知识。 决策树 引言 决策树,是机器学习中一种非常常见的分类方法,也可以说是所有算法中最直观也最好理解的算法。先举个最简单的例子: A:你去不去吃饭


本文原作者:彭江军,经授权后发布。 导语: 数据决定了任务的上限,模型方法决定达到上限的能力。在这里想借助信息熵的一些概念来对数据的重要性做一些分析,将数据的分布差异度量出来,并据此得到特征对于分类的重要性度量。 对于特征的重要性的分析不适合放到特征特别多的情况下,因为往往特征之间是不独立的,所以去


本文原作者:彭江军,经授权后发布。 导语: 这一节将着重说明,怎样定位线上和线下指标之间的差异,对齐线下和线上指标,得到一个大致的关系。优化线下什么指标,对应的能带来线上什么指标的提升。这样可以避免模型上线的风险。因此也是指标的分析也是十分重要的一个问题。 1:指标介绍 在该系列文章1中列举了几种常


本文原作者:彭江军,经授权后发布。 导语: 模型是机器学习三问里面的怎么去学的环节。是确定特征与因变量之间关系最为核心的步骤。这部分涉及到模型的选择,和优化目标以及损失函数的选取。排序由第一节讲到,LTR有三个模式,分别是pointwise, pairwise,listwise。在这里主要描述一下采


本文原作者:甘泉,经授权后发布。 一、多因子选股背景 量化交易策略无非三点:择时、选股、仓控。择时为短期套利交易策略,选股为中长期交易策略,目标是在中长期跑赢指数、获取市场超额收益率alpha。多因子选股的关键是找到寻找因子与股票收益率之间的相关性,即对收益率预测能力强的因子。一般多采用如下步骤:

