tag

机器学习平台TI

本文基于并使用jupyter lab 0.35.6 1. 了解编辑模式和命令模式 类似vim,notebook也有命令模式和编辑模式。在编辑模式中按下esc就会进入命令模式,点击任何一个cell,或者按下enter可以进入编辑模式。如果你用过vim,就应该不难想象这两个模式的作用:在不同的模式下,编

本文原作者:梁源,经授权后发布。 ​ 序列标注是NLP中一项重要的任务,它主要包括分词,词性标注,命名实体识别等子任务。通过对预训练后的BERT模型进 行finetune,并与CRF进行结合,可以很好地解决序列标注问题。上篇文章对BERT官方源码进行了介绍,本篇文章将介绍 如何通过BERT解决序列标

文章作者:张舒婷,经授权发布。 why use TFRecord 对于数据量较小而言,可能一般选择直接将数据加载进内存,然后再分batch输入网络进行训练。但是,如果数据量较大,这样的方法就不适用了,因为太耗内存,所以这时最好使用 tensorflow 提供的队列 queue,也就是第二种方法从文件

本文原作者:尹迪,经授权发布 ​ | 导语 本文会介绍一般的k-means算法、k-means++算法以及基于k-means++算法的k-means||算法。在spark ml,已经实现了k-means算法以及k-means||算法。本文首先会介绍这三个算法的原理,然后在了解原理的基础上分析spar

本文原作者:尹迪,经授权发布。 ​ 二分k-means算法是层次聚类(Hierarchical clustering)的一种,层次聚类是聚类分析中常用的方法。 层次聚类的策略一般有两种: 聚合。这是一种自底向上的方法,每一个观察者初始化本身为一类,然后两两结合 分裂。这是一种自顶向下的方法,所有观察

本文原作者:尹迪,经授权发布。 ​ | 导语 现有的高斯模型有单高斯模型(SGM)和高斯混合模型(GMM)两种。从几何上讲,单高斯分布模型在二维空间上近似于椭圆,在三维空间上近似于椭球。在很多情况下,属于同一类别的样本点并不满足“椭圆”分布的特性,所以我们需要引入混合高斯模型来解决这种情况。 1 单

本文原作者:尹迪,经授权发布。 ​ | 导语 当数据是以流的方式到达的时候,我们可能想动态的估计(estimate )聚类的簇,通过新的到达的数据来更新聚类。spark.mllib支持流式k-means聚类,并且可以通过参数控制估计衰减(decay)(或“健忘”(forgetfulness))。这个

本文原作者:尹迪,经授权发布。 1 谱聚类算法的原理 在分析快速迭代聚类之前,我们先来了解一下谱聚类算法。谱聚类算法是建立在谱图理论的基础上的算法,与传统的聚类算法相比,它能在任意形状的样本空间上聚类且能够收敛到全局最优解。 谱聚类算法的主要思想是将聚类问题转换为无向图的划分问题。 首先,数据点被看

本文原作者:梁源,经授权后发布。 ​ 机器阅读理解和问答是自然语言处理领域的一个火热主题。该任务旨在让机器像人类一样阅读理解。前面两篇文章对BERT的官方源码以及在序列标注上的应用进行了介绍,本篇文章将介绍如何利用BERT来解决阅读理解与问答问题。 1. 阅读理解与问答简介 机器阅读理解与问答主要涉

本文原作者:于洋,经授权后发布。 1. 开篇 ​ 通常,我们在使用Tensorflow低级API编程时(非Eager模式), 一般有下面三个步骤: 使用tensorflow python侧的API构建图。图通常包括了两部分:正向计算图和反向计算图; 构建的关键字是:新建的 tf.Operation(

本文原作者:赖博先,经授权后发布。 导语:高中的时候,班主任让我们每学完一个章节,整理出这个章节的关键词和一份问题列表。现在回想起来,其实是很有用的,这让我们可以从另外一个视角来审视所学习的内容,而不是单纯的填鸭式的记忆;最近在复习机器学习相关内容,也从问题的视角来回顾机器学习知识体系,对于机器学习

本文原作者:赖博先,经授权后发布。 一、简介 Spark SQL是spark主要组成模块之一,其主要作用与结构化数据,与hadoop生态中的hive是对标的。而DataFrame是spark SQL的一种编程抽象,提供更加便捷同时类同与SQL查询语句的API,让熟悉hive的数据分析工程师能够非常快

本文原作者:赖博先,经授权后发布。 背景 随着我们底层特征库中特征数目的不断增长,如何组合特征,如何针对不同场景选择适合的特征,如何评估特征优劣?这些问题已经日益凸显,所以这次想梳理现有的特征工程方法,并将通用的模块抽象成工具,封装到神盾离线计算平台。 特征构造 对于一个推荐场景,特征构造主要是根据

本文原作者:赖博先,经授权后发布。 Youtube是全球最大的视频分享平台,用户量高达10亿+,每天上传的UGC和PGC都是百万级别。那么问题就来了,他们是如何让用户在这么多的视频中快速的发现自己感兴趣的内容呢?大家可能会想到搜索,确实搜索是一个必不可少的工具,但有一个前提条件是用户必须知道视频的关

本文原作者:汪毅雄,经授权后发布。 导语:本文详细的解释了机器学习中,经常会用到数据清洗与特征提取的方法PCA,从理论、数据、代码三个层次予以分析。 ​ 机器学习,这个名词大家都耳熟能详。虽然这个概念很早就被人提出来了,但是鉴于科技水平的落后,一直发展的比较缓慢。但是,近些年随着计算机硬件能力的大幅