Loading [Contrib]/a11y/accessibility-menu.js

AJW's Blog

脚踏实地,仰望天空

推荐系统论文精读——ESMM

全空间多任务模型

在进行CVR预估时,我们通常采取的策略和CTR一样,只不过训练样本有所变化。这样会导致两个问题: Sample selection bias (SSB) 通常我们CVR的训练是在有点击的曝光样本上进行的,而在线上服务的时候是要对所有曝光的商品进行打分的,这种样本分布的偏差会影响模型的效果。 Data Sparsity (DS) ...

Graph Embedding

另一种embedding方法

传统的embedding模型处理的都是序列化的数据,而在很多场景,比如电商中,人、物、场之间往往是复杂的图结构,那么这时候如何来进行合理的embedding以表示它们之间的相关度呢,这就是Graph Embedding做的事情。 Deep Walk deepwalk采用的是随机游走的方法,从图中生成序列,然后利用word2vec的方法来生成embedding,是早期比较简单的一种生成em...

推荐系统论文精读——Youtube视频推荐

Deep Neural Networks for YouTube Recommendations

这篇2016年的论文,在现在看来好像已经没有什么新意,但是对于我这种小白来说,还是值得一读的。 首先来看整体的架构 从图中可以看到,youtube这篇文章中的推荐系统分为两个阶段,和搜索十分像,可以理解为召回和排序两个阶段,两个阶段分别使用了两个网络模型。 那么首先来看一下召回,也就是candidate generator 整个网络的结构和现在业界流行的十分像,底层是各个特征...

推荐系统论文精读——Airbnb的Embedding方法

KDD2018 Best Paper

Real-time Personalization using Embeddings for Search Ranking at Airbnb Airbnb的一篇文章,重点介绍了Airbnb在进行实时排序的过程中采用的embedding方法。 文中分两个部分分别介绍了两种embedding,一是通过用户的click session来生成listing(注意文中的listing实际就是一个...

CTR预估相关论文记录

论文阅读计划

Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction 这篇文章是阿里盖坤团队的MLR(Mixer Logistic Regression),虽然论文里好像起了个更高大上的名字。 文章的出发点就是,传统的LR模型对于广告这种非线性场景的拟合能力是不够的,业界需要一个能够捕捉非线性性质同...

决策树test2

你真的理解了吗

各种决策树的区别 总得来说: ID3和C4.5只能做分类,而CART可以做回归 ID3和C4.5可以是多叉的,而CART是二叉树 ID3只能处理离散变量,而C4.5和CART可以处理连续变量 ID3对缺失值敏感,而CART和C4.5可以处理缺失值 ID3和C4.5对特征只能使用一次,而CART则可以使用多次 ID3在分裂时采用的是信息增益,这样会倾向于选择取值较...

SVM以及KKT条件的理解

优化还是很重要啊

SVM一直是机器学习方法里比较难以理解的一个,这篇文章不是SVM的入门教程,只是自己在学习SVM过程中的一些理解和收获,想从头了解SVM还是要看书或者网上的其他博客。 SVM SVM其实也没有多么高深,它和感知器、逻辑回归等线性分类器一样,归根到底它还是找一条线来把不同类别的样本分开来,区别就在于直线好坏的判断标准。之前我们学过感知器,直线的好坏就是看有么有分类错误或者分类错误的数量尽可...

机器学习基石笔记(2)

线性回归和逻辑回归

之前的课程我们讨论的是机器学习基础的理论,包括什么是机器学习以及为什么机器可以学习,接下来几节课会具体介绍几个机器学习算法,主要是线性回归和逻辑回归。 Lecture 9 Linear Regression 线性回归这里介绍的是最经典的最小二乘,我们的损失函数为 \[E_{in}(\omega_{lin}) = \frac{1}{N}\sum_{i=1}^N(x_i^T\omega_{...

机器学习基石笔记(1)

VC维理论

林轩田老师的课程是接触机器学习开始就知道的,但是当时对于初学者的我其实有点难,所以没有看下去,马上要到找工作的时候了,想要把这个经典课程看一下,顺便复习一些基础知识,夯实一下基础。 Lecture 1 2 3 前三讲主要是一些基础的介绍,这里就不多说了,唯一需要注意的是整个课程对于machine learning的一个定义。 所谓machine learning,就是利用数据dat...

关于正则化

多种角度的理解

正则化是机器学习里经常要提到的一个问题,它最大的作用是限制了模型的复杂度,从而降低了过拟合的风险。道理想想是简单的,就是在损失函数后边加了一个与模型结构或者参数相关的惩罚项,常见的有L1正则和L2正则。但是为什么加了之后就可以防止过拟合了?而且为什么L1正则更容易得到稀疏解? 理解正则化的两个角度 从优化的角度 这个角度是最直接也是被说的最多的,下面这张图我想试图了解过正则化的人已经看...