Loading [Contrib]/a11y/accessibility-menu.js

AJW's Blog

脚踏实地，仰望天空

推荐系统论文精读——ESMM

全空间多任务模型

在进行CVR预估时，我们通常采取的策略和CTR一样，只不过训练样本有所变化。这样会导致两个问题： Sample selection bias (SSB) 通常我们CVR的训练是在有点击的曝光样本上进行的，而在线上服务的时候是要对所有曝光的商品进行打分的，这种样本分布的偏差会影响模型的效果。 Data Sparsity (DS） ...

Posted by AJW on September 16, 2019

Graph Embedding

另一种embedding方法

传统的embedding模型处理的都是序列化的数据，而在很多场景，比如电商中，人、物、场之间往往是复杂的图结构，那么这时候如何来进行合理的embedding以表示它们之间的相关度呢，这就是Graph Embedding做的事情。 Deep Walk deepwalk采用的是随机游走的方法，从图中生成序列，然后利用word2vec的方法来生成embedding，是早期比较简单的一种生成em...

Posted by AJW on September 16, 2019

推荐系统论文精读——Youtube视频推荐

Deep Neural Networks for YouTube Recommendations

这篇2016年的论文，在现在看来好像已经没有什么新意，但是对于我这种小白来说，还是值得一读的。首先来看整体的架构从图中可以看到，youtube这篇文章中的推荐系统分为两个阶段，和搜索十分像，可以理解为召回和排序两个阶段，两个阶段分别使用了两个网络模型。那么首先来看一下召回，也就是candidate generator 整个网络的结构和现在业界流行的十分像，底层是各个特征...

Posted by AJW on September 9, 2019

推荐系统论文精读——Airbnb的Embedding方法

KDD2018 Best Paper

Real-time Personalization using Embeddings for Search Ranking at Airbnb Airbnb的一篇文章，重点介绍了Airbnb在进行实时排序的过程中采用的embedding方法。文中分两个部分分别介绍了两种embedding，一是通过用户的click session来生成listing（注意文中的listing实际就是一个...

Posted by AJW on September 9, 2019

CTR预估相关论文记录

论文阅读计划

Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction 这篇文章是阿里盖坤团队的MLR（Mixer Logistic Regression），虽然论文里好像起了个更高大上的名字。文章的出发点就是，传统的LR模型对于广告这种非线性场景的拟合能力是不够的，业界需要一个能够捕捉非线性性质同...

Posted by AJW on September 1, 2019

决策树test2

你真的理解了吗

各种决策树的区别总得来说： ID3和C4.5只能做分类，而CART可以做回归 ID3和C4.5可以是多叉的，而CART是二叉树 ID3只能处理离散变量，而C4.5和CART可以处理连续变量 ID3对缺失值敏感，而CART和C4.5可以处理缺失值 ID3和C4.5对特征只能使用一次，而CART则可以使用多次 ID3在分裂时采用的是信息增益，这样会倾向于选择取值较...

Posted by AJW on June 27, 2018

SVM以及KKT条件的理解

优化还是很重要啊

SVM一直是机器学习方法里比较难以理解的一个，这篇文章不是SVM的入门教程，只是自己在学习SVM过程中的一些理解和收获，想从头了解SVM还是要看书或者网上的其他博客。 SVM SVM其实也没有多么高深，它和感知器、逻辑回归等线性分类器一样，归根到底它还是找一条线来把不同类别的样本分开来，区别就在于直线好坏的判断标准。之前我们学过感知器，直线的好坏就是看有么有分类错误或者分类错误的数量尽可...

Posted by AJW on June 27, 2018

机器学习基石笔记(2)

线性回归和逻辑回归

之前的课程我们讨论的是机器学习基础的理论，包括什么是机器学习以及为什么机器可以学习，接下来几节课会具体介绍几个机器学习算法，主要是线性回归和逻辑回归。 Lecture 9 Linear Regression 线性回归这里介绍的是最经典的最小二乘，我们的损失函数为 \[E_{in}(\omega_{lin}) = \frac{1}{N}\sum_{i=1}^N(x_i^T\omega_{...

Posted by AJW on June 1, 2018

机器学习基石笔记(1)

VC维理论

林轩田老师的课程是接触机器学习开始就知道的，但是当时对于初学者的我其实有点难，所以没有看下去，马上要到找工作的时候了，想要把这个经典课程看一下，顺便复习一些基础知识，夯实一下基础。 Lecture 1 2 3 前三讲主要是一些基础的介绍，这里就不多说了，唯一需要注意的是整个课程对于machine learning的一个定义。所谓machine learning，就是利用数据dat...

Posted by AJW on May 18, 2018

关于正则化

多种角度的理解

正则化是机器学习里经常要提到的一个问题，它最大的作用是限制了模型的复杂度，从而降低了过拟合的风险。道理想想是简单的，就是在损失函数后边加了一个与模型结构或者参数相关的惩罚项，常见的有L1正则和L2正则。但是为什么加了之后就可以防止过拟合了？而且为什么L1正则更容易得到稀疏解？理解正则化的两个角度从优化的角度这个角度是最直接也是被说的最多的，下面这张图我想试图了解过正则化的人已经看...

Posted by AJW on March 26, 2018