逻辑斯谛回归

二分类

逻辑斯谛回归是一个用于二分类的算法。对于二分类，假如你有一张图片作为输入，如图所示，你想输出一个标签来识别这张图片，即如果是猫，则输出 $1$ ，反之则输出 $0$ 。在二分类问题中，目标是需要训练出一个分类器，将图片的特征向量 $x$ 作为输入，预测输出的结果标签 $y$ 是 $0$ 还是 $1$ ，也就是这张图片中是否有猫。

逻辑斯谛回归模型

对于逻辑斯谛回归，已知输入特征向量 $x$ ，假设是一张图片，你希望把它识别出这是不是一张猫的图片，则需要模型输出一个预测值 $\hat{y}$ ，对 $y$ 进行预测，预测属于猫图的概率。逻辑斯谛回归模型的目的就是最小化预测值 $\hat{y}$ 和真实值 $y$ 的误差。假设模型的参数 $w,b$ ，如何计算预测出 $\hat{y}$ 呢？如果令：

$\hat{y}=w^{T}x+b$

这是一个输入 $x$ 的线性函数，对于二分类来说不太好，因为 $0\leq\hat{y}\leq1$ ，所以我们可以利用sigmoid函数作用在这个量上，即：

$\hat{y}=\sigma(w^{T}x+b)$ $\sigma(z)=\frac{1}{1+e^{-z}}$

事实上，sigmoid函数形式为参数化的逻辑斯谛分布（ $\mu=0,\gamma=1$ ），而逻辑斯谛回归模型正是如下的条件概率分布（约定 $P(y=1|x)=\hat{y}$ ）：

$P(y=1|x)=\hat{y}=\sigma(w^{T}x+b)=\frac{1}{1+e^{-(w^{T}x+b)}}$ $P(y=0|x)=1-\hat{y}=1-\sigma(w^{T}x+b)=\frac{e^{-(w^{T}x+b)}}{1+e^{-(w^{T}x+b)}}$

这里， $x\in\mathbb{R}^{n}$ 是输入， $y\in\lbrace0,1\rbrace$ 是输出， $w\in\mathbb{R}^{n}$ 和 $b\in\mathbb{R}$ 是参数，对于给定的输入实例 $x$ ，求得两个条件概率值的大小，将实例 $x$ 分到概率值较大的那一类。

逻辑斯谛回归损失函数

对于训练集 $\lbrace(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\rbrace$ ，我们希望 $\hat{y}^{(i)}\approx y^{(i)}$ ，其中：

$\hat{y}^{(i)}=\sigma(w^{T}x^{(i)}+b)=\frac{1}{1+e^{-(w^{T}x^{(i)}+b)}}$

当损失函数定义为误差平方函数 $L(\hat{y},y)=\frac{1}{2}(\hat{y}-y)^{2}$ 时，会发现后面的优化问题会变成一个非凸优化问题，因此可以定义逻辑斯谛回归的损失函数为：

$L(\hat{y},y)=-(y\log\hat{y}+(1-y)\log(1-\hat{y}))$

当 $y=1$ 时， $L(\hat{y},y)=-\log\hat{y}$ ，要想让误差最小，则 $\hat{y}$ 接近1
当 $y=0$ 时， $L(\hat{y},y)=-\log(1-\hat{y})$ ，要想让误差最小，则 $\hat{y}$ 接近0
以上损失函数是对应于单个训练样本，对于整个训练集里面的 $m$ 个训练样本，定义代价函数：

$C(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{(i)},y^{(i)})=-\frac{1}{m}\sum_{i=1}^{m}\left[y^{(i)}\log\hat{y}^{(i)}+(1-y^{(i)})\log(1-\hat{y}^{(i)})\right]$

损失函数的证明

对于模型输出：

$\hat{y}=\sigma(w^{T}x+b),\quad where\quad\sigma(z)=\frac{1}{1+e^{-z}}$

由于约定 $\hat{y}=P(y=1|x)$ ，所以：

$y=1时，P(y|x)=\hat{y}$ $y=0时，P(y|x)=1-\hat{y}$

合并得到：

$P(y|x)=\hat{y}^{y}(1-\hat{y})^{(1-y)}$

当训练模型时，参数 $w和b$ 影响着P的大小，我们希望这些参数使 $P$ 是最大的，因为这样的模型就越让 $\hat{y}接近y$ 。
其对数形式：

$\log P(y|x)=\log(\hat{y}^{y}(1-\hat{y})^{(1-y)})=y\log\hat{y}+(1-y)\log(1-\hat{y})$

因此对 $P(y|x)=\hat{y}^{y}(1-\hat{y})^{(1-y)}$ 求最大值等价于求 $y\log\hat{y}+(1-y)\log(1-\hat{y})$ 的最大值
所以对于单个样本，可以将损失函数定义为：

$L(\hat{y},y)=-(y\log\hat{y}+(1-y)\log(1-\hat{y}))$

对于整个训练集，所有样本服从同一分布且相互独立，其联合概率为：

$P(training)=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)})$

利用极大似然估计法估计模型参数：
似然函数为：

$\prod_{i=1}^{m}(\hat{y}^{(i)})^{y^{(i)}}\left[1-\hat{y}^{(i)}\right]^{(1-\hat{y}^{(i)})}$

对数似然函数为：

$\sum_{i=1}^{m}\left[y^{(i)}\log\hat{y}^{(i)}+(1-y^{(i)})\log(1-\hat{y}^{(i)})\right]$

对极大似然函数求极大值，即可得到 $w，b$ 的估计值使得 $\hat{y}^{(i)}最接近y^{(i)}$
因此对于整个训练集，可以将代价函数定义为：

$C(w,b)=-\frac{1}{m}\sum_{i=1}^{m}\left[y^{(i)}\log\hat{y}^{(i)}+(1-y^{(i)})\log(1-\hat{y}^{(i)})\right]$