《Machine Learning》第一周随记

Coursera上吴恩达Machine Learning课程的随记。
主要是一些小感想和体会,不过多Copy课程的内容
第一周:Introduction

一、Introduction(机器学习介绍)

机器学习概况

第一周是介绍的机器学习的一些情况,以及把数据和学习算法的理念介绍了一下,展望了一下机器学习的未来(其实不用展望现在也能感受到这个魔力),并且举了几个身边的栗子。

Supervised Learning(监督式学习)

监督式学习举了房价的栗子来介绍,实际问题中,如何估计一个房子的报价。
首先用直线来拟合这个规律,随后发现或许用二次曲线更加符合房屋尺寸-房价的曲线。拟合的选择也会是未来学习的一个重点。这种问题被称作Regression(回归)问题。
另外一个栗子是对肿瘤的判断,是恶性肿瘤还是良性肿瘤。这种离散的结果的问题被称作Classification(分类)问题。
课堂的随堂小测试就是判断回归问题和分类问题,在我看来主要是连续和离散的问题。
对于监督式学习,基本思想就是我们数据集中的每个样本都有其对应的Y(或者叫“正确答案”),再对这个样本进行预测。

Unsupervised Learning(无监督学习)

无监督式学习的数据集没有刻意的标注各种“标签”,仅仅是给出一个数据集。然后从这个数据集中获得某种结构或关系。
无监督学习可以进行将数据进行“分堆”,也叫聚类算法。
栗子是Google News,将同一事件不同网站的新闻放在同一个主题下。(我一直以为这种专题都是新闻工作者人工分类的?或许会有一些人工的成分吧)
另一个栗子是将两个人的声音区分开。自己想到可以从一首歌提取伴奏,进行“消音”的操作。

二、Linear Regression with One Variable(单变量线性回归)

模型介绍

参考视频: 2 - 1 - Model Representation (8 min).mkv

再次引出房价和肿瘤判断的模型,同时定义一些新的符号。
m来表示训练样本的数目,
x代表特征/输入变量,
y代表目标变量/输出变量,
(x(i),y(i)) 代表第 i 个观察实例,
h代表算法的解决方案/假设。
对于单变量的问题,h(x)就定义为线性函数:h(x)=θ0+θ1x

代价函数及其直观理解

参考视频: 2 - 2 - Cost Function (8 min).mkv
参考视频: 2 - 3 - Cost Function - Intuition I (11 min).mkv
参考视频: 2 - 4 - Cost Function - Intuition II (9 min).mkv

所谓代价函数就是现有模型的预测值和训练集中数值的误差,也叫建模误差(modeling error)
所以这个误差自然是越小越好,在之前人工智能的课上也多次提到代价函数。衡量这个模型好坏的就是代价函数的数值,动态调整模型的过程就是依据代价函数的数值。
如何定义代价函数是个挺大的问题,在这个模型下,利用误差的平方和来处理就比较好了。
对于直观理解,回忆一下高数书上曾经出现的图就可以了。或者是CS:APP上的封面(雾
就是一个曲面中,xoy面是θ0和θ1构成,对于不同的θ,z轴的结果不同。

以下部分有时间再更新-。-

梯度下降及其直观理解

梯度下降的线性回归

线性代数的回归(已跳过)