机器学习 矩阵

24. April 2018 深度学习 0

1.Arthur Samuel定义:在进行特定编程的情况下,给予计算机学习能力的领域。

2.Tom Mitchell定义:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能有所提升。

3.监督学习:对于数据集中的每个数据,都有相应的正确答案(训练集)。种类:线性回归,分类问题。

4.无监督学习:只有一个数据集。种类:聚类算法,鸡尾酒会算法。

5.只有方阵才可能有逆矩阵。

6.正规方程不需要特征变量归一化,特征变量归一化对梯度下降算法极其重要。

7.特征变量的数低于一万,推荐使用正规方程,高于一万推荐使用梯度下降算法。

8.有矩阵A(m1*n1),B(m2*n2),c为一整数。(Octave测试通过)

①:A*B,则n1==m2,结果矩阵为m1*n2

②:A.*B,若A,B均非向量,则n1==n2,m1==m2,结果m1*n1.若有其中一个为列向量,则m1==m2,结果为m1*max(n1,n2).若有其中一个为行向量,则n1==n2,结果为max(m1,m2)*n1.

③:A*c==A.*c

④:A+c==A.+c

⑤:A-c==A.-c

⑥:A/c==A./c  (c非零)

⑦:A^c 错误,A.^c

⑧:矩阵加减或点加点减需要相同维度,且两种方式结果相同.矩阵除法乘法。

在梯度下降算法中,根据偏导数可得 theta=theta-alpha*(X’*(X*theta-y))/m;

在正规方程中,theta=pinv(X‘*X)*X’y

cost函数为:J=sum((X*theta-y).^2)/(2*m);