subtitle
featuretools for automated feature engineering featuretools for automated feature engineering
Reading NotesOverview One of the holy grails of machine learning is to automate more and more of the feature engineering
推荐系统模型列表 推荐系统模型列表
推荐模型 2010 年之前千篇一律以协同过滤、逻辑回归、因子分解机、梯度提升树为主。2015年之后深度学习推荐模型百花齐放。 CF 系列从物品或用户的相似度出发,协同过滤算法(Collaborative Filtering)衍生出物品协同过
关于机器学习的常见问题 关于机器学习的常见问题
什么是机器学习?定义机器学习(Machine Learning ),先需要澄清相关核心概念。 数据 解决问题 自动化 机器自动从数据中学习规律,并将规律应用到解决新的问题上。 分类有哪些?根据训练集中标签是否已知,分为监督学习
Adaboost 算法流程 Adaboost 算法流程
对于二分类任务,Adaboost 几本思路是训练d 个弱分类器 $G_1(x), G_2(x), …, G_d(x)$,然后把这些弱分类器线性组合成强分类器 $G(x)$。 $$G(x)=sign(f(x))$$ $$f(x)=\sum_
符号函数 符号函数
符号函数(Sign function,简称sgn)是一个逻辑函数,用以判断实数的正负号。 为避免和英文读音相似的正弦函数(sine)混淆,它亦称为 Signum function。其定义为: 参考 Wikipedia
决定系数(R2) 决定系数(R2)
一般用可决系数($R^2$)评价线性回归模型对数据的拟合程度。 它可以通过计算观测值 $y$ 和预测值 $\hat{y}$ 之间的相关性来得出。 $$R^2 = \frac{\sum(\hat{y}{t} - \bar{y})^2}{\
最小二乘法 最小二乘法
最小二乘法(英语:least squares method),又称最小平方法,是一种数学优化建模方法。它通过最小化误差的平方和寻找数据的最佳函数匹配。 最小化残差平方和来确定模型的各个参数($\beta_1, \beta_2, ….,
常用统计值及含义 常用统计值及含义
均值、方差、协方差、相关系数。 通用几个统计值 均值 The sum divided by the count. 数据集中程度的一个统计量,目的是确定一组数据的均衡点。 $$\mu_x=\bar{X}=\frac{\sum_{i=1}^{
使用 AR 和 ARIMA 模型预测比特币价格 使用 AR 和 ARIMA 模型预测比特币价格
使用比特币数据,预测未来7天比特币价格,演示 AR 和 ARIMA模型使用率高方法。 数据概览import pandas as pd import numpy as np from matplotlib import pyplot as p
单位根检验 单位根检验
单位根检验单位根检验是一种更客观的判定是否需要差分的方法。 这个针对平稳性的统计假设检验被用于判断是否需要差分方法来让数据更平稳。单位根检验的方法有很多种,ADF是一种常用的单位根检验方法,他的原假设为序列具有单位根,即非平稳,对于一个平稳
1 / 5