kaggle 房价预测:先进的回归技术
发表于
数据集载入数据集1234import numpy as npimport pandas as pdtrain = pd.read_csv('train.csv')test = pd.read_csv('test.csv')
查看训练集1train.head(10)
查看测试集1train.head(10)
处理 Id 列因为 Id 列与预测无关,现将其保存,然后从训练集和测试集中删除。1234train_ID = train['Id']test_ID = test['Id']train.drop("Id", axis = 1, inplace = True)test.drop("Id",
...
kaggle 泰坦尼克:从灾难中学习算法
发表于
数据集Titanic 数据集是源自 1912 年泰坦尼克号沉没事故的存亡情况统计,1500 多人死于这场灾难。我们的训练数据集提供了共 891 名乘客的具体信息,包括姓名、性别、船舱等级、船票价格等,最重要的是 survived 信息:0/1 代表着死亡与幸存,我们的任务就是从这 891 名乘客信息中寻找特征,确定模型,用以预测测试数据集中其他 418 名乘客的幸存/死亡情况。
数据集下载链接
数据预处理载入数据集123456# 载入数据集train = pd.read_csv('train.csv')test = pd.read_csv('test.csv')full_data = [tra
...
机器学习实战-随机森林
随机森林(决策树)模型数据集社交网络-Social_Network_Ads.csv
导入库123import numpy as npimport matplotlib.pyplot as pltimport pandas as pd
导入数据集123dataset = pd.read_csv('../datasets/Social_Network_Ads.csv')X = dataset.iloc[:, [2, 3]].valuesy = dataset.iloc[:, 4].values
将数据集拆分成训练集和测试集12from sklearn.model_selection import
...
机器学习实战-决策树
基本步骤数据集社交网络-Social_Network_Ads.csv
导入需要用到的python库123import numpy as npimport matplotlib.pyplot as pltimport pandas as pd
导入数据集123dataset = pd.read_csv('Social_Network_Ads.csv')X = dataset.iloc[:, [2, 3]].valuesy = dataset.iloc[:, 4].values
将数据集拆分为训练集和测试集12from sklearn.model_selection import train_t
...
机器学习实战-支持向量机 SVM
基本步骤数据集社交网络-Social_Network_Ads.csv
第 1 步:导入库123import numpy as npimport matplotlib.pyplot as pltimport pandas as pd
第 2 步:导入数据123dataset = pd.read_csv('Social_Network_Ads.csv')X = dataset.iloc[:, [2, 3]].valuesy = dataset.iloc[:, 4].values
第 3 步:拆分数据集为训练集合和测试集合12from sklearn.model_selection import
...
机器学习实战-K近邻法 K-NN
数据集 | 社交网络
第 1 步:导入相关库123import numpy as npimport matplotlib.pyplot as pltimport pandas as pd
第 2 步:导入数据集123dataset = pd.read_csv('Social_Network_Ads.csv')X = dataset.iloc[:, [2, 3]].valuesy = dataset.iloc[:, 4].values
为了方便理解,这里我们只取 Age 年龄和 EstimatedSalary 估计工资作为特征。
第 3 步:将数据划分成训练集和测试集12from sklear
...
机器学习实战-逻辑回归
逻辑回归数据集 | 社交网络该数据集包含了社交网络中用户的信息。这些信息涉及用户 ID,性别,年龄以及预估薪资。一家汽车公司刚刚推出了他们新型的豪华 SUV,我们尝试预测哪些用户会购买这种全新 SUV 。并且在最后一列用来表示用户是否购买。我们将建立一种模型来预测用户是否购买这种 SUV,该模型基于两个变量,分别是年龄和预计薪资。因此我们的特征矩阵将是这两列。我们尝试寻找用户年龄与预估薪资之间的某种相关性,以及他是否购买 SUV 的决定。
步骤1 | 数据预处理导入库123import numpy as npimport matplotlib.pyplot as pltimport pand
...
机器学习实战-线性回归
简单线性回归模型
数据集每一行数据表示一个学生的学习时间和考试分数。|Hours |Scores ||——-|——-||2.5 |21 ||5.1 |47 ||3.2 |27 ||8.5 |75 ||3.5 |30 ||1.5 |20 ||9.2 |88 ||5.5 |60 ||8.3 |81 ||2.7 |25 ||7.7 |85 ||5.9 |62 ||4.5 |41 ||3.3 |42 |
...