Python中K近邻点模型的介绍及案例的Python代码分析-51CTO学堂-机器学习的案例

{{ interaction.likeNum == 0 ? (pageType === 'video' ? '抢首赞' : '点赞') : formatNumber(interaction.likeNum) }} {{ interaction.collectionNum == 0 ? '收藏' : formatNumber(interaction.collectionNum) }} {{ interaction.discussNum == 0 ? (pageType === 'video' ? '抢沙发' : '讨论') : formatNumber(interaction.discussNum) }}

提问 {{ interaction.noteNum > 0 ? interaction.noteNum + '篇笔记' : '记笔记' }} 离线观看

下载学堂APP

缓存视频离线看

报告问题离线观看

下载学堂APP

缓存视频离线看

课程介绍

讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}

适合人群

学习金融学、数据、计算机的高校生、在职的基金经理、投研总监、专业投资者、金融分析师、量化分析

你将会学到

处理数据集；金融数据标准化；K近邻点分类模型的选择和应用；用K近邻点模型进行预测；K近邻点模型的评估

课程简介

案例数据集来源于UCI网站。案例是基于美国统计局的人口普查资料数据。案例的目标是希望利用这些数据来预测年收入大于5万美元的家庭。该数据集内包含48842条记录和14个特征变量，包括1个分类变量。变量包括类别型，字母型，和数值型。

K近邻点分类算法是机器学习领域中的一个基础且非常重要的算法。K近邻点算法是一种基于实例的算法，就是把所有训练样本储存起来（形成记忆）。当我们对一个新纪录进行预测时，就将新记录与记忆中的记录进行比较，找到最接近（或最类似）新记录的K条记录，然后通过分类规则来确定该新记录所属的类别。Python的优势在于开源，基于Python的各类机器学习算法非常丰富而且方便使用。我们将以美国统计局的人口普查资料数据案例数据集为一个点的同时，讨论 K近邻点分类算法的原理，及其在Python中的算法，并用他们来解决案例的预测分类。

本案例的特点是将家庭收入预测问题的解决方案与机器学习中的K近邻点分类算法进行结合，并利用Python设计一个自动分类的预测算法来对案例数据集进行学习并辅助我们进行决策。这三者的结合就是智能金融在金融行业的一种经典应用。

通过案例学习后，如果学生能够独立完成作业，学生将能达到以下预期目标：