Anaconda的安装与配置-51CTO学堂

{{ interaction.likeNum == 0 ? (pageType === 'video' ? '抢首赞' : '点赞') : formatNumber(interaction.likeNum) }} {{ interaction.collectionNum == 0 ? '收藏' : formatNumber(interaction.collectionNum) }} {{ interaction.discussNum == 0 ? (pageType === 'video' ? '抢沙发' : '讨论') : formatNumber(interaction.discussNum) }}

提问 {{ interaction.noteNum > 0 ? interaction.noteNum + '篇笔记' : '记笔记' }} 离线观看

下载学堂APP

缓存视频离线看

报告问题离线观看

下载学堂APP

缓存视频离线看

课程介绍

讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}

适合人群

希望能够成为Python编程和数据分析的跨界人才，目前尚未成功，但仍然在不断努力的人。

你将会学到

从基本的分词、词袋模型、分布式表示等概念开始，多面深入学习文本挖掘技术的各个方面。

课程简介

请至PC端网页下载本课程代码课件及数据。

文本挖掘（TM），又称自然语言处理（NLP），是AI时代炙手可热的数据分析挖掘前沿领域，其所涉及的人机对话系统，推荐算法，文本分类等技术在BAT等企业中都得到广泛应用。

本课程将使用经典武侠小说、大众点评抓取结果、微博语料数据等多个实际案例进行教学。

本次课程将会从基本的分词、词袋模型、分布式表示等概念开始，多面介绍文本挖掘技术的各个方面，特别会针对目前最热的word2vec，gensim 等结合实际案例进行学习，帮助学员直接升级至业界技术前沿。

学习完本课程后，学员将能够独立使用Python环境完成中文文本挖掘的各种工作。

本课程已全部更新完毕，未来将根据方法学进展做不定期更新。

【更新记录】

2022.10：针对Anaconda 10月最新版(python 3.9)，gensim 4.1.2版和pandas 1.4.4版完成兼容性测试，更新了对应的课程内容

2022.1：针对Anaconda最新版(python 3.8)，gensim 4.1.2和pandas 1.3.5版完成兼容性测试，更新了对应的课程内容。

2021.4：增加了“主题模型结果的可视化”一节。

2021.3：按照最新的gensim 4.0.0版和pandas1.2.3版的情况，对课程内容做了全面修订更新。

【课程长度】

总时长：约11小时

【学员基础】

学员需要懂得Python语言的基本编程知识。

建议学员事先学习本系列课程中的Pandas课程，本课程中的数据管理将会用到Pandas的相关知识和操作。

【课程大纲】

第1章：文本挖掘概述

第2章：磨刀不误砍柴工

第3章：分词

第4章：词云展示

第5章：文档信息的向量化

第6章：关键词提取

第7章：抽取文本主题

第8章：文本相似度

第9章：文档分类

第10章：情感分析

第10章：自动摘要

第11章：自动写作

1586915140861632_副本.png

讲师介绍.png

展开更多

发布

置顶笔记

{{ item.create_time }}{{ Number(item.like_count) || '' }}回复

删除
是否确认删除?
确认
取消
{{ item.is_top == 1 ? '取消置顶' : '置顶'}}
已有置顶的讨论，是否替换已有的置顶？
确认
取消

{{ subitem.create_time }}{{ Number(subitem.like_count) || '' }}回复

删除

点击查看更多收起

发布

{{ noteHeaderTitle }} 笔记{{ hasMyNote ? '我的笔记' : '记笔记' }}

优质笔记

更新于：{{ $dayjs.formate('YYYY-MM-DD HH:mm:ss', item.last_uptime*1000) }}

公开笔记对他人可见，有机会被管理员评为“优质笔记”

{{ noteEditor.content.length }}/2000

公开笔记

保存

提问

讲师收到你的提问会尽快为你解答。若选择公开提问，可以获得更多学员的帮助。

记录时间点

记录提问时视频播放的时间点，便于后续查看

公开提问

提交