首页 > 专题套餐 > 大数据 > 数据挖掘与分析 > 文本大数据抓取与挖掘专题

文本大数据抓取与挖掘专题

文本数据是大数据时代的核心数据种类之一,从数据的采集、整理到分析挖掘都形成了独特的一套工具与方法体系。 本专题针对实际的大数据需求,从网络文本数据的采集开始,直至利用Python完成文本数据的分析挖掘,帮助零基础的学员逐步深入,渐次学习文本大数据抓取与分析的全部技能,直接升级至业界的**技术前沿。

3

门课程

143803

人学习

32小时20分钟

课程总时长

讲师评分:5.0

长久观看
 
系统化学习
 
课程内容答疑
  资料一键下载
专题套餐价 ¥286.20
立省190.80元

支持蚂蚁花呗分期

简单5步马上享受花呗分期:

1. 点击立即购买
2. 订单确认页, 点击 ”去支付“
3. 支付中心, 使用【支付宝】付款
4. 使用【支付宝】APP扫描付款二维码
5. 付款方式选择 花呗分期~ 搞定~

查看详情>>
星选讲师PK 实付满100减15
总价 ¥477.00

第一阶段:  网络爬虫设计与网络数据抓取

1门课程 10小时18分钟

在实战中学习如何对新浪、淘宝、微博等网站数据进行抓取,学员将学习如何独立设计相应的网络爬虫,抓取所需的页面数据,满足自身工作和研究中的几乎所有数据抓取需求。

第二阶段:  数据预处理

1门课程 11小时22分钟

学习学习Pandas包的使用方法,学员将能够独立使用Pandas包完成数据读入、数据清理、数据准备方面的工作,为后续进一步进行数据分析建模和数据挖掘打下坚实基础。

  • Python数据分析系列视频课程--学习Pandas

    72节 11小时22分钟
    课程目标:
    Pandas包是基于Python平台的数据管理利器,已经成为了Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,学习其使用方法,是使用Python进行数据分析和数据挖掘的必备条件。本课程将从中国高校综合排名和北京PM2.5实测数据两个实际案例出发,在实战中学习Pandas包的使用方法。学习完本课程后,学员将能够独立使用Pandas包完成数据读入、数据清理、数据准备方面的工作,学习如何使用统计图表工具进行数据信息呈现,为后续进一步进行数据分析建模和数据挖掘打下坚实基础。说明:为更贴近实战需求,本课程中的思考练习题一律不提供标准答案(因为实际项目不可能存在标准答案),望知悉。【更新历史】2022年1月:针对Anaconda最新版(python 3.8)和Pandas 1.3.5版完成兼容性测试,更新了对应的课程内容2021年11月:增加第14章:基于Pandas的图形化工具2021年10月:针对课程内容进行了功能增补2021年4月:针对最新的Pandas 1.2.3版进行了兼容性测试,更新了课程内容2020年9月,针对课程发布后Pandas至最新的 1.1.1 版增加的新功能对各章节做了增补和更新2020年3月,增加第13章:如何优化Pandas2020年3月,更新第2章:增加如何无缝读写SPSS数据文件,增加对读写命令的整体介绍【课程长度】总时长:10小时【学员基础】学员需要懂得Python语言的基本编程知识,可以先学习免费课程“Python语言轻松入门”。学员事前不要求学习统计分析的基本知识。学员事前不要求有任何统计软件的使用经验。

    课程大纲

    免费试看

第三阶段:  文本数据的挖掘分析

1门课程 10小时39分钟

多面学习文本挖掘技术的各个方面,从词袋模型直至目前最热的word2vec,gensim 等均结合实际案例进行学习,学员最终将能够独立使用Python环境完成中文文本挖掘的各种工作。

  • Python数据分析系列视频课程--学习文本挖掘

    67节 10小时39分钟
    课程目标:
    请至PC端网页下载本课程代码课件及数据。文本挖掘(TM),又称自然语言处理(NLP),是AI时代炙手可热的数据分析挖掘前沿领域,其所涉及的人机对话系统,推荐算法,文本分类等技术在BAT等企业中都得到广泛应用。本课程将使用经典武侠小说、大众点评抓取结果、微博语料数据等多个实际案例进行教学。本次课程将会从基本的分词、词袋模型、分布式表示等概念开始,多面介绍文本挖掘技术的各个方面,特别会针对目前最热的word2vec,gensim 等结合实际案例进行学习,帮助学员直接升级至业界技术前沿。学习完本课程后,学员将能够独立使用Python环境完成中文文本挖掘的各种工作。本课程已全部更新完毕,未来将根据方法学进展做不定期更新。【更新记录】2022.1:针对Anaconda最新版(python 3.8),gensim 4.1.2和pandas 1.3.5版完成兼容性测试,更新了对应的课程内容。2021.4:增加了“主题模型结果的可视化”一节。2021.3:按照最新的gensim 4.0.0版和pandas1.2.3版的情况,对课程内容做了全面修订更新。【课程长度】总时长:约11小时【学员基础】学员需要懂得Python语言的基本编程知识。建议学员事先学习本系列课程中的Pandas课程,本课程中的数据管理将会用到Pandas的相关知识和操作。【课程大纲】第1章:文本挖掘概述第2章:磨刀不误砍柴工第3章:分词第4章:词云展示第5章:文档信息的向量化第6章:关键词提取第7章:抽取文本主题第8章:文本相似度第9章:文档分类第10章:情感分析第10章:自动摘要第11章:自动写作

    课程大纲

    免费试看

文本大数据抓取与挖掘专题资料下载

课程名称 操作
零代码玩转网络爬虫!(2021版) 付费用户专享
Python数据分析系列视频课程--学习Pandas 付费用户专享
Python数据分析系列视频课程--学习文本挖掘 付费用户专享

文本大数据抓取与挖掘专题

¥477.00 ¥286.20
在线
客服
APP
下载

下载Android客户端

下载iphone 客户端

官方
微信

关注官方微信

返回
顶部