5.tf-idf计算

464 未经授权,禁止转载了解课程
课程介绍
讨论{{interaction.discussNum ? '(' + interaction.discussNum + ')' : ''}}
适合人群
大数据开发者,大数据案例学习者
你将会学到
本套教程通过对用户画像原理的剖析,让你学习用户画像的技术精髓。
课程简介

本课程授课老师

徐培成老师先后在软件公司人软件工程师、系统分析师、项目经理、软件架构师,主持开发了大产权交易系统,异构数据库协同系统、电信资源管理系统、互联网综合性调查等系统,对java技术、大数据(hadoop、storm、spark)、Python、机器学习、数据库技术、互联网应用、远程通信、网络编程、分布式应用、高可用性计算机网络集群等技术有着丰富的实战经验和深厚的技术功底。 


随着互联网和移动技术的快速发展,用户的各种数据海量规模的增长。用户数据同时也包括空间和动态等多种特征。在当今的大数据时代,需要计算机技术从数据中来了解用户,分析用户,通过用户画像技术为现实中人构建一个可用的数学模型,这个模型包括一系列的特征标签,通过统计分析和机器学习的方法对用户进行分类和各种行为的预测。


用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求与产品设计的,旨在通过从海量用户行为数据中炼银挖金,尽可能多面细致的抽出一个用户的信息全貌,从而帮助解决如何把数据转为商业价值的问题。

本套教程通过对用户画像原理的剖析,让你学习用户画像的技术精髓。

视频目录:
1.nlpir安装-初始化
2.nlpir安装-分词-用户-文件分词
3.结巴分词安装-分词处理
4.结巴分词安装-自定义实现tfidf计算
5.tf-idf计算
6.pageRank计算验证
7.spark CountVectorize Java
8.spark CountVectorize Scala
9.搜索词关键词抽取
10.贝叶斯分类
11.逻辑回归

展开更多
发布
头像

{{ item.user.nick_name }} {{ EROLE_NAME[item.user.identity] }}

置顶笔记
讨论图
{{ item.create_time }}回复
  • 删除

    是否确认删除?

    确认
    取消
  • {{ item.is_top == 1 ? '取消置顶' : '置顶'}}

    已有置顶的讨论,是否替换已有的置顶?

    确认
    取消
{{ tag.text}}
头像
{{ subitem.user.nick_name }}{{ EROLE_NAME[subitem.user.identity] }}
{{ subitem.create_time }}回复
删除

是否确认删除?

确认
取消
发布
{{pageType === 'video' ? '讨论区抢占沙发,可获得双倍学分' :'讨论区空空如也,你来讲两句~'}}
发布
{{tips.text}}
{{ noteHeaderTitle }} 笔记{{ hasMyNote ? '我的笔记' : '记笔记' }}
{{ hasMyNote ? '我的笔记' : '记笔记' }}
优质笔记
更新于:{{ $dayjs.formate('YYYY-MM-DD HH:mm:ss', item.last_uptime*1000) }}
头像
{{ detail.username }}

公开笔记对他人可见,有机会被管理员评为“优质笔记”

{{ noteEditor.content.length }}/2000

公开笔记
保存
提问

讲师收到你的提问会尽快为你解答。若选择公开提问,可以获得更多学员的帮助。

记录时间点
记录提问时视频播放的时间点,便于后续查看
公开提问
提交