看啥推荐读物
专栏名称: AIGC开发者
致力于成为国内最好的Python开发者学习交流平台,这里有关于Python的国内外最新消息,每日推送有趣有料的技术干货和社区动态。 官方网站:www.python-cn.com
今天看啥  ›  专栏  ›  AIGC开发者

使用 Python+PySpark 做用户画像

AIGC开发者  · 公众号  · Python  · 2019-10-10 19:32
♚作者:KingShine,现居北京,程序猿一枚。主要方向为数据分析、自然语言处理,大数据。希望结交到志同道合的朋友,共同进步。一、数据准备本文主要是作为一个PySpark的入手实例来做,数据来源网络。主要用到两个数据文件:action.txt,document.txt。下表为action.txt,数据格式:userid~docid~behaivor~time~ip,即:用户编码~文档编码~行为~日期~IP地址下表为document.txt,数据格式:docid~channelname~source~keyword:score,即:文档编码~类别(大类)~主题(细类)~关键词:权重二、用户点击率用户点击率即为action.txt文件中每个用户behaivor列中1的数量除以0的数量。1、创建SparkSession对象2、读取数据,将数据根据‘~’拆分,获取userid和behavior两列click_rate1数据如下:3、统计用户的各类行为数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照