广电大数据用户画像及营销推荐策略(一)——Python实现

本次大数据项目数据及分析均做脱敏化和保密化,主要分享思路体系,全程用Python实现,数据和代码均不提供。如有建议欢迎讨论!

前言

       “一切业务数据化,一切数据业务化”,回顾几十年的中国企业信息化发展历程,就是“业务数据化”的过程——企业持续在IT方面进行投入和建设,不断将发展过程中业务和经营管理端的各种能力以数据形态沉淀下来。而接下来的“数据业务化”则是将已经成为资产的数据作为生产资料

       数据中台作为整个企业各个业务所需数据服务的提供方,通过自身的平台能力和业务对数据的不断滋养(业务数据化),会形成一套高效可靠的数据资产体系和数据服务能力(数据资产化和资产服务化)。这样当出现新的市场变化,需要构建新的前台应用时,数据中台可以迅速提供数据服务(服务业务化),从而敏捷地响应企业的创新。业务产生数据,数据服务业务,形成闭环。值得一提的是,数据中台不仅仅是一种技术平台,倘若仅停留于此,就完全忽略了从IT到DT的本质变化是“围绕数据资产进行价值的持续积累和释放”。单纯增大技术投入和人才投入无法保障企业经营效能的持续提升,只有站在数据价值观和方法论的高度,才可能系统性解决企业经营发展中关于数据的诸多问题。谁能率先解决面向数字经济特征的全新数据价值观和方法论的问题,并在其指引下打造出平台级能力,谁就能真正意义上帮助企业把数据用起来。

       以下解释借鉴《数据中台:让数据用起来》。

       “让数据用起来”,既是终极目标,也是数据中台要为处于不同数据认知成熟度阶段的企业实现的一个个具体目标。业务不会停滞,信息化不断追求自身的价值,数据部门力图与业务部门具有同等组织地位和话语权,业务部门不断提出新的挑战,政府在加速拉动数字经济建设……数据中台未来会经过以下几个发展阶段。

第一阶段:数据中台探索

       这个阶段是个过渡阶段。一方面,传统的数据应用过往都是从外往内的(利用外部的技术、数据和资源来服务内部需求)。例如,零售行业要做精准营销,在广告上砸钱,做用户画像分析,利用外部的技术、数据、资源来服务内部需求,但是做完了会发现企业自身没有沉淀,又回到了原点。另外一方面,还是要借助一个个具体的场景化数据应用来推动企业对数据中台的认知,积累各行业(特别是头部客户)的业务和服务经验快速迭代和打造数据中台。

       这个阶段会将数据生命周期各个阶段的技术与现有业务场景或创新业务场景结合,迅速形成可见、可展示的业务成果。特点是项目短小精悍,容易见效果,缺点是由于缺乏数据中台整体规划及让数据用起来的完整流程设计,无法对众多单个数据应用沉淀的数据形成通用数据资产,每个项目都需要从头到尾走一遍,当应用需求爆发式增长时,底层数据支撑的效率会大幅度下降,甚至影响最终的业务效果。

第二阶段:数据中台整合数据应用提升效率

       这一阶段的特点是构建数据中台的技术、理念、方法论是可复制的,市场上已有成熟的支撑数据中台高效运转的平台级产品。企业通过规划、建设、实施数据中台能够具备三方面的基础能力:

·数据的多样性、多态性、多云连接能力(汇聚/交换能力)。交换的能力用来解决企业有哪些数据、数据在哪里等问题。

·数据资产化的能力是数据中台建设的关键,包括清洗、加工、治理、安全、质量等工具模块及实施方法论。(说明:能直接作用于业务领域,业务能阅读、能理解的数据才叫数据资产。)

·数据服务化的能力,用数据技术来使用数据的方法。

       有了这三个能力,就能将上一阶段构建起来的场景级数据应用,甚至是历史建成的系统都整合成企业级数据应用平台,既能满足原有系统对数据的需求,又能快速满足新业务场景对数据的需求,将数据作为资产上架,成为共享的生产要素。

第三阶段:数据中台重构数据空间和业务空间

       到了这一阶段,数据中台已经成为企业数据资产的核心能力和基础,通过快速构建数据资产体系,帮助企业真正实现对其全量数据的有效管理。业务和业务流程本身都可以通过适当的颗粒度进行数字化解耦和标准化,企业能够以自我为中心构建更加宏大的产业、行业价值链范围的数据空间和业务空间,以数据编排的方式响应业务需求,彻底颠覆传统的软件工程方式,业务实现自流程化,数据实现自我管理能力。

       这里需要引入业务空间和数据空间的基本概念。

·企业业务空间:企业任何一个业务条线从初始设立到日益精细分化,一般都遵循一个共性的演进过程:清晰定义该业务条线内专项业务的“毛细血管”功能体系、建设或升级相应技术支撑系统、生成专项业务数据。当所有业务条线都遵循这个发展规律,纵横交错的业务条线构成了企业实际运营的多维业务空间。企业的业务空间是产生和形成全量数据的根本依据和前提。

·企业数据空间:在数字化时代,任何一家企业都是市场生态中的一个节点,从数据交换的宏观视角来看,任何一家企业的数据全集只是整个市场数据生态空间中的一个子集。从企业自身视角来看,依据数据的生成和交互方式,企业全量数据的数据空间大致由三个维度构成:自主生产和消费的数据、外部数据(含单向外部获取数据和单向对外提供数据)、内外部交互数据。

       数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。 数据来自于业务,并反哺业务,不断循环迭代,实现数据可见、可用、可运营。通过数据中台把数据变为一种服务能力,既能提升管理、决策水平,又能直接支撑企业业务。数据中台不仅仅是技术,也不仅仅是产品,而是一套完整的让数据用起来的机制。既然是“机制”,就需要从企业战略、组织、人才等方面来全方位地规划和配合,而不能仅仅停留在工具和产品层面。

1、目标分析

1.1 背景

       随着经济的不断发展,人民的生活水平显著提高,对生活质量的要求也在提高。同时互联网技术的高速发展适应了时代的需求,为人们提供了许多娱乐的渠道。其中“三网融合”为人们在信息化时代利用网络等高科技手段获取所需的信息提供了极大的便利。

       “下一代广播电视网(NGB;Next Generation Broadcasting)”即广播电视网、互联网、通信网“三网融合”,有线无线相结合、全程全网的广播电视网络。它不仅可以为用户提供高清晰的电视、数字音频节目、高速数据接入和语音等三网融合业务,也可为科教、文化、商务等行业搭建信息服务平台,使信息服务更加快捷方便。在三网融合的大背景下,广播电视运营商与众多的家庭用户实现信息实时交互。这使大数据分析与挖掘为用户提供智能化的产品推荐成为可能。

       2020年10月12日,中国广电网络股份有限公司揭牌成立。中国广电网络股份有限公司是在党中央、国务院和各级党委、政府大力关心支持下,在中宣部和广电总局直接领导下组建成立的中央文化企业。揭牌意味着“全国一网”的主体公司组建工作任务基本完成,全国有线电视网络整合取得突破性成效。

       中国广电网络股份有限公司成立后,将按照“统一建设、统一管理、统一标准、统一品牌”的要求,建立有线电视网络整合和广电5G建设统一运营管理体系。公司将进一步优化网络资源配置,推动全国有线电视网络升级改造,实现集约化发展,统筹有线、无线、卫星协调发展,形成一个多功能的国家数字文化传播网,建设兼具宣传文化和综合信息服务特色的可管可控、安全可靠的新型智慧融合网络,强化有线电视网络作为意识形态领域主渠道、主阵地的作用,切实提高传播力、引导力、影响力、公信力,更好地满足人民群众多样化多层次的精神文化需求。

       中国广电股份有着丰富的资源优势——2.06亿有线电视家庭用户、220万公里全国有线电视光纤网络,全国广播电视节目传送、宽带电视集成播控等多项广播电视业务牌照与资质;国内通信设施服务、互联网国内数据传送等基础电信业务牌照资质,更有5G商用牌照和700MHz和4.9GHz、3.3GHz等多段优质频率。“全国一网”将努力建成一张可管可控高效安全的绿色网,一张多功能国家数字文化传播网,一张兼具宣传文化和综合信息服务特色的新型智慧融合网。

       2020年11月2日,在2020世界超高清视频(4K/8K)产业发展大会开幕式上,广州市人民政府与中国广播电视网络有限公司签署了战略合作框架协议,就广电5G核心网华南中心节点落户广州达成合作意向。双方将充分发挥广州市区位、产业和政策资源优势,结合中国广电的网络技术资源优势,加快推动广电5G核心网华南中心节点建设,助力广东、广州数字信息产业发展。

       伴随互联网和移动互联网的快速发展,各种网络电视/视频应用(爱奇艺、腾讯视频、优酷视频、乐视视频、电信移动等)遍地开花,越来越多人群的电视观看行为正发生变化,由之前的传统电视媒介向电脑、手机、平板端的网络电视转化。

       在这种新形势下传统广播电视运营商感受到的危机也越来越明显。另一方面,“三网融合”为传统广播电视运营商带来发展机遇,特别是随着超清/高清交互数字电视推广,广播电视运营商可以和家庭用户实现信息实时交互,家庭电视也逐步变成多媒体信息终端。本集团已建成完整覆盖各区(县级市)的有线传输与无线传输互为延伸、互为补充的广电宽带信息网络,实现了城区全程全网的双向覆盖,为广大市民提供有线数字电视、互联网接入服务、高清互动电视、移动数字电视、手机电视、信息内容集成等多样化、跨平台的信息服务。其信息数据收集过程如图1所示,首先每个家庭收看电视节目都需要有一个机顶盒来进行收视节目的接受和交互行为(如点播行为、回看行为)的发送,然后会发送至每个区域的光机设备(进行数据传递的中介)汇集该区域的信息数据,最后再由各光机设备发送至数据中心进行数据整合、存储在大数据平台中。

信息数据传递过程

      由于在已建设的大数据平台积累了大量用户基础信息和用户观看记录信息等数据,需在此基础上进一步挖掘出数据价值、形成客户画像,实现精准的营销推荐。总而言之,智能营销推荐服务可以为用户提供个性化的服务,增加用户黏度,从而使用户与企业之间建立稳定交互关系,实现客户链式反应增值。

1.2 数据说明

       在大数据平台中存有用户的基础信息(安装地址等)、订单数据(产品订购、退订信息)、工单数据(报装、故障、投诉、咨询等工单信息)、收费数据(缴费、托收等各渠道支付信息)、账单数据(月租账单收入数据)、双向互动电视平台收视行为数据(直播、点播、回看、广告的收视数据)、用户上网设备的指标状态数据(上下行电平、信噪比、流量等),共7种数据。

本次抽取了2000用户2020年5月12日至2020年6月12日的收视行为信息数据、账单数据、订单数据、收费数据及用户状态数据,并对5份数据表做脱敏处理。各数据表及属性说明,如表1所示。

1 各数据表及属性说明

表名

含义

收视行为信息数据

(media-index)

用户名

观看时长

直播频道名称

开始观看时间

结束观看时间

设备名称

用户等级号

用户等级名称

清晰度

节目地区

语言

节目分类

节目类型

节目名称

账单数据

(mmconsume-billevents)

费用类型

账单时间

业务品牌

应收金额

返回金额

地址编号

订单数据

(order-index)

产品订购更新时间

产品订购状态

金额

产品生效日期

产品失效日期

收费数据

(mmconsume-payevents)

支付方式

支付时间

支付渠道

用户状态数据

(mediamatch-userevents)

状态名称

状态更新时间

1.3 分析目标

       在人们对生活质量的要求越来越高的时代,有许许多多的产品被开发出来满足人们的需求。但是个性化的需求和数不胜数的产品如何才能达到最优匹配?在电视产品中同样存在这个问题。不管是从电视产品的数量还是种类上看,产品越来越丰富。而每个人对电视产品的需求也大不一样,在挑选搜寻想要的信息过程中,需要花费大量的时间,这种情况的出现造成了用户的不断流失,对企业造成巨大的损失。所以快速发现用户兴趣及个性化需求是这个时代的特征。

       广电项目的业务需求即需要实现的目标如下。

  1. 通过深入整合用户的相关行为信息,构建用户画像。
  2. 再利用产品信息数据,针对用户提供个性化精准推荐服务,有效提升用户的转化和生命周期价值。

广电大数据营销推荐的总体流程如图 2所示,主要步骤如下。

  1. 抽取2000用户5月12日至6月12日的收视行为信息数据、账单数据、订单数据、收费数据及用户状态数据。
  2. 对抽取的数据进行数据清洗,属性规约,用户画像(特征构造),客户价值分析,网络爬虫,标准化等操作。
  3. 基于物品的协同过滤算法推荐模型和基于Simple TagBased TF-IDF算法的用户画像(标签)推荐模型。
  4. 训练出推荐模型后进行模型评价及优化。
  5. 针对模型的推荐结果得到不同价值的客户的推荐产品,采用不同的营销手段。

2 广电大数据营销推荐总体流程

文章未经博主同意,禁止转载!