大数据技术-数据标签

2023-07-17

无论是在数据中台，还是传统产品设计中，绕不开的几个概念：分类、属性、标签。

之前的文章中也提到了数据资产，数据资产怎么来，涉及到对资产的“组织形式”进行管理。

标签类目体系方法论是一种面向业务的数据资产建设办法，具体为：用“标签”来作为数据资产的最小单元组织载体，用“标签类目体系”作为数据资产目录的整体组织结构载体。

另外，在很长一段时间里，很多人提到大数据应用，首先想到的就是个性化推荐，推荐系统就是通过给用户进行用户画像的方式来实现，而所谓的用户画像，很大程度上就是给用户打标签。

现如今：各大互联网APP（淘宝、今日头条、小红书、抖音等）都有一个基于标签体系的推荐引擎模块，通过用户静态属性和行为属性给用户打标签，形成360度用户画像，然后根据用户的偏好将信息或产品推送给用户。

什么是数据标签

标签，原意是标明物品的品名、重量、体积、用途等信息的简要标牌，例如：商品标签、图书标签、车检标签、文件标签、服装吊牌等。从这个概念衍生到网络标签，是人工或系统自动或用户自发的，通过相关性很强的关键字对事物或内容进行描述，帮助人们分类内容，以便于检索和分享。例如：我们也可以给“人”这个对象打上男人或女人，老人或青年的标签。可见，标签也有维度或分类，而属性也是一种标签。

数据分类VS 数据标签

分类，就是指按照种类、等级、性质或特征的归类。也就是把相同属性或特征的“对象”归集在一起，形成不同的类别，方便人们通过类别来对“对象”进行的查询、识别、管理和使用。“对象”可以是人、产品、物料或其他实体，例如：人可以分为男人、女人，也可以分为老年人、中年人、青少年。

前边的例子中，男人、女人，老人、青年，这既可以是对人的分类，也可以是人的标签。分类和标签有时候没有明确的分界线，分类可以作为一个标签，标签也可以抽象出分类。那么，分类和标签到底有什么不同？

关于这个问题，知乎上网友的一个回答挺有意思的：

分类由于只能隶属于一个，所以往往带有武断和不恰当的色彩，它是一个“is a”的问题，属于本质论的范畴，而对事物的“本质”的认定，严格来说，这事只有上帝才能做，换句话说，谁做都不合适。标签则不同，它是一个“has a”的问题，说某个东西有某种属性，要求就没那么严格了。

这里学过编程的同学一定了解过类class和接口interface的区别，class就是is a的问题，而interface就是has a的问题。一只小猫可以继承自动物类，也可以实现可以跑、可以跳的接口。

除此之外，分类和标签还存在如下不同点：

1、分类一般是面向团队或组织的，注重标准化；而标签可以面向组织，也可以是面向个人，注重的是个性化。

2、分类具有排他性，分类之间是独立的、不能交叉；而标签允许交叉，标签之间可以相互关联、相互依赖。

3、分类体系需要事先规划，在标准化的框架下进行使用；而标签可以静态的，也可以是动态的，允许随时添加。

4、分类注重结构化，具有层级控制，是一个树状结构；而标签的结构是松散、灵活、开放的，整体看是一个网状结构。

标签的分类

标签是用来标志您的产品目标和分类或内容，像是您给您的目标确定的关键字词，便于您自己和他人查找和定位自己目标的工具。目前标签广泛的使用到我们的工作和生活中，常见标签有三类：实物标签、网络标签和电子标签。

实物标签是用于标明物品的品名、重量、体积、用途等信息的简要标牌，例如：商品标签、图书标签、车检标签、文件标签、服装吊牌、车票、登机牌都是实物标签。

网络标签(Tag)是一种互联网内容组织方式，是相关性很强的关键字，它帮助人们轻松的描述和分类内容，以便于检索和分享，Tag是web 2.0的重要元素。

电子标签又称RFID射频标签，是一种识别效率高和准确性好的识别工具，通过射频信号自动识别目标对象并获取相关数据，识别工作无须人工干预，可工作于各种恶劣环境。

建设标签的步骤

第一，需要从业务视角对企业数据进行梳理，并将各业务域、各渠道、各类型的数据进行采集和汇聚。

第二，通过对数据进行分类处理，从中提炼出可复用的行为元素（业务线、实体对象、实体属性、动作等），通过沉淀行为元素，可以更好地规范来源数据。这里业务线是在不同业务运营线，例如：某造纸公司有生活纸运营线，文化纸运营线、工业纸运营线、特种纸运营线等。实体对象是指操作和被操作的各商业主体，例如：用户、产品等。实体属性是指实体对象的属性特征信息，例如：用户的年龄、性别、喜好等。动作就是主体发出的操作，例如：询价、购买、浏览等。

第三，根据对象的行为元素给对象打上相应的“标签”，以支持信息查询、信息推送等应用。与传统博客、CMS（文章管理系统）的手动给内容打标签不同，数据中台是根据对象的行为规则自动给对象打标签，并且可以设置行为数据的时间衰减算法，为不同标签分配不同的权重，形成全面的“用户画像”，做到“比用户自己还了解他自己”。

第四，各相关应用直接调用数据中台的标签体系、画像服务，支持企业的精准营销、个性推荐、渠道优化、产品创新等应用场景。

基于标签的用户画像

而我们这里用户画像使用的标签是网络标签的一种深化应用方式，是某一种用户特征的符号表示，是我们观察、认识和描述用户的一个角度，用户标签是基于用户的特征数据、行为数据和消费数据进行统计计算得到的，包含了用户的各个维度。而所谓的用户画像就是可以用用户标签的集合来表示的，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具。

用户画像，即用户信息标签化，就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

用户标签的分类

1、按照标签的变化频率，可分为静态标签和动态标签。

静态标签是指用户与生俱来的属性信息，或者是很少发生变化的信息，比如用户的姓名、性别、出身日期，又例如用户学历、职业等，虽然有可能发生变动，但这个变动频率是相对比较低或者很少发生变化的。动态标签是指非常经常发生变动的、非常不稳定的特征和行为，例如“一段时间内经常去的商场、购买的商品品类”这类的标签的变动可能是按天，甚至是按小时计算的。

2、按照标签的指代和评估指标的不同，可分为定性标签和定量标签。

定性标签指不能直接量化而需通过其他途径实现量化的标签，其标签的值是用文字来描述的，例如“用户爱好的运动”为“跑步、游泳”，“用户的在职状态”为“未婚”等。定量标签指可以准确数量定义、精确衡量并能设定量化指标的标签，其标签的值是常用数值或数值范围来描述的。定量标签并不能直观的说明用户的某种特性，但是我们可以通过对大量用户的数值进行统计比较后，得到某些信息。例如“用户的年龄结构”为“20-25岁”、“单次购买平均金额”为“300元”，“购买的总金额”为“20万元”……，当我们获得以上信息是否就可以将该用户划分为高价值客户呢？

3、按照标签的来源渠道和生成方式不同，可以分为基础标签、业务标签、智能标签。

基础标签主要是指对用户基础特征的描述，比如：姓名、性别、年龄、身高、体重等。业务标签是在基础标签之上依据相关业务的业务经验并结合统计方法生成的标签，比如：用户忠诚度、用户购买力等标签就是根据用户的登录次数、在线时间、单位时间活跃次数、购买次数、单次购买金额、总购买金额等指标计算出来的。业务标签可以将经营固化为知识，为更多的人使用。智能标签是利用人工智能技术基于机器学习算法，通过大量的数据计算而实现的自动化、推荐式的进行打标签，比如今日头条的推荐引擎就是通过智能标签体系给用户推送其感兴趣的内容的。

4、按照标签体系分级分层的方式，可以分为一级标签、二级标签、三级标签等，每一个层级的标签相当于一个业务维度的切面。在标签应用中按照不同的业务场景进行标签组合，形成相应用户画像。

5、按照数据提取和处理的维度，可以将标签分为事实标签，模型标签，预测标签。这种用户标签的分类方式更多是面向技术人员使用，帮助他们设计合理的数据处理单元。

事实标签。既定事实，直接从原始数据中提取，描述用户的自然属性、产品属性、消费属性等，事实标签其本身不需要模型与算法，实现简单，但规模需要不断基于业务补充与丰富，比如：姓名、购买的产品品类、所在小区等。

模型标签。对用户属性及行为等属性的抽象和聚类，通过剖析用户的基础数据为用户贴上相应的总结概括性标签及指数，标签代表用户的兴趣、偏好、需求等，指数代表用户的兴趣程度、需求程度、购买概率等。

预测标签。参考已有事实数据，基于用户的属性、行为、位置和特征，通过机器学习、深度学习以及神经网络等算法进行用户行为预测，针对这些行为预测配合营销策略、规则进行打标签，实现营销适时、适机、适景推送给用户。例如试用了某产品A后预测可能还想买产品B并推送购买链接给该用户。

用户画像的场景

用户画像，即用户信息标签化，是企业通过收集与分析消费者基本属性、社会属性、生活习惯、行为特征等主要信息的数据之后，抽象出用户的商业全貌。大数据的发展让各行各业都日益聚焦于怎样利用大数据了解用户需求，实现精准营销，进而深入挖掘潜在的商业价值。

不同的企业做用户画像有不同的战略目的，广告公司做用户画像是为精准广告服务，电商做用户画像是为用户购买更多商品，内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现。企业对用户的了解越多，就越容易为用户提供所需产品和服务，从而提升用户的粘性，提升企业盈利能力

1、了解用户

不得不承认大数据正在改变着各行各业，以前了解用户主要是通过用户调研和访谈的形式，形式单一、数据收集不全、真假难辨。尤其是在产品用户量扩大后，调研的效用降低，以不能满足企业发展的要求。利用大数据技术，基于标签体系构建用户的360°画像，从用户的各个维度进行分析，了解用户是谁，他们有什么特征，他们的兴趣偏好，而这些信息的研究是企业制定营销策略、服务策略，提升用户满意度的重要依据。

2、精准营销

要做到精准营销，数据是最不可缺的存在。以数据为基础，建立用户画像，利用标签，让系统进行智能分组，获得不同类型的目标用户群，针对每一个群体策划并推送针对性的营销。精准化营销具有极强的针对性，是企业和用户之间点对点的交互。它不但可以让营销变得更加高效，也能为企业节约成本。

3、产品创新

在用户需求为导向的产品研发中，企业通过获取到的大量目标用户数据，进行分析、处理、组合，初步搭建用户画像，做出用户喜好、功能需求统计，从而设计制造更加符合用户核心需求的新产品，为用户提供更加良好的体验和服务。

4、渠道优化

当前的零售企业的销售渠道有多种，比如：自营门店、经销商代理、电商平台、电商APP等，每个渠道的用户群体的消费能力、兴趣偏好可能是不一样的，通过用户画像可以让合适的产品投放在合适的渠道投放，从而增加销售量，这是目前零售行业惯用的方法。

5、个性推荐

众所周知，今日头条是个个性化的新闻推荐引擎，在今日头条CEO张一鸣看来，算法是《今日头条》这款兴趣推荐搜索引擎应用的核心，这也是与传统媒体最本质的区别，今日头条之所以能够非常懂用户，精准推荐出用户所喜好的新闻，完全得益于算法，而正是精准推荐，使得今日头条在短短两年多的时间内拥有了2.2亿用户，每天有超过2000万用户在今日头条上阅读自己感兴趣的文章。

标签体系架构

按照应用系统分层设计的原则，基于标签体系的用户画像的体系结构可以分为：数据源层、数据采集层、数据建模层、数据应用层，行业应用层等。

数据源层：用户标签体系建设的需要从不同的来源汇集数据，例如，企业的核心系统（不同的行业其核心系统不同，对制造业来说核心系统有ERP、MES、PLM等），营销系统（CRM），互联网数据（电商平台以及微信、微博、论坛等社交平台获取的数据），以及从第三方专业机构获取的数据（各地的数据交易中心购买的数据）。

数据采集层：与传统数据项目的数据采集不同，基于标签体系的用户画像的数据来源广泛、数据量巨大，数据类型丰富（包括：结构化数据、半结构化数据和非结构化数据），有线上的用户行为数据，也有应用系统日志数据，有互联网爬虫数据，也有API接口的第三方数据包。用户画像数据采集需要通过网络爬虫或网站公开API等方式从网站上获取数据信息，并且可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并支持以结构化的方式存储。同时支持图片、音频、视频等文件或附件的采集，附件与正文可以自动关联。

数据建模：基于标签体系的用户画像建模主要是针对用户画像的建模和产品的建模。产品画像建模包括了数据清洗、文本建模、类别识别、品牌识别、属性识别、产品画像等；用户画像建模包括了数据清洗、用户全渠道ID识别、信息整合、分析建模和用户画像。通过统一产品类目和属性体系和统一的用户画像标签体系的建设，为用户标签的应用提供支撑。

数据应用：即基于标签体系的应用，包括分析类应用（如用户分析、产品分析）、服务类应用（如服务及产品创新）、营销类应用（精准营销）、数据接口API等。

行业应用：基于标签体系的用户画像在各行业的所应用和探索，将为行业的发展和创新带来更多可能。

画像体系架构

1、数据采集

用户画像是根据用户的人口信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像，用户画像数据来源多样，采集方式也不同：有线下采集的信息，比如通过访谈、调研等方式采集的数据；有线上采集的信息，比如：消费记录、浏览日志、收藏记录等；有从第三方接口接入的信息，比如微信接口可以获取用户微信的昵称、性别、地域，QQ接口可以获取用户QQ的昵称、性别、年龄、生日、星座、地域等信息；还有通过爬虫获取的数据；比如微博、评论、论坛等社交媒体的内容；通过机器学习来训练得到信息，比如通过预置机器学习算法，利用网络爬虫不断抓取数据进行大量计算得出来的数据，比如情感偏好、购物偏好等。

2、数据清洗

大家都知道大数据有一个特征Value（价值密度低），在标签体系的建设是在大数据环境下进行的，大数据的低价值密度性决定着在采集回来的数据中存在着大量的噪声数据、脏数据，比如：缺失值、重复、数值异常等。要实现精准的用户画像就需要对这些噪声数据、脏数据进行处理，这个过程我们叫做数据清洗。常见的数据清洗方法：缺失值处理，对于缺失数据的处理方法有三种，一是删除缺失数据（数据采集不易，一般不轻易删除数据）；二是补齐缺失数据，常用方法有：均值插补、中位数插补、最大值插补、最小值插补、固定值插补、最近邻插补、热卡填补法等；三是不处理缺失数据。重复数据处理（删除重复的数据）。异常数据处理，对于异常数据的处理常用的方式是一定的规则先找到异常数据，查找异常数据常用的方法包括：统计分析、分类聚类、箱型图分析、模型检测、密度分析、距离分析等。在找到异常数据后，根据业务情况确定是删除、修正或补齐异常数据值。

3、数据标准化

在做用户画像分析之前，需要先将数据标准化，利用标准化后的数据进行数据分析。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种，常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。用户画像的建立需要有整合多源数据的能力，比如一个用户可能使用多个设备，拥有多个账号，则须把多个身份ID组合，建立统一的标准，形成完整标识实体的用户画像。以上描述的这个场景被称为OneID体系——统一身份认证，即对于同一个人，使用不同设备或系统只有唯一身份。

4、数据建模

数据建模就是根据用户行为，构建模型产出标签、权重。一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。

用户动态建模公式：用户标识 +时间 + 行为类型 + 接触点(网址+内容)，表示某用户在什么时间、地点、做了什么事，所以会打上某标签。用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型，同时该标签对该用户的重要程度也决定了用户标签的权重，进一步转换为公式：

行为类型权重：用户浏览、搜索、收藏、下单、购买等不同行为对用户而言有着不同的重要性（偏序关系），该权重值一般由运营人员或业务来决定；

时间衰减：用户某些行为受时间影响不断减弱，行为时间距现在越远，该行为对用户当前来说的意义越小，采用牛顿冷却定律；

行为次数：用户标签权重按天统计，用户某天与该标签产生的行为次数越多，该标签对用户的影响越大。

公式：t=初始温度×exp(-冷却系数×间隔的时间)，实际应用中，初始温度为1就行，间隔的时间为今天与产生行为那天的天数，或者小时数都行，根据业务进行调整，冷却系数的业务来决定，或者通过数据分析而来。

TF-IDF计算标签权重：tf为某标签在该用户出现频率，idf为某标签在全部标签中的稀缺程度。

5、标签挖掘

标签挖掘，即对用户标签体系中的用户数据进行挖掘，形成用户标签，这个过程也叫标签生产。标签的生产方式主要有以下两种：①基于规则定义的标签生产方式，即根据固定的规则，通过数据查询的结果生产标签，重点在于如何制定规则。②基于主题模型的标签生产方式，主题模型最开始运用于内容领域，目的是找到用户的偏好，在用户标签中我们可以参照分类算法将用户进行分类、聚类，使用关键词的算法挖掘用户的偏好，从而生产标签。在整体用户标签生产过程中，通过用户关系数据（用户关系数据体现了用户之间的客观重要程度）、用户内容数据（用户发布的信息，微博、微信、评论等）、用户行为数据（用户的浏览、搜索、收藏、下单、加入购物车、购买等行为）挖掘出用户的标签及其基础权重；接下来通过多个维度的定向挖掘进行标签的校正和增加标签的覆盖。最后，将挖掘出来的用户标签及权重输出至用户标签库，供上层业务调用。标签挖掘常用到数据挖掘、机器学习的相关算法有：支持向量机、线性回归、朴素贝叶斯、神经网络、决策树、分类、聚类、关联等。

6、数据可视化

数据可视化是基于标签体系的用户画像的重要应用，通过详实、准确对用户的各类标签数据进行汇集和分析，并以图片、表格等可视化手段帮助企业全面了解用户的基础信息，用户关系情况，用户经济情况、用户偏好情况、健康情况、饮食情况等信息。同时，利用数据标签体系的用户画像可视化技术，通过对用户关系数据、用户内容数据、用户行为等数据进行可视化展示，能够帮助企业管理人员、业务人员全面了解用户，了解用户是谁，他们有什么特征，他们的兴趣偏好等，从而为智能推荐、精准营销、产品和服务创新、渠道优化等业务提供支撑。

总结

用户画像的目的是为了精准地定位你的目标群体以及他们的特征，用户画像不是简单的用户分类，而是一个具体的用户形象。用户画像可以帮助我们了解到最重要的80%用户需求是什么，以及哪些是用户其实没那么在意的20%的需求。用户画像可以为各方面的工作展开提供方向，大到营销战略的制定，小到如何回复一个用户的留言。构建基于标签体系的用户画像是为了解决实际的业务问题，需要带着业务目标进行用户画像，为了画像而画像的炫技派或者get不到任何价值的粗放式画像都是不可取的。

参考：

9张图，把“标签体系”讲得明明白白的！ (qq.com)

数据中台：基于标签体系的360°用户画像