什么是TGI指数？（神奇硬币推手）

TGI是英文Target Group Index的缩写，直译为“目标群体指数”，即我们观察的这部分群体，是否更多（或更少）分布在该维度上。本文作者对TGI指数进行了分析，一起来看一下吧。

某出行平台曾经发布过一份数据分析报告，指出“凯迪拉克车主最爱去洗浴中心”，一时引来多方热议。

我们今天讨论的TGI概念，就与这个小故事有关。凯迪拉克车主是不是“更爱去洗浴中心”呢？这个问题，等我们了解了TGI之后再讨论。

一、TGI是什么？

TGI是英文Target Group Index的缩写，直译为“目标群体指数”。计算方法非常简单：

TGI = [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*100

在前司上班那会，我们在给客户（广告主）提供的消费者洞察分析报告中，频繁的使用这个概念，以至于我们总监曾经专门组织过一次讨论：该怎么更科学、更简单地向客户介绍TGI是什么，以及怎么理解它。

在向客户解读我的消费者报告时，我将TGI称为目标群体的倾向性指数。即，我们观察的这部分群体，是否更多（或更少）分布在该维度上。

举个简单的例子。我在读大学时，我们专业的男女比为1:3，即女生所占比例为75%。显然，这是一个让其他理工科专业男生十分羡慕的男女比，因为我们同级3000多人中，女生占比约为50%。

在这种情况下，我们专业女生性别TGI = 75%/50%*100 = 150。而TGI大于100，则说明我们专业中女生占比更高。

但是大家再考虑一种状况：如果我们专业归属在女校之中（假设我们专业比较特殊，允许招收男生），那么大家还会觉得我们专业的女生更多吗？

显然不会。因为锚定的群体中，女生占比接近100%（因为还有我们几个男生在，分子略小于分母），而我们专业中的女生比例只有75%，少于大盘。

让我们回到一开始的小故事中。如果60%凯迪拉克车主都爱去洗浴中心，而整个豪车群体只有30%的车主爱去，那么凯迪拉克车主在“爱去洗浴中心”的TGI指数为60%/30%*100=200，远高于100，那么可以说凯迪拉克车主“更”爱去。

需要注意的是：如果只看60%这一单一的数字，我们无法是无法“更爱去”这个结论的，顶多说他们“爱去”。如果中国车主60%去洗浴中心，那么凯迪拉克车主并未表现出明显的偏好性，只是符合一般规律而已。

所以，我们不能孤立地看待一个数据，它只是一个冷冰冰的数字而已。我们必须将它带入到具体的情景当中，我们才能判断这个数字是高还是低、是大还是小。

其中我们可以带入的场景之一就是它所属的群体里，即它的一个超集之中。

二、大数定律与品牌的同质人群假设

我们上初中时就知道：当掷硬币的次数越多，正面出现的概率越来越趋近于0.5。

将大数定律延伸到我们的人群画像中也类似、我们观察的某个群体数量越多，其在某个特征的分布，应该越来越趋近于整体大盘的分布水平。

考虑到大众汽车销量很高，并且在中国汽车市场上有较大的保有量，我们可以假设大众车主的男女比例、省份分布，跟中国4.39亿汽车车主的男女比例、省份分布应该是类似的。即，子集在某个维度上的分布，应该与大盘相同。

但是，我们经常会发现，子集在某个维度上的分布，比大盘要高或者低。那到底是什么因素导致的呢？

实际上，我们市场营销理论的基石是“同质人假说”——某个品牌的目标消费者（Target Audience），是一群有着相似年龄、性别、地域、消费能力、价值观的群体。比如，很多品牌官网上可能会明确介绍：我们品牌和产品，主要面向25-30岁的白领女性，她们居住在一线和新一线，追求新鲜的事物，等等。

同质人假设有其合理性：一方面品牌可以更明确找到符合其特征的目标消费者，可以有针对性地开发特定产品，并利用特定媒体渠道进行广告触达，即品牌更希望找到某一类人；另外一方面，从消费者的视角看，可以通过这些品牌定位和理念，来快速找到适合自己的产品和品牌，即某一类人也会找到适合自己的品牌。

同质性假说造成的结果则是某个相似群体在某个品牌下的高度聚集。比如提到奔驰车主，我们就觉得这是一个有钱人的群体。

所以，如果我们观察的群体，在某个维度上的分布，跟大盘相比出现了较大的异常（过高/过低），我们可以假设是品牌造成的这种差异（毕竟在真实社会中，要准确计算某个因素的解释力非常困难），而这往往可以评估品牌建立的有效性。

比如品牌A希望吸引25-30岁的一线白领女性，通过CRM数据分析发现：该品牌符合这些条件的消费者占比是20%，比例与大盘中符合上述条件的人群占比一样。我们可以认为品牌形象并未成功建立；换句话说，即使品牌什么都不做，来消费者的中白领女性比例跟现在也没什么差别。

我们在分析数据的时候，遇到TGI指数过高或者过低的维度，往往是一个突破口，我们可以在这个维度上继续深挖。

三、咖啡与混淆变量

我是一个咖啡成瘾者，每天午觉起来比都要来一杯咖啡，所以格外关注咖啡对健康的影响。事实上，咖啡对健康的研究经常见之于媒体。

一份研究表明：

研究结果表明，喝咖啡的人平均每天要喝两杯咖啡，包括脱咖啡因咖啡或速溶咖啡或研磨咖啡。他们患慢性肝病的风险比不喝咖啡的人低21%，患慢性肝病或脂肪肝的风险低20%。他们死于慢性肝病的可能性也降低了49%。

有趣的是，也有一些研究表明：“与完全不喝咖啡的人比较，一天喝1~5杯咖啡的人患心肌梗死的概率高1.34倍。”

作为咖啡爱好者，我当然说服自己相信第一个研究的结论。

可是为什么这些研究的结论竟然会如此大相径庭，甚至截然相反呢？

我对此的解释是“混淆变量”。

第一份研究使用的数据是英国的Biobank 英国生物样本库。根据《维基百科》的介绍：该生物样本库始于2006年，对40～69 年龄段的500,000 名志愿者的各项生理指标持续进行观测；抽样人群主要来自生物样本库研究中心周边10-20英里范围内的居民，“以城市人口居多”。

然而，年龄与经济水平也会直接影响“肝病”。因为也存在这样一种可能性：收入越高的人，越有可能每天消费咖啡；同时，他们也能享受到更好的医疗服务，获得科学的饮食和锻炼建议，这些因素可能也会影响慢性疾病的发病。因此，高咖啡消费与低慢性疾病发病率的相关，可能也只是一种简单的相关表象，背后的共同推手是“高收入”。

而认为咖啡有害的研究中，除了咖啡导致心肌梗死这一种因果解释之外，我们也可以假设：需要经常熬夜加班这一变量，是让二者存在相关的共同推手——由于需要经常熬夜加班，才会需要大量咖啡因的摄入来保持清醒；与此同时，熬夜加班也加大了心肌梗死的风险。

这就是背后的“混淆变量”，简单来说：Z导致了X，Z也导致了Y；乍看起来，X、Y存在因果或者相关，因为它们经常相伴相生。

而这跟TGI又有什么关系呢？

如果你看到一个数据：未患脂肪肝的人群中，70%的人都是咖啡爱好者，TGI指数是170；而患有脂肪肝的人，35%是咖啡爱好者，TGI指数是85。

这是否意味着喝咖啡能减少得脂肪肝的可能性呢？

通过上面混淆变量的分析，你会坚定地否定这一想法。

TGI指数也只是一个数字，我们可以通过过高或者过低的TGI去寻求进一步的人群的洞察，但是不意味着这个维度就能对群体的形成具有解释力。

专栏作家

简写2019，人人都是产品经理专栏作家。理性派，思考本质问题。坚定地用数据和结构化解决一切问题。

本文原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。