基于灰色关联规则算法的电力营销信息多标签分类方法研究
作者 赵琪 郑欣桐
发表于 2025年2月

【关键词】灰色关联规则算法;电力营销;营销信息;多标签分类;分类方法

引言

大数据时代的来临,使得我国电力企业的营销信息呈现出爆炸式增长态势。多标签分类是处理具有多个标签的样本数据的重要技术,可以对电力营销信息进行更细致、更全面的分析,为电力企业的市场策略制定和优化提供有力支持。近年来,随着人工智能和机器学习技术的不断发展,越来越多研究者开始关注如何将这些先进技术应用于多标签分类领域。杨峰等(2023)提出了一种基于量子竞争决策算法的电力营销信息多标签分类方法,旨在提高分类的稳定性和效率,但是该方法涉及量子计算和深度学习的技术,需要专业的知识和经验。[1]任彦凝等(2024)对一种融合标签信息的多标签文本分类方法进行研究,但是在处理多个标签之间的关系和语义信息时,该方法的计算复杂度相对较高。[2]这可能导致在处理大规模文本数据集时,训练和预测的速度较慢,需要更多的计算资源和时间。因此,本文设计了一种基于灰色关联规则算法的电力营销信息多标签分类方法,期望能够解决传统分类方法在处理高维度、非线性的电力营销信息时存在的问题,促进电力行业的可持续发展。

一、电力营销信息文本数据预处理

实际采集过程中,电力营销数据的质量往往难以得到完全保障。本文首要任务就是对电力营销信息文本数据进行预处理[3]。首先,为消除原始电力营销信息文本数据中的噪声,本文引入词频—逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法对数据进行清洗处理。该算法先通过计算每个词在文档中的出现频率以及在整个语料库中的稀有程度,来衡量一个词在文档中的重要性,如式(1)所示。

式中,P0(Ci)表示电力营销信息文档C中第i个词的TF-IDF值,P1(Ci)表示电力营销信息文档C中第i个词的词频,P2(C)表示电力营销信息文档C的逆文档频率,iCn表示电力营销信息文档C中第i个词出现的次数,NC表示电力营销信息文档C中词的数量,M表示语料库中电力营销信息文档的数量,iCm表示语料库中包含词i的电力营销信息文档数量。

本文刊登于《消费电子》2024年11期
龙源期刊网正版版权
更多文章来自
订阅