摘要: 数据分类是应用型高职院校大学生创新创业项目数据管理工作中的重要内容,但由于数据不平衡性,分类器可能存在泛化能力不足的问题,导致分类结果不够准确。为解决这一问题,本研究提出一种创新创业项目数据分类方法。首先将项目数据库中的文本数据转化为向量形式,建立基于支持向量机的机器学习分类器;然后采用自适应合成抽样的方法对该分类器进行过采样,解决数据不平衡问题,以优化分类器的泛化能力;最后利用分类器对转化后的项目数据进行分类,并采用Kmeans算法进行聚类集成,实现项目数据的分类处理。实验结果表明,该方法对于创新创业数据的分类较为准确,平均精度均值达到0.986,F1分数达到0.973,分类性能优良,具有良好的实践应用前景。
中图分类号: