Large Language Models Enable Few-Shot Clustering
2024-12-02 10:58:29

摘要

文章探讨了大模型在半监督聚类中的应用。半监督聚类和无监督聚类不同,它允许用户提供数据的有意义结构来辅助聚类。传统的半监督聚类存在的问题是需要大量的专家反馈,所需的人力较多。LLM可以辅助few-shot的半监督文本聚类,并且非常有效。在聚类前、聚类中、聚类后三个阶段,LLM都可以辅助,其中前两个阶段效果最好。聚类前通过增强输入特征,聚类中通过提供聚类限制,聚类后通过矫正信息。而且,LLM还可以让用户在花费和准确度中进行权衡。

方法

聚类前-关键词展开

对于数据集的每个文档,都传给LLM生成关键词,然后把关键词传给嵌入模型生成嵌入向量,再和原文档的嵌入向量拼接。

效果最好,但是LLM需要对每个文档都进行处理,开销大。

聚类中-提供伪专家知识

领域的通用方法是,由专家指出哪些点必须被连接,哪些点一定不能被连接。

使用大模型后,可以只提供少数的专家知识对作为few-shot提示词,由大模型找出更多必须被连接和不能被连接的点。

可以先用其他模型找出比较相近的点,然后再有大模型确认是否连接。

该方法效果也好,而且因为提前用其他模型筛选出了候选点,LLM的调用次数少。是最有性价比的方法

聚类后-纠正聚类

该方法的思想是,对于处在多个聚类簇边界的点,这些点的聚类情况最容易出问题。这些点用大模型来进行判断,应该属于哪个最近的簇。

该方法效果不好。