论文笔记|视幻觉评估数据集PhD:A ChatGPT-Prompted Visual hallucination Evaluation Dataset
论文:PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset
缩写 | 全称 | 直译 |
---|---|---|
VHE | Visual Hallucination Evaluation | 视觉幻觉评估 |
hitem | Hallucination item | 幻觉项 |
CS | Commen-sense | 反常识 |
CCS | Counter-commen-sense | 反常识 |
VQA | Visual Question Answering | 视觉问答 |
GT | ground-truth | 正确答案/真实信息 |
1. Introduction
MLLM以LLM为内核,由于LLM具有幻觉问题,MLLM也会出现幻觉问题。
VHE主要向MLLLM提出视觉问题,以特定单词或短语诱导MLLM产生和视觉内容不一致的反应。
本文为VHE开发了一个新的数据集,目标为低级(对象、属性)到中级(情感、位置、计数)的客观VHE评估。
MLLM视觉幻觉主要原因:
- Visual Ambiguity(视觉模糊性):MLLM使用基于ViT的编码器,从给定图像中提取高层次特征,缺乏足够的细节来执行精细任务(精确计数)
- Inconsistency in muti-modal input(多模态输入不一致):LLM内核偏向多模态输入中的文本部分,视觉信息更可能被忽略。
- Counter-commen-sense(反常识内容):LLM内核严重依赖其内部的“常识”
新数据集PhD通过改编数据集TDIUC和利用ChatGPT辅助半自动化管道构建
贡献:
- PhD数据集:根据产生幻觉的3个原因,创建的包含5种任务、4种评估模式的数据集
- 包含14648日常图像、750CCS图像和102564个VQA三元组,同类数据集规模最大
- 每个样本提供了hitem的信息
- 提供了由ChatGPT辅助,极少人工干预的半自动化数据集构建管道
- 在15种开源MLLM、3种私有MLLM、2种幻觉缓解方法上进行评估,整体展示PhD数据集在VHE上的有效性
2. Related work
现有数据集分类:
- 级别
- 低级(对象、属性)~中级(情感、位置、计数):评价MLLM的基本视觉功能
- 高级:知识密集度高,包括数学解题、地理信息理解、备忘录解读、历史民俗等
- 评价方式
- 客观评价:将模型输出和基本事实对比,以YES/NO形式进行
- 主观评价:需要人或LLM来评估模型输出
PhD属于低级到中级的客观评价数据集。
该部分现有数据集的不足:
- POPE、ROME:hitem选择基于训练数据中的标签共现率(脱离图像)
- NOPE、CIEM:缺乏hitem选择
- AMBER:人工标注
3. Method
3.1 Task-specific Hitem Selection 针对具体任务的Hitem选择
- Subject-Attribute Extraction:使用ChatGPT从TDIUC问答对中提取主体和属性
- Candidate Hitem Generation:根据属性生成词汇表,排除GT
- Visual-based Hitem Ranking:使用CLIP模型对候选hitem进行排序,选择与图像相关性最高的hitem
- 文本输入:hitem+主体
- 未来可使用性能更好的模型
- Manual Inspection:原始TDIUC问答对可能有误,此时丢弃VQA
成果:取得1452个更具多样化和挑战性的hitems
3.2 Hitem-embedded Qestion Generation 嵌入Hitem的问答生成
给定主体和一个选定的hitem,ChatGPT生成一个问题,答案为“No”
使用GT生成的问题,答案则为“Yes”
3.3 Specious(Incorrect) Context Generation 似是而非(或错误)的内容生成
描述和图片不矛盾时,也可能不完全一致,如摩托静止(图中)和疾驰(描述)
- Specious Cont Generation:使用ChatGPT生成与图像内容不一致的上下文
- specious text:似是而非,轻微不一致,但不直接矛盾
- Prompt:“请为给定问题生成[specious text],使其能回答问题,但可能无法反映当前的实际情况,从而specious”
- Text Composition:将生成的specious text与原始caption衔接,新的上下文只有小部分与图像轻微不一致
- Manual Inspection:人工抽查,如果质量不高则丢弃样本
3.4 CCS Image Generation 反常识图像生成
- CCS Description Generation:使用ChatGPT生成CCS描述,同时生成CS描述
- 手写特定任务样例,为ChatGPT生成提供参考
- Text2Image:CCS描述生成相应图像,人工解决故障
- Question Generation:使用ChatGPT生成,CCS问题答案为“Yes”,CS问题答案为“No”
3.5 Dataset Overview & PhD Index 数据集概览与索引
四种评估模式:
- PhD-base: 不含上下文的日常图像
- PhD-sec(specious): 含似是而非上下文的日常图像
- PhD-icc(incorrect): 含错误上下文的日常图像
- PhD-ccs: 反常识图像问题
4种评估模式×5种任务=20种模式-任务组合
PhD指标:调和平均数$\dfrac{2Recall{yes}Recall{no}}{Recall{yes}+Recall{no}}$
4. Evaluating MLLMs on PhD
4.1 Setup
测试模型:
- 15种开源MLLM(全量)
- 3种私有MLLM(2k随机采样)
- 支持LLaVa-1.6-L、Qwen-VL的2种幻觉缓解方法VCD、Woodpecker(2k随机采样)
使用MLLM指定提示词形式;对于sec、icc,附加指令“图文不一致,以图片为准”
4.2 总体PhD评估
全面了解哪种MLLM产生的幻觉最少。
PhD辨别能力强,例如对GPT-4o和顶级开源MLLM的指标差距比POPE和AMBER的评估更明显
PhD数据集在任务和评估模式有细分,支持针对性分析
4.3 PhD面向模式评估
base模式下,具有更强视觉输入的模型表现更好,可以通过2种方式实现:
- 更强的视觉编码器
- 支持更高分辨率的视觉输入
仅使用较大的LLM不一定能获得更好的MLLM:虽然大型的LLM能更好地理解用户指令,但在MLLM中应用还需要针对性的VL对齐训练。
开源MLLM在PhD-icc和PhD-sec上性能普遍较低,因为多模式输入下,MLLM内核偏向文本部分。
使用更大的LLM可在PhD-icc和PhD-sec上获得更好的结果,但更依赖内部知识,导致在无上下文的PhD-base和PhD-ccs上性能下降。
(Woodpecker使模型表现更均衡)
4.4 PhD面向任务评估
MLLM幻觉程度和任务水平相关,总体指标从高到低:情感 > 计数 > 位置 > 属性 > 对象
情感任务复杂微妙、计数任务要求精确,难度较高;在有文本或CCS干扰时尤其吃力。
模型在每种模式-任务组合都有一个得分,有助于针对性分析完善。热力图:
4.5 MLLM答案倾向性
MLLM的PhD分数和YES率的斯皮尔曼相关性:
结果表示,MLLM表现和YES率存在较强负相关,YES率越高,PhD分数越低。
解决VH问题需要注重平衡输出倾向,增强模型输出NO的能力。
5. 笔记
5.1 PhD数据集的优点
- 同类数据集规模最大
- 涵盖5种任务、4种评估模式,支持针对性分析
- AI辅助半自动化数据集构建管道,极大地减少人工干预
- 人工干预环节主要集中在质量审查
- 针对痛点,直面MLLM的幻觉成因,评估有效性高
- 联系到CLUE中提到的MLLM具有来自语言先验和非图像中心区域的偏差问题;此外,考虑到了图片可能包含CCS内容
5.2 疑问
原文 3.1
Vocabulary Construction per task,颜色属性需要人工指定(manually specify)一些,然后ChatGPT自动生成一些日常词汇。
不同对象(家具、载具)、属性(大小、颜色),每一个任务的词汇表生成都需要人工指定一些吗?
关于环节顺序,个人认为应该是先进行Subject-Attribute Extraction,再根据Subject/Attribute构建词汇表?