Lazy loaded image
科研记录
科研:探究Code LLM可解释性问题
00 分钟
2024-10-10
2025-1-10
type
status
date
slug
summary
tags
category
icon
password
comment
😀
前言: 目前在代码大模型中,许多代码可能存在着“自我感觉良好”的现象:通俗的话就是LLM认为自己写的代码很正确,但是实际上可能在语法、逻辑上存在错误,更有甚者可能存在有运行错误等,但是目前研究仅限于采取NLP的一些指标来判断代码的可解释性,即利用NLP的指标来分析LLM为什么会产生这个结果,这通常不适用于代码可解释性分析,因此需要研究一些新的代码可解释性的指标或者新的途径来对LLM生成代码进行解释

Toward a Theory of Causation for Interpreting Neural Code Models

论文原文:

文章基本信息

标题

Toward a Theory of Causation for Interpreting Neural Code Models 关于解释神经代码模型的因果关系理论

摘要

神经代码模型(NCMs)正在快速发展为商业开发工具,但对其能力和局限性了解有限。本文提出了docode,一种基于因果推理的解释性方法,用于解释NCMs的模型决策,尤其是编程语言相关的行为。通过对多个深度学习架构和NCMs的研究,发现这些模型对代码语法变化敏感,且在预测代码块标记时表现出较少的混淆偏差。docode展示了帮助检测和消除NCMs偏差的潜力

文章内容

文章基本内容概述

代码生成任务在软件工程中扮演着至关重要的角色,NCMs 能够通过从大量的代码语料库中学习,来帮助开发者编写代码,提升开发效率。因此,NCMs 不仅在研究中表现出色,还逐渐进入了商业工具领域。像微软的 IntelliCode、OpenAI 的 Codex、GitHub 的 Copilot 都是 NCMs 的应用示例。这些模型已经在工业界受到广泛关注,并有望在生产环境中得到越来越多的实际应用。问题:如何从因果关系的角度来解释模型对代码生成的预测?问题:如何设计一个通用的解释框架,使其能够适用于不同的深度学习模型和不同类型的代码数据?

研究现状

  • 尽管 NCMs 的应用前景广阔,但目前对于这些模型的理解还远不够全面。尤其是现有的大部分研究都集中在评估模型的准确性上,通常使用一些自动化指标(如 BLEU、ROUGE、METEOR 等)来衡量模型性能。然而,这些指标只能揭示模型在特定测试集上的表现,无法深入解释模型是如何做出决策的。目前在神经代码模型的研究中,普遍依赖于准确性等自动化评价指标,但这些指标往往高估了模型的实际性能,忽略了许多模型存在的偏差、对抗性脆弱性、语法误解等问题。此外,很多用于代码生成的模型都是从自然语言处理(NLP)模型中直接迁移而来的,这些模型可能继承了 NLP 领域的诸多局限性,比如数据的低效性、过拟合和记忆化等问题。BLEU、ROUGE 和 METEOR 是用于评估自然语言处理任务中生成文本质量的指标。
💡
1. BLEU(Bilingual Evaluation Understudy):主要用于机器翻译评估,通过计算生成文本与参考文本之间的n-gram重叠度来评估质量,值越高表示翻译越好
2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation):通常用于文本摘要评估,关注生成文本与参考文本的召回率,常见的有ROUGE-N(n-gram重叠)和ROUGE-L(最长公共子序列)
3. METEOR(Metric for Evaluation of Translation with Explicit ORdering):综合考虑了词汇重叠、同义词和词序,通过计算匹配度来评估生成文本质量,旨在更好地捕捉文本的语义相似性
  • black-box:除此之外,由于现有的模型架构往往表现为黑箱模型,它们的推断过程缺乏透明性。这种不透明性让研究者和开发者难以理解模型的实际工作原理,进而质疑这些模型在实际部署中的稳定性和可靠性。特别是在面对带有语法错误的代码输入时,模型如何得出其预测结果往往不明确,现有的评估方法也无法充分揭示模型的内部行为。

研究问题

面对以上的研究现状,该论文提出的主要问题是:如何解释神经代码模型的预测行为?即,在现有的黑箱模型中,模型的预测决策过程缺乏透明性,使得我们无法确切了解模型为什么得出了某个特定的结果。因此,研究者提出需要一种新的解释方法,能够在模型预测代码时提供更为细致的因果解释,揭示模型的内部机制,帮助开发者识别并减少模型中的偏差。
问题:如何从因果关系的角度来解释模型对代码生成的预测?
问题:如何设计一个通用的解释框架,使其能够适用于不同的深度学习模型和不同类型的代码数据?

研究思路(技术路线)

  1. 构建结构因果模型(SCM)
      • 研究者首先基于因果推理理论,构建了用于解释神经代码模型预测行为的结构因果模型(SCM)。SCM 通过有向无环图(DAG)表示输入变量(例如代码中的特定语法元素、错误、注释等)与输出变量(如模型的预测准确率、损失值)之间的因果关系。
      • 在模型中,研究者设定了多种输入变量(如代码错误、代码注释等),并假设这些变量可能影响模型的预测性能。为了验证这种假设,研究者构建了相应的因果图。
  1. 识别因果效应
      • 在构建因果图后,研究者使用了因果推理的后门准则(Back-Door Criterion)来识别潜在的干扰因素(例如代码行数、代码复杂度等),并在估算因果效应时对这些干扰因素进行调整。
      • 该方法帮助研究者控制那些与模型预测结果可能相关但不直接导致因果效应的因素,从而确保所识别的因果效应是准确且可信的。
  1. 因果效应估算
      • 为了量化因果效应,研究者使用了多种统计和机器学习方法,包括倾向得分匹配(Propensity Score Matching) 和 线性回归(Linear Regression) 等。这些方法用于计算输入变量(如代码错误、注释等)对输出结果(如模型的预测准确率、交叉熵损失等)的影响程度。
      • 对于二元处理(如是否存在代码错误),研究者通过倾向得分匹配的方法来估算因果效应;而对于离散或连续变量(如模型层数、神经元数等),则使用线性回归来估算因果效应。
  1. 验证因果效应的稳健性
最后,研究者通过敏感性分析和假设检验方法来验证因果效应的稳健性。具体方法包括:
  • 添加随机干扰因素:通过引入一个与输入变量无关的随机变量来检验模型的因果效应是否受到了不相关因素的影响。
  • 替换处理变量:使用一个随机变量替代真实的输入变量,来验证模型是否在没有实际输入的情况下仍然能得到合理的预测结果(即“安慰剂测试”)。
  • 数据子集验证:通过使用不同的数据子集重新计算因果效应,来测试模型是否对数据的变化具有鲁棒性。

建模因果推断问题

notion image
  • 图中的内容: 在这个阶段,通过已有的领域知识和数据,构建一个结构因果模型(SCM)。这个模型用一个图来表示变量之间的因果关系,像图中的例子,存在外生变量(L1, L2, L3, L4)、处理变量T、中介变量Z和结果变量Y。箭头表示因果关系的方向,比如从L1到Z说明L1影响Z,而Z影响Y。
  • 通俗解释: 在这个步骤,我们要根据我们对领域的了解,画一个图,把可能导致某个结果的各种因素标出来。这个图可以帮我们理解各种因素是如何互相影响的。比如,L1可能是年龄,L2是收入,T是某种药物,中间变量Z是健康状态,最终我们想知道这些东西对结果Y(比如寿命)的影响。
  • 相关名词解释
    • 结构因果模型(SCM):用图表表示变量之间因果关系的模型,帮助我们识别和量化这些关系。
    • 外生变量:是指那些没有被系统内其他变量影响的变量,它们可能对其他变量产生影响。
    • 处理变量:是我们施加某种干预或处理的变量,比如给病人服药。
    • 结果变量:是我们关心的最终结果,比如病人的健康改善情况。
  1. 识别因果估计量
      • 图中的内容: 在这一阶段,选择一个适合的因果估计量(Causal Estimand),即明确我们想要计算的因果效应是什么。为此,我们需要使用不同的因果识别准则,比如:
        • 后门准则:排除潜在的混淆因素。
        • 工具变量:利用外生变量来消除混淆。
        • 前门准则中介效应:通过中介变量来识别因果效应。
      • 通俗解释: 在这里,我们要弄清楚如何计算因果效应,也就是明确我们到底要研究哪些因素的关系。例如,我们要研究一种药物对健康的影响,首先要确保排除其他影响健康的因素(比如年龄、性别等),这样才能更准确地得出药物的效果。
      • 相关名词解释
        • 后门准则:确保我们排除了那些可能同时影响处理变量和结果的混淆因素。
        • 工具变量:一种特殊变量,它和结果没有直接关系,但与处理变量有关,用它来帮助区分因果效应。
        • 中介效应:处理变量通过某个中介变量(如Z)对结果变量产生影响的机制。
  1. 估计因果效应
      • 图中的内容: 使用不同的统计方法计算因果效应。常见的方法包括:
        • 基于处理分配的估计方法,如倾向得分匹配倾向得分分层,用于调整组间差异。
        • 基于结果模型的估计方法,如线性回归或机器学习估计器,计算处理变量对结果的影响。
      • 通俗解释: 这个步骤就是选择一种方法,来计算因果关系到底有多大。比如,药物对健康的影响到底是好是坏,影响有多大。我们可以用一些统计方法来计算,比如倾向得分匹配,确保我们在比较药物有效性的同时,已经考虑了其他可能影响结果的因素。
      • 相关名词解释
        • 倾向得分匹配:通过找到具有相似特征的个体来比较不同处理组的效果。
        • 机器学习估计器:利用机器学习算法来估计因果效应,比如决策树或神经网络等。
  1. 验证因果过程
      • 图中的内容:评估因果效应估计的稳健性和敏感性,确保其结果可信。例如,通过添加随机因素或使用未观察到的共因子来检验估计值的稳健性。
      • 通俗解释: 我们计算出因果效应后,需要验证结果是否可靠。这个步骤通过各种测试,确保估计的因果效应不会因为某些未考虑的因素而发生重大变化。比如,我们可以假设一些数据是随机的,看看结果是否还一致。
      • 相关名词解释
        • 稳健性:估计结果是否对假设的变化不敏感,能否在不同条件下保持一致。
        • 随机因素:人为加入的随机变量,用来测试模型的稳健性。
  1. 因果效应输出
      • 图中的内容: 最终输出因果效应的结果,通常包括:
        • 平均处理效应(ATE):总体上某个处理的平均效果。
        • 条件平均处理效应(CATE):在不同条件下(如不同人群)处理的效果。
      • 通俗解释: 最后一步是把结果总结出来,看看干预措施总体上对所有人效果如何(ATE),以及在不同群体中的表现(CATE)。比如,药物在所有病人中平均效果是正面的,但在某些特定病人中效果可能更好。
      • 相关名词解释
        • 平均处理效应(ATE):整体来看,一个处理(干预)的平均效果。
        • 条件平均处理效应(CATE):在不同条件下,一个处理的平均效果,比如对于不同年龄段的人。
notion image
这个图展示了基于神经网络模型的因果推断可解释性分析的工作流程。它涉及多个场景、模型、评估数据集、因果推断的具体定义、因果验证及聚类分析等。
  1. Interpretablity Scenario(可解释性场景或案例)
      • 这里列出了不同的场景,从A到G,分别代表不同类型的代码问题:
        • A:Buggy Code(有bug的代码)
        • B:Code Documentation(代码文档)
        • C、D:Static Clone类型I和II(静态代码克隆)
        • E:Hyperparameter Layers(超参数层数)
        • F:Hyperparameter Units(超参数单元数)
        • G:Missing AST Node Types(缺失的抽象语法树节点类型)
  1. do_code Goal(目标)
      • 该部分的目标是生成对不同神经网络模型(如RNN、GPT、GRU、BERT等)的解释和可解释性验证。它通过各种模型和数据集的设置来实现。
  1. Setup(设置)
      • DL Architecture(深度学习架构):包括RNN、GPT、GRU、BERT等神经网络模型。
      • Evaluation Dataset(评估数据集):使用了CodeXGlue、CodeSearchNet、Galeras等数据集来评估模型性能。
        • 💡
          CodeXGlue介绍:CodeXGlue 是一个综合性的基准数据集,涵盖了多种编程语言(如 Python、Java、JavaScript 等)的任务,旨在评估代码理解和生成模型的性能。它包含多个子任务,如代码补全、翻译、摘要和生成等,促进了在代码相关任务中的研究。
          示例
          代码翻译:将 Python 代码翻译成 Java 代码
          例如,将以下 Python 函数: 
          翻译为 Java:
          💡
          CodeSearchNet 介绍:CodeSearchNet 是一个针对代码搜索任务的数据集,包含了大量的代码片段和对应的自然语言描述,支持多种编程语言。它的设计目的是让研究者能够开发和测试代码搜索模型,改善开发人员在代码查找方面的效率。
          示例
          自然语言查询:用户可以输入“查找实现冒泡排序的函数”,模型应能返回相关代码片段: 
          💡
          Galeras介绍:Galeras 数据集结合了代码、注释和文档,旨在支持多模态编程语言理解,促进对代码的上下文理解。这使得模型能够在生成代码时考虑更多的上下文信息,增强其理解能力。
          示例
          代码生成:根据给定的注释生成代码。例如,给定注释“计算列表中所有元素的平方和”,模型应生成如下代码: 
        • 这些数据集各自侧重不同的任务,推动了代码相关的自然语言处理研究,帮助开发更智能的代码理解和生成工具。
      • Intervention Modality(干预模式):分为Binary和Linear两类干预方式。
      • Hyperparameter Interventions(超参数干预):干预方式包括不干预、层数变化和单元数变化。
  1. Structural Causal Model Definition(结构因果模型定义)
      • Data Interventions(数据干预):通过对数据的干预(如取消注释、节点类型掩码等)来研究代码修复、语法差异、下一个词预测、交叉熵损失等不同的任务和评估标准(如Jaccard、Levenshtein等)。
      • Potential Outcomes(潜在结果):包括语法差异、程序修复、交叉熵损失等不同的测量结果。
  1. Syntax Clustering(语法聚类)
      • Keyword-Based Categories [Java]:使用关键字对Java代码进行语法聚类。
      • AST/Grammar-Based Categories [Python]:使用抽象语法树或语法结构对Python代码进行分类。
  1. Causal Inference Measure(因果推断衡量)
      • 使用关联(Association)和干预(Intervention)来衡量因果效应。关联度量方法包括Pearson、Jensen-Shannon等。干预效应的度量方法包括ATE(平均处理效应)和CATE(条件平均处理效应)。
  1. Causal Validity(因果效应的有效性验证)
      • Refutation Testing(反驳测试):通过删除子集、引入随机共因子和未观测共因子等方法来测试模型的稳健性。
      • Vetting Causal Graph(因果图验证):包括因果图创建、探索性分析、因果图正确性验证(例如通过d-separation来检查图的正确性)。

研究结果(参考论文部分)

  • BuggyCode场景解释: 该部分探讨了程序修复(ProgramRepair)对NCMs预测结果的影响。在测试中,尽管RNN1,1024和GPT-26,12模型展现出高相关性(JS距离分别为0.73和0.67),但这些相关性并不代表因果关系。通过调整SE共变量,相关性较小,表明程序错误的修复并未显著影响预测性能。因此,该场景中的预测结果主要受到其他潜在混杂因素的影响。
  • Code Documentation场景解释: 在该场景中,删除代码注释的干预影响较小。尽管GRU1,1024和GPT-26,12模型在某些类别上展现了较强的相关性(如数据类型和运算符),但ATE测试显示删除注释对交叉熵或NTP的因果影响不大。这表明代码注释的存在或删除对模型预测几乎没有实质性影响。
  • Clones Type II场景解释: 此场景研究了Type II代码克隆之间的句法差异对模型预测的影响。Levenshtein“编辑”距离与交叉熵差异呈正相关,但经过ATE测试,发现这些相关性主要受其他因素影响,Type II克隆的句法差异并不显著影响模型的预测性能。
  • Clones Type III场景解释: 与Type II克隆类似,Type III克隆中的句法差异也对交叉熵和NTP结果有一定的相关性。然而,ATE测试显示这些相关性较弱,因果效应较小。总的来说,Type III克隆对模型的预测性能影响并不显著。
  • Layers场景解释: 该场景考察了调整神经网络层数对模型预测的影响。结果显示,层数调整对交叉熵和NTP几乎没有显著的因果影响,表明层数的变化并不是影响模型性能的主要因素。
  • Units场景解释: 研究发现,调整神经网络的单元数与交叉熵之间存在负相关性,但因果效应接近零,表明单元数的调整对模型的预测性能没有显著影响。
  • Masking AST Nodes场景解释: 在该场景中,隐藏AST节点对代码预测的影响较大,特别是与随机掩码相比,基于语法类别的掩码影响较小。这表明BERT12,12模型并未完全捕捉到AST中节点的信息。AT
  • 探索性因果分析
    • 该部分内容主要包括对因果模型的探索性分析,以验证结构因果模型(SCM)中的假设。这些分析有助于通过数据集的相关性发现来支持因果图的编码。具体来说,作者通过探索模型的变量之间的统计依赖关系,为SCM的构建提供了足够的证据。
    • 11.1 节讨论了混淆因素与潜在结果之间的统计依赖性。研究表明,NCM的预测准确度受到上下文窗口大小的显著影响,特别是BuggyTB数据集中交叉熵与子词数量之间的强相关性(ρ = 0.87)。
    • 11.2 节深入分析了混淆因素与干预之间的统计依赖性,尤其是在ProgramRepair、UnCommenting和SyntacticDifferences等干预措施中,发现控制组和处理组之间的分布在子词数量的差异不显著。
    • 11.3 节介绍了代码语法聚类的错误分析,作者对NCM的预测进行了基于关键词的聚类分析,结果显示,无论NCM类型如何,不同关键词类别的错误预测趋势一致。
    • 这些分析揭示了不同混淆因素在各类数据集和NCM架构中的作用,并为因果模型的构建提供了可靠的依据 .
  • 因果解释方法中docode的应用
    • 案例研究的见解 在案例研究中,研究人员应用docode来分析NCMs在不同代码语法类别下的表现,并发现了重要的见解:
      • 不同语法类别的性能差异:NCMs对不同代码语法类别的预测能力存在明显差异,尤其是在代码的结构和语义层面。docode揭示了模型在处理特定语法特征(如括号、分号、代码块等)时的有效性。研究发现,模型在预测这些语法元素时具有较少的偏差,而对于更复杂的语法结构(如嵌套函数、异常处理等),模型的表现不够理想。
      • 消除伪相关的能力:通过结构因果模型(SCM)的建立,docode能够识别模型预测中的伪相关关系。案例研究表明,在程序修复任务中,尽管有较高的相关性,但并非所有的语法特征都与模型性能有直接的因果关系。docode能够有效区分哪些相关性是由共同因素(如代码长度、子词数量)引起的,哪些是真正的因果关系。
      • 解释性和透明性提升:通过对代码语法聚类的深入分析,研究表明,docode可以帮助识别模型在处理特定代码语法时的瓶颈,进而为模型改进提供了依据。例如,研究发现BERT类模型在处理随机掩码代码元素时的预测性能优于语法聚类类别,表明这些模型在捕捉编程语言的结构信息方面存在局限。
    • 12.2 docode的实际应用 该部分详细介绍了docode在NCMs可解释性中的实际应用流程,并强调了它在理解模型决策过程中的重要作用:
      • what与why的区分:传统方法主要关注模型的输出(what),即模型做了什么预测。而docode不仅关注模型的预测结果,还尝试解释模型为什么会做出这些预测(why)。这意味着研究人员可以通过因果推断来理解模型的决策机制,帮助调试和改进模型。
      • 基于SCM的因果推断:docode通过建立结构因果模型,将软件工程领域中的特定干预(如代码修复、注释移除、语法变化等)映射到模型的预测性能上,量化这些干预对模型的影响。研究人员可以通过调整不同的因果变量,来评估模型在不同语法环境下的表现,进而优化模型的训练和使用。
      • 应用流程概述:docode的方法包含四个主要步骤:1)建模结构因果图;2)确定因果估量(causal estimand);3)估算因果效应;4)通过反驳和验证方法确认因果推断的有效性。这一过程确保了因果解释的科学性和可靠性。
    • 12.3 挑战与未来工作 尽管docode在解释NCMs的决策过程中展现了其强大的能力,但实际应用中仍然面临一些挑战,这些挑战为未来研究提供了方向:
      • 语法聚类函数的定义:如何定义适合的语法聚类函数是docode方法中的关键一环。不同的代码语法类别可能对模型预测有不同的影响,因此研究人员需要选择合适的聚类方法来准确反映这些影响。
      • 因果图的构建:建立合适的结构因果模型(SCM)是另一个挑战。SCM需要考虑多种潜在的混淆因素(如代码的复杂性、子词数量、代码长度等),如何在模型中合理地编码这些因素并量化其影响是未来研究的重要课题。
      • 验证因果假设的有效性:验证因果模型的假设需要借助多种方法,包括通过不同数据集和假设场景来测试模型的鲁棒性。如何设计高效的测试方案,以及如何应对实际场景中的数据稀缺性问题,都是未来应用中的重要挑战。
 
 

一点小灵感

notion image
利用IDE构建语法树、索引等,embedding可以使用正常的方法,RAG可以有点魔改,rerank可以训练一个小模型来做;多路召回、排序、LLM需要点创造
 
上一篇
碎碎念日记
下一篇
妙笔生花:AI赋能汉字意象化教学

评论
Loading...