半岛综合体育生成式人工智能裁判本质上是算法研发人员利用神经网络将案件各要素与裁判结果间的映射关系生成为函数表达,再将新案件要素输入该函数并判别输出结果。生成式人工智能裁判无法运用情理有三点技术上的原因:第一,训练人工智能的样本较少,人工智能不能生成情理的函数表达式;第二,情理含义的复杂性与适用场域的特殊性加深了案件材料数据化的难度;第三,司法裁判中情理与法理的纠葛提高了人工智能解读并运用情理的难度。情理在原始材料中有着语言和价值的不可还原性,不能被人工智能接收。生成式人工智能不存在自我意识,无法真正地理解并运用情理。
人工智能的定义纷繁复杂,在不同的技术、场景下有不同的含义。一般来说,人工智能是模仿人类智能的科学技术的总称,其旨在利用自动化机器或计算机模拟、延伸或拓展人类的智能,赋予自动化机器或计算机实现人类思考活动或脑力劳动的能力。目前,人工智能已经发展到4.0阶段,不仅能帮助人类处理海量数据,还可以像人类一样进行初步思考和行动。然而,人工智能技术发展的背后也意味着诸多的风险和挑战,因人工智能引发的社会性问题层出不穷,被学界广泛关注。
本文关注人工智能在司法裁判中运用,诸多法学学者对AI司法抱有乐观态度,有观点认为“人工智能可以代替法官直接作出裁判”,人工智能裁判是数字正义的法理表达,为司法提供理论解释和方法支持。即便是谨慎的态度,也期待人工智能裁判的技术成熟,认为人工智能裁判是否适合是人类价值选择的问题。还有学者对人工智能裁判存在的算法风险表示担忧,并建议用法律对人工智能裁判进行规制和监督。
在AI司法研究的高歌猛进的同时,对人工智能本体论的忽视愈发明显,大量研究在没有搞清楚人工智能本体为何者的情况下急于占据司法适用的高地,陷于表象式研究氛围。但对AI司法研究现状的批判并不意图否认人工智能在司法适用中的价值,而是期待法学学者从人工智能之“实”转向人工智能在司法适用之“形”。值得注意的是,司法活动为AI司法的发展提供了丰富的质料,人工智能在司法活动中的表现将有助于法学学者明晰人工智能的本体,进一步研究人工智能的司法适用问题。
本文尝试根据以上工作,提出并回答本文的核心问题:生成式人工智能能否进入司法适用领域?需要说明的是,本文讨论的人工智能仅限于生成式人工智能。第一,从对人工智能的认识来看,生成式人工智能是一种能够自主学习、生成以假乱真的图像和声音等媒介的技术,最近被广泛讨论的ChatGPT为此类代表。该技术属于强人工智能的范围,有别于语音输入、裁判文书上网检索等“机械自动化”下的人工智能。出于讨论的方便,本文对生成式人工智能与人工智能在表述上一般不做区分。第二,从讨论的意义来看,弱人工智能(或“机械自动化”下的人工智能)尚不足以对司法实践造成挑战,其在司法实践中往往被定位为司法审判的辅助工具。生成式人工智能因其具备的“自动的”交流能力和创造能力,不仅可以模仿人类活动创造文本、声音和图像,还可以在与人的交流活动中改进自己的生成能力。这挑战了人类对“意识”的理解,在司法领域中更产生了代替法官裁判的呼声,对该问题的讨论存在现实意义。
出于司法实践的需要,域外一些国家开发出了人工智能法律专家系统,这些系统基于已有规则和大量案例,模拟法律专业人士进行法律推理,去寻找解决新法律问题的方法。人工智能裁判,就是法官将案件材料输入法律专家系统半岛综合体育、采纳或听取法律专家系统得出的结果,并作出司法裁判的活动。
截至目前,人工智能裁判的实现大多是将待决案例输入海量的已决判例群中,通过对比寻求判例群中相似度较高的案件,将判决先例的裁判方法和法律规则的适用条文导入待决案件,作出判决结果的预测。
据报道,人工智能裁判有着比法律专业人士更高的预测准确率。人工智能律师Case Cruncher Alpha与英国伦敦100名精英律师就“基于数百起PPI(支付保护保险)不当销售案件的基本事实预测金融监察专员是否会允许索赔”进行竞赛。他们一共提交了775份预测,结果表明Case Cruncher的预测准确率为86.6%,而律师们的准确率仅为66.3%。伊利诺理工大学联合南德克萨斯法学院利用随机森林算法构建了一个数学模型,预测美国最高法院在1816-2015之间的决策,在案件结果层面的预测准确率为70.2%,在司法投票层面的预测准确率为71.9%。预测模型的作者Katz表示,该模型不同于其他模型,因为它可以不加样本地应用于司法决策的整个过去和未来。鉴于人工智能优异的计算能力,DoNotPay公司打造了一款提供法律服务的聊天机器人,通过与之对话,机器人可以帮助求助者在日常情景中更好地与法规、协议交涉,维护自己权利。2020年,DoNotPay公司被美国律师协会授予路易斯·M·布朗奖,表彰其“致力于为那些收入微薄的人提供法律服务”。
以上案例显示,人工智能拥有海量的判决资源、丰富的计算能力,进入司法裁判领域或许比人类拥有更大优势。在域外某些国家的司法裁判中,活跃着人工智能的影子。在美国,已经有多个州的法院利用COMPAS、PSA和LSI-R三种主要的人工智能风险评估系统,预测在押人员再次犯罪的概率,帮助法官判断是否对在押人员适用缓刑。爱沙尼亚使用司法人工智能系统处理标的额小于7000欧元的小额索赔纠纷。这有助于法官和律师避免复杂且琐碎的事务,也使爱沙尼亚在司法裁决的速度方面位列欧盟第二。
人工智能在裁判领域大规模应用的同时,学者们对人工智能裁判的现实情形提出了担忧:第一,正当程序问题。人工智能裁判的算法属于商业秘密,负责算法涉及的公司拒绝透露算法内容或公布设计算法时考量的要素,同时,算法的设计也不存在统一的标准。这些都不会为被告人所知,而人工智能生成的“有罪判决”却往往使被告人陷入自证无罪的尴尬境地。第二,算法偏见问题。即使算法模型苦于对相似特征的被告人群体作出精准预测,但对个人而言的不确定性太多,个性特征被算法忽视。
任何对人工智能的考察都必须分析人工智能的技术理论。目前科学界对人工智能的构造主要采用神经网络学派的观点,该学派认为人类高度复杂的思维能力和外部学习性和适应性,都是由大量神经单元连接孕育的。实现人工智能即通过大数据训练神经网络,模拟人类的学习过程,赋予机器智慧。
神经网络的基本单元是神经元,神经元的基本模型是MP模型,内部蕴藏了判别函数。举一个简单的例子,在神经元模型中输入讯号“张三实施了非法剥夺他人生命的行为”“故意非法剥夺他人生命的行为犯故意杀人罪”“犯故意杀人罪的应当判处死刑”,神经元模型将通过判别函数得出“张三应当被判处死刑”的结论。该模型推理的本质是一种演绎逻辑推理,法律为神经元模型的推理提供了坚实的理论基础,阐明了人工智能裁判的适用前提。具体地说,该推理是在封闭自足的法律系统内,将案件中的行为人的行为要素转换为讯号输入模型,模型依据法律规范通过函数判别生成判决。但其实这只是对人工智能裁判的美好设想,与人工智能的实际活动存在本质不同半岛综合体育。如Menon等人使用Logistic回归算法、基于词袋模型(Bag of Words)和RSLPS词干,以78.02%的准确率预测了司法判决。简单地说,该模型是将案件各要素与裁判结果间的映射关系生成为y=f(x)的函数表达,再将新案件的xi输入该函数得出测算结果并进行判别。这意味着对新案件的判决将依据生成的函数表达而并非法律规范,有违大陆法系国家法官判决的机理,也面临类似案件是否应当类似判决的法理拷问。
但单个神经元模型无法进行抑或运算,无法面对司法实践的复杂问题,为进一步提高预测正确率半岛综合体育,必须建立二级或多级神经模型建构司法裁判模型。一个简单的(前馈)神经网络模型如下图(图1)所示。
该模型包括输入层、隐含层和输出层三个基本结构,信息在模型中单向传播。其中隐含层的数量可以无限制地扩张,每一层之间由神经元连接,人工智能的智慧程度取决于神经数量和隐含层的层数。在人工智能裁判的现实活动中,人工智能会询问待测者的年龄、家庭情况、信仰、价值观、具体行动等,对相关因素进行综合考量,并通过函数判别式推算。因为不同学者采用的自然语言处理技术和模型不同,相应地存在不同的准确度。如Ahmad基于混合深度神经网络(CNN+BiLSTM)预测司法案件判决,该混合模型的准确度达到了91.52%;Kowsrihawat则采用端到端(End-to-End)深度学习神经网络预测司法判决,其准确度在74.38%。
人类对信息的运用是复杂的,人类可能会反复运用某信息进行判断,或通过判断结果反思自己的判断活动。神经网络的误差反向传播算法就是在模拟人脑的反馈机制,如果人工智能的实际判断与输入案例结果的吻合度不佳,则系统触发自带的“反向传播算法”来调整系统内各个计算单元之间的联系权重,使得系统给出的输出能够与前一次输出不同。然后,系统再次比对,如果二者吻合度依然不佳,则系统再次启动反向传播算法,直至实际输出与理想输出彼此吻合为止。值得一提的是,算法歧视在一次一次重复的“反馈”中产生了。更重要的是,反馈链的存在使得神经网络的结构变得越来越复杂和不可知。对于动辄几十层甚至上百层的神经网络而言,包括数以万计的神经节点,加之人工智能的自我学习方式,即使是设计者也已经很难去精准理解其每一层中每一个节点的参数到底是如何形成的,代表什么功能。与算法设计者以商业秘密为由不公开算法内容相比较,人工智能因深度学习产生的“算法黑箱”更强烈地拷问着人类期待正义的本能。
致力于AI司法研究的法学学者对人工智能的深度学习能力抱有乐观态度,忽视了人工智能裁判本身“能不能”适用司法的问题。即使人工智能对司法裁判结果有着精准的预测能力,表现出优于人脑的算力,这也并不能证明人工智能足以代替法官承接司法裁判的工作。最高人民法院对裁判文书释法说理提出“阐明事理、释明法理、讲明情理和讲究文理”的要求。笔者将以“情理”为例,讨论人工智能裁判如何解读“情理”,以及能否“讲明情理”。
在法学理论中,“情理”概念有着丰富的内涵,是指社会成员在交互过程融入了感情经验而得到的普遍化价值准则。从产生来源看,情理发端于动物本能的感情情感,著见在感情之上;从实质渊源来看,情理存在一般的社会秩序之中,并期待被司法工作者在案件中发现。从司法运用来看,情理可以被普遍化证成并充当准裁判依据。因此,“情理”既具情感属性,也具备事实性和规范性。
在司法实践中,法官或将情理化约为“孝”“爱”等自然情感,或将情理化约为“事情的道理”,或将情理化约为“民情民意”。一个人类法官,也必须在面对大量案例后才能对“情理”有着更深层次的了解,人工智能依凭学习的快速性与可重复性,具备了解读“情理”的能力前提。
解读情理的核心在人工智能对自然语言文本处理。自然语言的本质特征是内部计算机制,该机制产生无界的结构化短语和句子阵列。这表明自然语言的表达并非杂乱无章,为人工智能理解语言提供可能性。由于现实的自然语言极为复杂,不能被人工智能直接处理。学者们尝试对自然语言形式化处理,建立语言的“形式模型”,使之能以一定的数学形式,严密而规整地表示出来,并交由人工智能对这些文本进行处理和分析。
如笔者将某判决文书内容“但其前后陈述发现地点不一,其解释不合情理”输入,人工智能会对接收到的语词先进行“分词处理”,当发现语句库中“陈”和“述”很大概率同时以“陈述”,人工智能会将“陈述”判断为一个词组,其他分词处理亦复如是。其次,人工智能对划分出的词进行“词性标注”(标注名词、动词、形容词等)和句法分析(分析语句的主语、谓语、宾语等)。再次,人工智能会尝试对文本进行“语义分析”,该活动借助单一或多种模型完成。
人工智能知道自己在处理什么,但是它并不能像人类一样真正“知道”。实际上,人工智能对情理文本的解读依赖算法研发人员对情理的解读,尽管不同的人对情理有着不同的理解,但情理从其本体上大致都可以被拆解为“自然情感”“事实道理”“民情民意”等要素,人工智能理解情理在本质上就是赋予这些要素权重(贡献度分配),再通过误差反向传播算法向各级神经元反馈训练结果的差额,赋予要素修正后的权重,并重复该过程,直至建构出合理的情理的函数表达式。(如图2所示)然而人工智能在初始状态并不能判断何为情理,加之情理规范性的特征,这就要求材料中的情理必须合法律性,非司法专业人士对情理的解读都会消解情理的规范性。此外,部分法官僵化适用法律逻辑和法律规范,在司法裁判中背离情理。如果对材料不加辨别的输入,人工智能会把识别到的输入内容全部识别为真,偏离对情理认识的正确轨道。此外,研发人员还可以对人工智能的训练过程进行观察,设置并增加新的要素和权重。
值得注意的是,情理诸要素与情理的关系并非限定于(x,y)点对,而是向量、矩阵等组成的(X,Y)广义点对。一方面,人类有着丰富的情感,从类型上看不仅包括亲情、爱情、友情等,还可以由不同的情感类型产生喜怒哀乐等不同情感内容。如“爱情”关系既会引发“相互扶助”的爱情观念,却又易由爱生恨引发错误的行为;另一方面。社会关系具有相当复杂性,在同一案件中可能存在两种甚至以上且对判决结果有冲突影响的情理。例如在“好意同乘期间驾驶员致同乘人损害”的案件中,法院对情理的运用既考量了“提倡助人为乐”的道德观念,也包括“加害人填补损失”的公平要求。人工智能必须利用多层复合函数,借助神经网络模型解读情理。
司法审判活动运用情理主要在评价事实或评价证据,由此推断,情理在司法运作中往往扮演辅助角色,并非法官审判的直接依据。因此人工智能不能通过准确预测案件结果说明自身运用了,或说明了情理。笔者认为,司法活动在建构人工智能理解情理模型和运用情理之间存在逻辑断裂。结合人工智能解读情理的过程,笔者认为人工智能无法运用情理有以下几点技术上的原因:
第一,训练人工智能的样本较少,无法帮助人工智能深入解读情理与运用情理。一方面,人工智能模拟法官运用情理需要丰富的判例材料,如Al-Kofahi构建了一套集提取、处理法院意见并自我学习的人工智能系统时,在数据库里载录约七百万案例。Spaeth等人在预测最高法院的裁判结果时,其数据均基于官的所有判决。然而笔者在裁判文书网上以“情理”作为全文检索的关键词,时间自2012年起至2022年止,“情理”仅出现145799次,作为训练模型的样本远远不够。还有的法官依情理判断但不说“情理”字样,人工智能无法判定法官是否考量了情理。例如“于得水案”的刑事判决书被媒体赞为“最有温度的判决”,法官以对情理精湛的把握讲明了为何对被告人于得水科以较轻的处罚,但在判决书中未著情理一字。
另一方面,司法裁判不说情理现象普遍。法官的判断或者缺失情理法则的支撑,存在法律专断,论证忽视常识,法律阐述简单粗暴等情形;或奉行“宁简勿繁”的原则,怕言多必失,被别人抓住把柄;或因制度差异没有给法官说理的激励;甚至还有的法官明知在不符合情理的情况下,徇私枉法作出错误的判决。此类判决文书的存在对人工智能解读并运用情理产生了负面作用。
那么,能否用人工智能生成的数据训练人工智能的预测能力以解决裁判样本不足的问题?Shumailov发现,这种左脚踩右脚的训练方式是一种“诅咒的递归”,会使人工智能“遗忘”原始数据导致模型崩坏,这也意味着人类创造的数据才能具有训练人工智能的价值。
第二,情理含义的复杂性与适用场域的特殊性加深了案件材料数据化的难度。在某些案件中,多种情感交织将案情复杂化,难以用数字表现,而人工智能对案件材料的解读,必须通过数学形式。据《折狱龟鉴》载,有兄弟俩都认为某孩童是自己的亲生儿子半岛综合体育,郡守黄霸让两妯娌“竞取之”。孩子的亲生母亲害怕弄伤孩子,于是不敢大力抢夺。这就要求在审判过程中既要考量“母亲怕孩子受伤不敢大力抢夺”的护子之情,也要平衡“因竞取之命令下母亲害怕失去孩子不得不抢夺孩子”的惜子之情。还有多种情理存在同一案件中的情况,笔者在前述“好意同乘期间驾驶员致同乘人损害”案即属此类案件。
第三,司法裁判中情理与法理的纠葛提高人工智能了解并运用情理的难度。一般地,法理和情理存在复杂的关系,一方面,情理与法理互为表里,相辅相成,法律的规定性要从日常社会交往的情理中去寻找,生活中的情理又由法律决定。另一方面,情理的目的在于调整或恢复原有的社会关系,法理是以形式理性为特征,通过法律规范的逻辑适用实现定纷止争的效果。两者既关系紧密但又目的不同,在法理与情理相悖的情况下,如何平衡情理与法理的关系,或运用情理选择法理对法官有着更高的专业要求。在人工智能看来,选择哪一种认识、论述的角度只是概率问题,并不具备实际意义。或许算法设计者已经为人工智能设定了某种认识、论述的角度,或人工智能自身将某案的判决结果作为衡量“价值”文本的依据,但这就很容易造成人工智能式的机械司法。不仅无法在判决书中融合法理和情理,也无法实现个案正义。
一种可能的解决方法是使用一组论证形式为每一个输入案例创建论证图,期待人工智能基于数据库中的真实案例进行法律推理。然而该方法缺陷也是明显的,或在论证图的创建过程中穷尽所有可能,其将产生数以万计的人为繁重工作,或因训练基数不够,导致预测性能的评估在统计上并不严格。对此种方式更严格的反驳是司法审判在无先例可循的情况下甚或在法律条文外寻找支持理由,而人工智能仅能在被输入的条文与案例内寻找支持审判的理由。法官对法律规范的解释并非仅依据文字内容,也会采取目的解释、历史解释等非基于条文本身的多种解释方法,寻求法律规范内公平和正义的内涵理念半岛综合体育。
人工智能运用“情理”失能,蕴藏了哲学观对人工智能不具备自我意识的深层反驳。虽然哲学不能回答算法应当被如何设计,但如何定义“智能”,如何构思实验驳倒理论假设,以及人工智能研究依赖哲学对心智的理解等,为人工智能的哲学讨论提供了可能。
尽管笔者已经证明人工智能无法运用情理,但前述证明只是一种人工智能在技术上运用情理的缺陷。从哲学的视角反思“情理”将从根本反驳人工智能运用情理的可能。在我国,对“情理”的理解往往拆作“情+理”模式。从“情理”整体来看,“情理”的话语体系即包括道德秩序,也强调事物的实在性及特殊性,“合情合理”即意味着上述两个因素的结合。
对人工智能而言,如果人工智能在输出内容中体现“情理”的用法,那它和人类在对情理的意义“理解上”并没有表面的不同。Churchland认为,人类大脑不会构成分配正义理论或法律体系,它最多只能构成一个关于我们如何产生、体现和适用这些有价值的认知成就的理论。对此,他设想了一个从元伦理学领域内引出认知的神经网络模型。
训练该模型有三个步骤:第一,将人类行为的底层描述全部模糊化后输入神经网络,并调整节点的权重。该过程模拟的是成年人通过感知技能不断地理解自己身处的社会和道德环境;第二,划分神经层上的抽象空间,并在某些专有神经元层,划分为一组分层的类别,如“道德上重要的”与“道德上不重要的”行为等类别;第三,确定每一个被激发的行为点在空间中的位置,这些结构化的空间构成了对社会空间结构以及如何有效驾驭社会空间的后天知识。(见图3)
Churchland模型中的道德认知与情理具有相似性,但如果试图将情理安置进Churchland模型会存在哲学上的困难。人工智能试图将分散的案例数据归纳为层级更高的y=f(x)的函数,但情理往往是在材料之外被发现的。这段引文的用词并不明显地带有了更高层次的价值评价,却也结合在历史事实之上,属于“一事一辞”的特殊表达。“一事一辞”既不存在可将内容模糊化的数字标准,也就使得情理存在无法数据化的问题。
“情理”还有以“隐喻”方式存在的复杂表述,需要学者脱离事件之外,在一个更高的语境中理解情理。而人工智能由人类构造,其自身并不能跳出输入的知识范围或程序内容去深入理解情理。中国语境中通过历史类比进行人物评述的做法与人工智能的归纳判断存在方法论上的违背。这也足以说明:情理在原始材料中有着语言和价值的不可还原性,不能被人工智能接收。
塞尔为反驳人工智能的“自我意识”存在设想了一个“中文的房间”,即使房间里的人不懂中文,也可以通过字典查阅与规则指引给房间外的人提供答案。塞尔指出,人工智能的运算活动也仅是按照设计好的程序进行的,而并不理解自己处理的是什么。笔者认可塞尔的观点,也必须由此承认一个完美的运算模型主要也归功于人类专家对数据的模糊处理,并通过一组或多组(x,y)点对在输入信息和目标信息之间确证其特定种类的映射关系。
映射关系的确证需要大量的数据验算,富有经验的设计者对描述(x,y)点对的数学公式模型有较为准确的“想理解”,设计者取出该公式,再利用现实数据对数学公式内的参数修正。该过程的本质是通过不断试错,得出合适的答案。徐英瑾将其描述为“外国徒弟向中国师父学功夫”的过程,人工智能的学习就是凭借其强大的算力不断“胡猜”,直到猜出符合该条件的正确答案。
由此可见,人工智能的学习过程是非常笨拙的,人类之所以会忽视这个笨拙的学习方式在于计算机强大的数据处理能力。数据越丰富或模型越复杂,对计算能力的要求就更高。笨拙学习产生的结果之所以会有超出人类专家的准确率,恰恰是以大量人类专家提供的优质样本作为前提的。人工智能笨拙地学习仅知其然不知其所以然,他们对信息的加工仅在表面上做文章。例如最近走红的AI绘画,本质上仍然是程序计算的结果,人工智能自身既不存在作画的素材,也不知道自己的程序运行能得出什么样的画,更何况人工智能怎么能知道作画时的这一笔应该落在何处?
该情状将引发有关人工智能的另一讨论,即人工智能是否具有“自我意识”?Farina认为人工智能存在自我意识以人工智能有一个最小的“自我”为充分条件。然而学界(尤其是理工科)的证成策略却往往偏离该命题,将人工智能的依照程序作出的行为选择机制当作人工智能的最小自我。
学界还存在大量此类“自我意识—主体模型”,如Dutt等人建构的CPS(Cyber-PhysicalSystems)模型可以感知环境、分析决策并在程序约束内实现期望的目标。Selitskiy制作了一个元学习主管ANN模型,以更精确地在人脸识别和面部表情识别的错误案例上进行自我调整,等等。
笔者认为,这些模型的设想是好的,也在实践中发挥了重要作用。然而这样的证成活动仍存在两点批判:其一,人工智能的学习机制完全由设计者输入,但笔者很难想见社会中——即使是理想社会也——人类的学习过程也是由一个被“造物主”设定的学习机制所控制的。这实际上恰恰反证了人工智能“他我”的视角定位。其二,从表面上看,人工智能的行动以环境变化而作出相应行为,实质上人工智能的行动完全是在符合某种行动环境条件后触发并运行选择该行动的程序,其仍然不存在自我选择下的自我意识。
如此一来,人工智能并不具备自我意识和自我认知能力,它的任何行动都是基于预先编写好的程序进行的,即使是深度的学习也无非是对人类已有的学习过程进行仿真。而“智能”之为“智能”的标志在于配称“智能”者,能够在前人没有全面涉足的领域,做出创造性的贡献。
物的目的决定物的结构,如果不以生成裁判结果作为人工智能裁判的唯一目的,人工智能或许并不会面临笔者在文中的多处指摘。人工智能不能承载人类的情感、价值观等人文资源,这意味着人工智能在司法活动中应当处于辅助性地位。人类有着人工智能所不具备的“智能”,如何利用好人类的智能平衡日益增长的美好生活需要,才是人工智能长久发展的源动力。
朱浩川 陈持家|论生成式人工智能裁判的情理应用难题原创 朱浩川 陈持家上海市法学会 东方法学轻触阅读原文