焦一和(语言研究所/语言学重点实验室)
语言是人类传递信息、交流思想的重要工具。如今,人工智能已成为推动社会进步与变革的关键力量,对语言的理解与处理成为AI发展的核心环节之一。汉语作为一种以“意合”为特征的语言,句法不依赖于严格的形式标记和形态变化,而是倚重语义关联、语境整合、共享知识与高阶推理。这一特质在为交际活动带来高度灵活性与丰富意蕴的同时,也对当前主要基于“形合”句法的AI语言模型构成了根本性挑战。在积极构建体现汉语特质的语言学理论体系的大背景下,有必要对汉语句法特质与AI语言理解的范式革新予以充分关注。
重视“意合”:
汉语句法特质与理论阐释
早在20世纪40年代,王力先生首先将汉语复句间不借助连词、只靠意会联系的现象称作“意合”。随后,吕叔湘先生也提出汉语的语法关系常常要靠读者或听者自己领会,动作和事物的关系几乎全靠“意会”而非“言传”。汉语的意合特质渗透在日常使用的方方面面,充分体现了汉语组织信息的方式。比如,“飞远海、打实弹、练极限”等是军事新闻报刊中十分常见的表达,但这些短语中动词和名词的组合并非常规的“动作行为+承受对象”,而是蕴含着更为丰富的意义,需要结合具体语境和常识进行判断。再如,不论是正式的外交发言,如“打,奉陪到底;谈,大门敞开”;还是普通的日常话语,如“不洒药、不施肥,鱼米都金贵”,它们形式上都是一连串小句先后排列,小句之间的关系要根据语境判断。汉语中零句是根本,有很多流水句,类似现象比比皆是。可见,仅凭形式很难准确把握汉语语句的真正含义。
正因如此,注重逻辑分析和演绎推理的形式句法对汉语的解释力有限。相比之下,认知语法和构式语法为解释意合为主的汉语现象提供了更坚实的理论支撑。认知语法认为,句法并非自足的形式系统,而是概念内容的结构化与符号化,句法是对概念结构的临摹,遵循时间顺序、因果逻辑、整体—部分等人类基本的认知原则;构式语法则强调,语言中存在大量整体意义大于部分之和的构式,其本身承载了规约化的语义和语用信息,必须将其作为一个整体意合单元来把握。总之,汉语的理解核心在于对整体意涵和概念关系的把握,而非对表层形态的解析。
反思“形合”:
当前AI模型的汉语困境
以DeepSeek、文心一言等为代表的大语言模型,凭借在海量数据上训练出的惊人能力,在文本生成、翻译、摘要等任务上取得了突破性进展,但在处理汉语问题上仍面临一些困境。
在歧义消解方面,由于汉语缺乏形态,结构松散,词语切分难度大,故歧义率远高于英语。比如,AI面对“中央机关考试录用公务员”这样的短语,基本只能解读出“中央机关通过统一考试来选拔工作人员”这一种意思,而忽视了“中央机关考试录用”整体可以做“公务员”的修饰语(如“他是中央机关考试录用的公务员”)。在语篇理解方面,汉语语篇的连贯常靠“意脉”——一段对话或文章,可能通篇都不使用“因为……所以”“虽然……但是”“如果……那么”等,但在具体语境中,其内在的逻辑推进和情感流动依然十分清晰。AI在处理这类语篇时,难以准确判定前后语句之间的关联。比如,“你不去,他也不去”除了表示“你不去,而且他也不去”的意思(即并列关系)外,还可能表示“如果你不去,那么他也不去”的意思(即条件关系),但目前AI的理解普遍局限于更为直观的并列关系,对相对抽象的条件关系还不够敏感。此外,在更高难度的文本理解方面,AI尚有很大提升空间,比如,甘肃、安徽、浙江省的政务服务平台分别叫“甘快办”“皖事通”“浙里办”,谐音“赶快办”“万事通”“这里办”。这些信息高度浓缩的“谐音梗”,要求听者具备一定的背景知识和联想能力,目前的AI若未能及时在训练数据中覆盖这些新词,便无法自主联想出其含义,这些问题会导致AI在处理修辞手法丰富、灵活性强的文本时作出偏颇甚至错误的判断,特定场景下可能会造成严重的后果。
之所以存在上述问题,主要是由于当前主流AI的语言理解范式本质上是一种形式计算,即通过数学模型对海量文本中的形式共现进行拟合,是一种从“形式”到“形式”的映射。而汉语意合的精髓在于意义本身,理解汉语要求从“形式”穿越至“意义”,需要调用外部世界知识、语境信息和灵活的逻辑推理能力。这种“意义理解”的能力,正是AI从“强大”走向“智慧”必须跨越的鸿沟。
迈向“智合”:
范式革新的路径与战略意义
随着汉语句法研究的不断深入,研究者愈发意识到,要使AI处理汉语的能力获得质的飞跃,不能一味地简单扩大模型参数和训练数据,而应寻求范式的根本性革新,即从被动处理意合结构的形式计算,转向主动进行意义理解的智合建构。所谓“智合”,是指人工智能在处理汉语时,能够模拟甚至超越人类,动态地、情境化地整合语言形式、世界知识、上下文语境和交际意图,从而实现真正意义上的深层语义理解和生成。神经学家布萨基主张神经科学应“从里向外”看,即先观察大脑的行为模式,再去考察这些模式如何产生人类体验的多重面向。这一思路对研究意合语法,并据此助力AI发展具有重要意义,启发我们未来可从多方面作出努力。
首先,推进从统计向推理的蜕变。比较理想的状态是:当AI接收到没有形式标记的语句或首次出现的表达形式时,可以迅速关联语境,并在已有的知识库内提取可能相关的信息,经过综合考虑后做出最符合当下情境的推理。这需要在神经网络的黑箱之外,探索引入显性、符号化的逻辑推理引擎。其次,融通古今,深化对汉语本体及中国文化的建模,构建大规模句法语义知识库以及蕴含中国哲学思想、历史典故、社会习俗的文化常识库。汉语的意合特质纵贯古今,古代汉语的“形式极简”与“意蕴极深”反映出“得意而忘言”“不著一字,尽得风流”的追求,现代汉语中诸如“抢抓机遇”“奋战一线”“点赞新时代”等含义大于形式的句法结构,正是古代汉语表达方式的延续。古典文献中的丰富语言宝藏不仅是句法研究的依据,更是中华优秀传统文化直观的体现,因而必须重视历时视角,将古代汉语和现代汉语的句法研究融会贯通,并将这些知识结构化地注入AI模型,实现古老智慧与未来智能的连接。最后,有必要构建具身化的知识体系。人类语言的塑造有无限可能性,通过视觉、听觉、嗅觉、味觉、触觉的交融和连通,能大大丰富语言的表现力,“红杏枝头春意闹”“暗香浮动月黄昏”的意境之美正是由此而来。汉语的意合特质对未来的AI提出更高要求,即超越纯文本符号的训练,构建融合多重感官经验的多模态知识图谱。
“智合”范式的革新,不仅是语言学理论发展的内在要求,更是关乎我国在人工智能领域实现自主突破、掌握核心技术竞争力的重大议题,具有时代意义与战略价值。
重视“意合”,迈向“智合”,是构建中国特色语言学理论并将之应用于核心技术攻关的典范,响应了加快构建中国特色哲学社会科学和实现关键核心技术自主可控的时代号召,为发展具有自主知识产权的AI关键技术提供了坚实的理论前提和独特的创新路径。实现汉语的深度理解,意味着我们能打造出更智能、更懂中文用户、更善于处理中文信息的AI产品与服务,从搜索引擎、智能助理到内容创作、政府治理,其赋能效应是全方位的,关系到国家信息主权、文化安全和国际影响力。汉语的意合特质体现了中华文明整体观、辩证观和直觉体悟的思维方式,让AI理解汉语,在某种意义上也是让技术理解中华文明的世界观,这不仅有助于更好地向世界传播中华文化,也能为全球AI发展注入东方智慧,探索一条超越纯粹形式逻辑、融合整体性思维的理解之路,为构建人类命运共同体贡献中国方案。
“智合”范式的实现,需要语言学与人工智能的深度融合。语言学家应更深入地参与研发,确保语言模型的设计符合汉语本质规律;人工智能专家则需跳出“印欧语眼光”,建立真正适合汉语的计算方法。从“意合”到“智合”,是一场从工具性处理到本质性理解的跨越,它要求我们站在语言学、计算机科学、认知科学乃至哲学的交叉点上,以更坚定的文化自信和理论自觉,深耕汉语沃土,勇探科技前沿,将语言学的理论创新与人工智能的技术突破紧密结合,在智能时代谱写属于中国的华彩篇章。