在企业系统和科学有计划中巨额存在、结构复杂的磋磨型数据库(Relational DataBase, RDB)场景中十大正规体育平台入口,基础模子的探索仍处于早期阶段。
这是因为 RDB 中的多表交互和异质特征,使传统通用大模子在此类结构化环境下难以平直证据效用。
基于此,北京大学张牧涵团队纠合亚马逊云科技共同建议了Griffin:一个具有草创性的、以图为中心的 RDB 基础模子。
Griffin 将 RDB 视为动态异质图进行建模与推理,通过在跨越 1.5 亿行的表格数据上进行预熟识和监督微调,构建了一个具备可搬动性与强泛化才智的基础模子,磋磨效率已被海外顶级会议 ICML 2025 谨慎给与。
挑战:复杂的表间磋磨及丰富的表内语义信息
磋磨数据库通过明确的模式(Schema)界说数据结构,宽绰行状于金融、电商、科研、物流、政府信息系统等要道领域,是当代信息社会的中枢数字基础设施。
凭证市集展望,到 2028 年环球数据库惩处系统(DBMS)市集将跨越 1330 亿好意思元。
然则,RDB 智能建模所濒临的挑战极为复杂,汇注体面前以下三方面:
拓扑结构高度复杂
数据以多表形态存储,并通过主键外键等敛迹磋磨组成复杂的图结构,传统单表范式难以捕捉全局高下文。
特征高度异构
表内字段涵盖文本、数值、类别、时期序列等多种类型,信息证据形态诀别,模子需具备妥洽表征才智。
深档次语义磋磨
表表里存在丰富的显性与隐性逻辑磋磨,对模子的磋磨分解和推理才智组成顽强挑战。
上图展示了一个典型的 RDB,绿色的 Purchase Table 纪录了往复数据(每一瞥包括用户 ID、购买的商品 ID、用户对商品的评分、以及购买日历)。而每一瞥又可通过 User ID 这一外键运动到 User Table 里的对应行,或通过 Item ID 这一外键运动到 Product Table 里的对应行,来获取用户或商品的特定信息。
比较普通表格(单表)数据,RDB 连续具有稀薄复杂的表间磋磨以及丰富的表内语义信息,对建模和基础模子熟识建议了挑战。同期,社区始终穷乏能委果响应坐褥场景的圭表化基准。
诸如 4DBInfer ( arXiv:2404.18209 ) 等数据集正持重填补空缺,为新模子(包括 Griffin)提供了妥洽的评测泥土。
瓜代:以图为中心的数据库建模
Griffin 的中枢想想是将磋磨型数据库合座综合为时序异质图,再在此图上进行妥洽的编码、音书传递妥协码,以此捕捉跨表、跨时期的深层依赖。具体来说,它的改进设想不错拆解为以下几点 :
RDB 的数据建模:结构化图示意与时序感知
最初,Griffin 把每张数据表中的一瞥纪录映射为图中的一个节点,而主键 - 外键(PK-FK)敛迹被建模为带类型的有向边。这么,原分内散在多张表中的纪录就组成了一张异质图,其节点 / 边类型自然响应了模式信息。
为了幸免改日信息败露并顺应坐褥展望任务的因果敛迹,模子在熟识和推理时会围绕认识节点采样"局部时序子图":仅纳入时期戳早于认识节点的邻域。
该采样进程鉴戒了 4DBInfer 等基准的熟识作念法,可在保证效率的同期显式注入时期地点。
妥洽数据编码器:异构信息的表率化表征
RDB 中既包含文本 / 类别字段,也罕有值、时期序列等多模态特征。Griffin 设想了一套妥洽编码机制,把不同类型调度为归拢语义空间中的向量:
类别 & 文本:先将类别值映射为其当然话语样貌,再同原生文本一皆输入经过预熟识的文本编码器(如 Nomic Embeddings),得到语义丰富的高维镶嵌。
数值:归一化后的数值输入给预熟识的浮点编码器(ENC)。ENC 与其配对的解码器 DEC 通过纠合重构任务熟识:编码后必须大约无损地解码回原始浮点值,重构缝隙被最小化后这两个组件参数即被冻结。
元数据 & 任务高下文:表名、列名以及边类型被相似送入文本编码器;同期,凭证现时展望认识列名生成的任务样貌会在后续所有档次参与隆重力计算,教唆模子聚焦认识。
经过上述设施,原始多态信息被表率化为一组高语义的向量,为后续图音书传递奠定基础。
先进 MPNN 架构:深度磋磨推理网罗
妥洽编码后的图被送入 Griffin 定制的 Message Passing Neural Network ( MPNN ) ,其中枢由两个互补模块组成:
交叉隆重力(Cross-Attention)列内团聚:对每个节点,模子诈欺现时节点镶嵌和任务镶嵌生成查询向量,与列元数据和列特征进行交互,动态评估不同列对现时任务的进犯性并加权团聚。该设想自然得志列置换不变性,且可处理列数可变的表。
层级团聚(Hierarchical Aggregation)跨表推理:在音书传递的每一层,先对归拢边类型的邻居音书作念均值团聚,再在不同边类型间作念最大池化。这种两阶段层级计谋擢升了模子在处理具有复杂拓扑结构和多变邻居数目的表间关联时的褂讪性。
通过多层迭代,MPNN 大约拿获从左近到辛劳的复合依赖,为卑鄙任务提供信息丰富的节点表征。
妥洽任务解码器:多任务输出的一体化有策画
MPNN 输出的节点向量随后参加妥洽解码器,使 Griffin 大约在不改换架构的前提下同期处理多种展望任务。
分类任务:把候选类别标签自身的文本镶嵌作为可学习的动态分类头,与节点向量作念内积得到概率分散 , 大约拓展到可变类比数目的任务。
归来任务:平直将节点向量输入预熟识 DEC,反解得到最终的展望数值。
熟识:三阶段优化有策画
Griffin 通过"自监督预熟识→纠合监督微调→卑鄙任务微调"的三级管线,迟缓注入从通用表格语义到特定 RDB 任务常识的才智档次。
第一阶段:补全预熟识 ( Completion Pretraining )
Griffin 最初在海量且各样化的单表数据集上进行自监督学习,任务形态访佛"完形填空"。模子凭证一瞥数据中已知列信息来展望被遁藏单位的镶嵌示意,并最小化展望镶嵌与委果镶嵌间的余弦距离,从而建造对表格结构与语义的基础分解。
第二阶段:纠合监督微调 ( Joint Supervised Fine-Tuning, SFT )
在完成自监督预熟识后,Griffin 使用单表任务或 RDB 任务的数据集进行监督微调,使模子进一步贴合委果场景中的展望需求与数据特质。
第三阶段:卑鄙任务微调 ( Downstream Task Fine-Tuning )
终末,经过预熟识和 SFT 的 Griffin 会针对具体卑鄙 RDB 基准任务进行紧密化微调,以在特定应用场景中取得最好性能。
考据:三阶段熟识的优厚性
为全面评估各熟识阶段对模子性能的具体孝顺,对 Griffin 的三个要道变体进行长远分析:Griffin-unpretrained(仅选拔 Griffin 的基础架构,未经任何预熟识)、Griffin-pretrained(仅进行单表预熟识及单表 SFT)以及 Griffin-RDB-SFT(履历竣工的三阶段熟识进程)。
上图比较了四个 GNN 基线模子、四个使用 DFS 的单表基线模子以及两个 Griffin 变体的性能,每个模子均在单个任务上进行了微调。
最左侧的子图展示了所有任务上的平均排行,其余子图按评估方针对任务进行分组,限制相应地进行了平均。
通过系统推行考据了 Griffin 在架构设想和预熟识计谋上的有用性,发现 Griffin 在多个 RDB 基准测试(如 4DBInfer 和 RelBench)中证据优异,并进一步分析了其在少样本场景下的跨任务搬动才智与数据领域间磋磨的影响。
Griffin 的中枢上风可归纳为以下三点:
1. 顽强的基础架构性能
即便皆备未预熟识(Griffin-unpretrained),凭借妥洽编码、交叉隆重力和层级化 MPNN 等设想,模子在各卑鄙 RDB 任务微调后的证据仍优于 GNN 基线瓜代及联接深度特征合成(DFS)的传统单表模子,体现了架构自身的先进性。
2. 单表预熟识的普适性增益
仅在大规模、各样化单表数据上完成预熟识的 Griffin-pretrained,相较未预熟识版块取得性能擢升,考据单表场景中学习到的常识可搬动至复杂的 RDB 任务,增强模子泛化才智。
3.RDB-SFT 运行的搬动
当进一步在针对性 RDB 数据上进行监督微调(Griffin-RDB-SFT)后,模子在一定情况下展现出跨任务搬动才智,尤其在小样本场景下更为凸起,取决于以下 2 个要素:
数据相似性:SFT 数据与认识任务领域具有较高相似性(举例,同为电商领域的跨任务搬动),模子性能将取得擢升;
数据各样性:在更各样化的 SFT 数据上熟识(举例,使用包含体育、酬酢、医疗等多个其他领域的夹杂数据进行 SFT,再搬动至电商领域任务),相似能有用擢升模子性能。
论文运动:https://arxiv.org/abs/2505.05568
代码运动:https://github.com/yanxwb/griffin
一键三连「点赞」「转发」「戒备心」
宽饶在评述区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见十大正规体育平台入口