
这项由阿里巴巴集团旗下淘宝天猫多模态与工业AI团队完成的研究,于2026年6月发布,论文编号为arXiv:2606.14383,感兴趣的读者可通过该编号查询完整论文。
你有没有想过,当一个工厂采购员拿到一台阀门或者断路器时,他需要核对多少信息?压力等级、公称直径、适用温度范围、材质、额定电流……这些参数密密麻麻地分散在产品的各种图片里——有的印在铭牌上,有的藏在规格参数表里,有的甚至得从技术图纸上量出来,还有的需要你懂行才能知道"DN20"其实是"公称直径20毫米"的行业代号。
现在,AI大模型越来越多地被部署在工业采购、仓储管理和供应链匹配这些真实场景里。于是一个非常现实的问题摆在研究团队面前:这些模型真的能把一个工业产品的所有技术参数从一堆图片里完整地找出来吗?
答案,说实话,有点令人沮丧。
研究团队构建了一个他们称为"IndustryBench-MIPU"的测评基准——这是迄今为止第一个专门针对多图工业产品理解能力的大型测评数据集。他们对九款主流大模型(包括Gemini、GPT、Qwen、Claude、Kimi等知名系列)进行了全面测试,最终发现:即便是表现最好的模型,在面对一个完整工业产品的多张图片时,也只能找出不到一半的产品参数。精度高得惊人,完整性却差得可怜。这个矛盾,正是这篇论文最核心的发现。
一、为什么"看懂工业产品图片"是一道难题
考虑这样一个场景:你是一名理解力极强的助手,被要求从一摞产品图片中整理出一份完整的参数清单。第一张是产品正面照,外观漂亮但没有任何文字;第二张是铭牌特写,上面有一堆数字和字母,比如"304"和"DN50";第三张是规格参数表,密密麻麻排了二三十行数据;第四张是一张技术安装图,里面有箭头、尺寸标注和结构示意;第五张是品牌宣传图,跟技术规格毫无关系。
你需要做的事情,远不只是"看图"这么简单。
研究团队将这个任务拆解成了四层难度。第一层是文字识别,即从铭牌和参数表里准确读出数字和文字,这听起来简单,但当参数表密密麻麻排了几十个数值时,漏读就成了常见问题。第二层是视觉推理,即从技术图纸中理解箭头指向什么、标注对应哪个部件、尺寸数值属于哪个方向,这需要模型具备真正的空间理解能力。第三层是领域知识,即知道"304"是不锈钢牌号,"DN20"是公称直径20毫米,"PN16"是公称压力1.6兆帕,这些工业缩略语和代码系统,不是通用知识,得靠专业训练。第四层也是最难的一层,是跨图整合,即把分散在多张图片里的信息片段,像拼图一样拼成一份完整的参数记录,同时还要过滤掉那些跟产品无关的宣传图、工厂图和配件图。
过去的AI测评基准,要么只考文字识别,要么只考视觉推理,要么只看单张图片,从没有人把这四重挑战同时放进一个测试里。这就是IndustryBench-MIPU最独特的地方。
二、这份"考卷"是怎么出的
要出一份公平而有难度的考卷,本身就是一件复杂的工程。研究团队面临三个棘手问题:工业产品的公开标注数据极度稀缺;不同品类的产品需要完全不同的参数体系(阀门的关键参数和断路器的关键参数几乎毫无重叠);很多参数是隐含的,需要专业知识才能提取,单靠人工标注成本高得不现实。
研究团队的解决思路可以类比一种"集体智慧"机制。他们从国内一家大型工业电商平台采集了跨越18个顶级品类的产品数据,覆盖五金工具、化工品、电气设备、机械、安全防护和包装等领域,通过分层随机抽样最终选定了4559个产品、27652张有效图片。
接着,他们没有让一个模型来标注,而是让五个顶级AI模型(GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、Kimi-K2.5和Qwen 3.5 Plus)各自独立完成同样的标注任务,然后把五个模型的结果取并集——也就是说,只要有一个模型认为某个参数值是有效的,就把它纳入标准答案。这种设计的用意很清晰:如果只用一个模型的标注结果来评测另一个模型,实际上只是在测两个模型是否"想法相近",而不是真正考察完整性。取并集,是为了让标准答案尽可能接近真实的完整参数集。
每个模型的标注过程分三个步骤进行。第一步是实体识别:模型先确认这个产品到底是什么(比如"不锈钢两片式球阀"),以防它跑偏去提取旁边配件或者安装示意图里其他产品的参数。第二步是图片过滤:对每一张图片判断它是否包含有效的参数信息,工厂照、营销横幅、无关产品全都标记为无效,大约有31%的候选图片被过滤掉。第三步是逐图参数提取:对每张有效图片,按照产品专属的参数模板提取属性名-属性值对。
标注完成后,还经过了三层质量把关。第一层由一个独立的前沿模型(Qwen 3.6 Plus,它不在被评测的九个模型之列)审查所有候选标注,专门揪出四类错误:幻觉属性(没有视觉依据就捏造出来的参数)、实体误归属(把图里其他产品的参数张冠李戴)、属性名与值类型不匹配(比如颜色字段里填了型号编码)以及语义上不合理的内容。这一轮过滤掉了24万条候选标注中的23.9%,约5.7万条。第二层是黄金标准核对:每个产品都有平台提供的经过核验的标准属性,凡是这些属性覆盖的字段,就用经过人工核实的值直接替换AI生成的版本。第三层是人工抽检:领域专家对随机抽取的10%产品进行逐条核验,通过率为96.7%,说明前两层自动化质量控制已经相当有效。
最终,数据集包含103703条产品级标注,涵盖3564个独特的属性名称,这些标注同时支持单图和多图两种评测场景。
三、九个AI模型的真实成绩单
评测规则设计得相当严谨。预测出来的属性名称必须与标准答案完全匹配,属性值则通过一套递进式策略来判断:先做规则化处理(统一格式、消除大小写差异、规范单位和数字表达),再判断精确匹配或字符级相似度是否达标,最后对于仍然模糊的情况,由Qwen 3.6 Plus担任"裁判"来判断语义是否等价。
评测结果分两个维度呈现:精确率(模型输出的答案里有多少是对的)和召回率(标准答案里有多少被模型找到了)。
在多图评测中,Gemini 3.1 Pro以65.1%的F1综合得分排名第一,召回率49.9%,精确率93.8%。Qwen 3.5-397B-A17B以62.7%的F1紧随其后,GPT-5.4以60.5%排第三。所有模型呈现出一个高度一致的模式:精确率普遍在86%到94%之间,集中在一个很窄的区间里,但召回率的差距就大了——从最高的49.9%到最低的11.7%,相差近40个百分点。
这意味着什么?换个说法:模型说出来的话,十句里有八九句是对的;但它该说的话,有一半以上没说出来。模型的问题不是"说错了",而是"说漏了"。
最有戏剧性的对比来自Qwen 3.5 Plus。在单图评测中,它表现最佳,F1高达81.3%,召回率79.7%;但一旦切换到多图场景,它的召回率骤降到45.4%,F1跌至59.9%,被挤到了第四名。这个成绩差异说明,单张图片处理得再好,并不代表能处理好多张图片拼在一起的场景。
从单图到多图,召回率的下降幅度相当触目惊心。Qwen 3.5-35B-A3B的召回率从63.3%跌至11.7%,几乎完全崩溃,下降了51.6个百分点。其他模型的下降幅度也普遍在15到34个百分点之间。而在整个下降过程中,精确率不降反升——模型没有变得更不准确,它们只是变得更不完整。
四、问题出在哪里:用图片数量和参数密度来解剖
研究团队进一步追问:召回率随着什么因素下降?他们按照两个维度对测试产品进行了分组:输入图片数量和标准参数数量,然后分别统计各组的召回率。
以Gemini 3.1 Pro为例,当产品只有1到3张图片时,召回率是60.3%,F1是73.0%;当图片数量超过15张时,召回率跌到38.7%,F1跌到55.1%。图片越多,模型漏掉的就越多。更能说明问题的是一个细节:图片超过15张的产品,平均有60.1个标准参数,而Gemini只输出了25.6个预测结果,还不到标准答案数量的一半。模型确实会随着图片增多而输出更多参数,但增加的速度远跟不上实际信息量的增加。
参数密度同样如此。对于标准参数超过40个的高密度产品,Gemini平均只输出33个预测值,而标准答案有65.9个,只恢复了45.1%。无论是图片变多还是参数变密,精确率都保持稳定,下降的始终只有召回率。模型并不是因为更多的信息而变得更混乱,它只是更早地"停下来"了。
五、哪种参数最难被找到
研究团队还对测试中涉及的753种属性类型按照认知难度进行了分类,从而得出了一个关于"什么样的参数更难被模型捕捉"的清晰图谱。
第一类是直接标准型,指那些可以直接通过OCR读出或按固定格式提取的单值字段,比如产品名称、品牌,认知门槛最低。这类属性的召回率是45.9%。第二类是领域知识型,指需要解码工业术语、材料标准代号和认证标准的属性,比如"304"代表钢材牌号,"IP68"代表防护等级,需要专业背景知识。这类属性的召回率降到44.1%。第三类是多值复合型,指那些有值域范围、列表形式或组合尺寸的属性,比如"工作温度:-40°C至+70°C"或"适配倍率:0.7X、1X、1.5X、2X、2.5X……",需要模型把所有数值都列出来。这类属性的召回率是42.8%。第四类是视觉推理型,指需要从技术图纸、外观特征或空间结构中推断出来的属性,比如安装方式、流向、整体结构形式。这类属性的召回率最低,只有36.6%。
四类属性之间有9.3个百分点的差距,而且每个模型都呈现出相同的排序:视觉推理最难,领域知识和多值复合居中,直接标准最容易。更有意思的是,各模型在视觉推理这一类的得分差距最小,仅有5.4个百分点,说明视觉推理能力是目前所有模型共同面对的"天花板",能力差异在这里反而被抹平了;而在多值复合和领域知识类属性上,强弱模型之间的差距更为明显。
六、规模对模型能力的影响:一个有趣的双速现象
研究团队还利用Qwen 3.5系列模型(包括35B-A3B、122B-A10B、27B Dense、397B-A17B以及Qwen 3.5 Plus这五个规格)做了一组规模对比实验。
在单图场景下,模型规模的提升带来稳定但有限的收益:F1从35B-A3B的68.7%稳步升到397B-A17B的76.0%,Qwen 3.5 Plus则达到81.3%。整个范围约为13个百分点。值得注意的是,27B的全量参数Dense模型,比122B-A10B的混合专家模型(实际激活参数只有10B)表现更好,这说明在单图场景下,起作用的是实际激活的参数量,而不是总参数量。
多图场景则完全是另一回事。规模最小的35B-A3B(3B激活参数)的多图F1只有20.6%,而397B-A17B(17B激活参数)达到62.7%,两者相差42个百分点。单图场景的差距只有7.3个百分点,多图场景的差距足足是它的五倍多。最明显的跃升发生在激活参数从10B增加到17B的那一步,多图F1一次性提升了12.6个百分点,而单图F1在同一步只提升了5.5个百分点。
这组数据的含义相当清晰:跨图整合、维持多图注意力、从分散的图片中找到并拼合完整参数,这些能力对模型规模的要求,远比处理单张图片要敏感得多。小模型在单图上凑合,到了多图就彻底力不从心。
七、调整提示词和推理模式能改变多少
研究团队还用Qwen 3.5 Plus做了两组消融实验:一是关闭"深度思考"模式(让模型直接输出答案而不经过链式推理),二是把复杂的提示词简化为一个简洁指令。
关闭深度思考模式后,多图召回率微升1.1个百分点,精确率略降,整体变化不大。使用简化提示词的效果明显强得多:召回率从45.4%升到52.6%,F1从59.9%升到62.6%,但精确率从88.1%跌到77.3%。简化提示词让模型去掉了原本对参数模板的约束,于是它输出了更多的预测(从5万条增加到7.4万条),覆盖面更广,但"说错"的也更多,本质上是以精度换取覆盖面。
值得对比的是,在单图场景下,深度思考模式的效果截然不同:开启思考时召回率为79.7%,关闭后跌至70.5%,下降了9.2个百分点。这说明深度思考模式在单图场景下对于穷举参数很有帮助,但在多图场景下,它面对的问题不是"怎么想清楚",而是"怎么找全图片",推理能力在这里发挥不了决定性作用。
无论如何调整,在最宽松的设置下,模型也还是漏掉了将近一半的参数。提示词工程改变的是精度和覆盖面之间的平衡点,并不能根本性地解决完整性不足的问题。
八、一个真实产品案例揭示的细节
研究团队选了一个同轴光显微镜物镜(属于仪器仪表品类)来深入解剖失败模式。这个产品有7张有效图片,对应69个标准参数。表现最好的模型在多图场景下精确率100%,召回率只有45%——每一个说出来的值都是对的,但超过一半的可见参数被漏掉了。
逐张图片来看,规律非常清晰。品牌logo图:2个标准参数,全部找到,召回率100%。应用场景图(一个9格图标矩阵):13个标准参数,全部找到,召回率100%。产品主图(展示外观和特征):9个标准参数,找到7个,召回率78%。近景特写:7个标准参数,找到5个,召回率71%。而到了两张信息密集的图片,问题就来了:物镜规格参数表有20个标准参数,只找到7个,召回率35%;倍率矩阵表(一张9列的表格,纵横交叉列出了各种物镜和总倍率的组合)有27个标准参数,只找到5个,召回率19%。
失败的根源并不是多张图片同时存在造成的困难,而是当一张图片里有大量结构化、列表化的数据时,模型只处理了开头几行就停下来了。
把这个现象落到具体参数上,规律更加触目惊心。"应用场景"这个属性,标准答案有13个值,模型输出了13个,全部匹配。"品牌"这个属性,2个值,全部找到。但"物镜倍率"这个属性,标准答案有14个值(0.7X、1X、1.5X、2X、2.5X等),模型只输出了4个。"总倍率"这个属性,标准答案有15个值(160X、230X、350X、460X、580X等),模型只输出了5个。"型号编码"这个属性,4个值,模型一个都没有输出。
模型知道这些属性的存在,也正确识别了头几个值,然后就早早停手,没有继续列举完整的值域。这不是幻觉错误,也不是OCR失误,而是一种"提前收工"的行为,正好解释了为什么精确率和召回率会出现如此强烈的反差。
说到底,这篇论文做的事情,是给AI模型出了一份更接近真实工作场景的考卷,而模型们的成绩让人清醒:它们擅长"说对了什么",但还没学会"把该说的全说完"。
这个结论对于真正想在工业供应链里用AI做自动化采购、产品匹配或规格校验的人来说,是一个务实的警示——现阶段的AI可以作为辅助工具帮助缩小信息查找的范围,但如果把它当成可以替代人工的"完整性保障",遗漏关键参数的概率依然相当高。
更值得思考的是,这个"精准但不完整"的问题,并不因为模型更大或者提示词更精心就彻底消失。它更像是当前多模态大模型在面对信息密集、分布分散场景时的一种结构性局限,需要专门针对这类任务的改进,而不仅仅是通用能力的提升。IndustryBench-MIPU这个测评集现已公开发布,期待它能成为推动这方面进步的试金石。有兴趣深入了解的读者,可以通过论文编号arXiv:2606.14383查阅完整研究报告。
Q&A
Q1:IndustryBench-MIPU测评集涵盖哪些工业品类?
A:IndustryBench-MIPU覆盖18个顶级工业品类,包括五金工具、化工品、电气设备、机械、安全防护、橡塑制品、钢铁、电子元器件、仪器仪表、建筑材料、包装、纺织皮革等,共4559个产品、27652张有效图片、103703条产品级标注。
Q2:大模型在工业产品多图参数提取中最常见的错误是什么?
A:最主要的错误不是说错,而是漏说。测评显示所有模型的精确率普遍在86%到94%之间,也就是说输出的内容大多是对的,但召回率普遍偏低,最好的模型也只找出了不到50%的参数。尤其是当一张图片里有密集的列表或矩阵型规格表时,模型往往只提取开头几条就停下来,把后面的值全部漏掉。
Q3:模型规模对多图工业参数提取能力有多大影响?
A:影响远大于单图场景。在Qwen 3.5系列的对比中,单图F1从最小到最大模型只差约7个百分点,而多图F1则相差高达42个百分点。激活参数从10B增加到17B时,多图F1一次性提升了12.6个百分点,说明跨图整合能力对模型规模的要求比单图识别敏感得多。
盛达优配提示:文章来自网络,不代表本站观点。