炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:科技行者)

这项由南京大学与阿里巴巴集团联合开展的研究,于2026年6月1日以预印本形式发布,论文编号为arXiv:2606.02320v1,有兴趣深入了解的读者可通过该编号查询完整论文。

一份好的研究报告,光有文字还远远不够

考虑这样一个场景:你是一家公司的决策者,需要了解某个新兴市场的发展趋势。助理给你递来一份厚厚的报告——文字写得头头是道,引经据典,每一个数据点都有来源。但整份报告里,要么没有图表,要么有几张图却和正文内容风马牛不相及,甚至有些数字对不上。你会信任这份报告吗?

这正是当前人工智能"深度研究"系统所面临的核心困境。所谓深度研究系统,就是那些能够自动浏览网络、收集信息、并最终写出一份完整研究报告的AI助手——比如各大科技公司推出的"Deep Research"功能。这类系统近年来发展迅猛,在撰写长篇文字报告方面已经颇有建树,但它们有一个共同的软肋:对于视觉内容的处理,往往流于表面甚至完全缺失。

研究团队将这一现象描述为"装饰性视觉"与"证据性视觉"之间的根本差异。前者是把图片当作报告的美化点缀,插进去好看;后者才是真正意义上把图表作为论据,让每一张图都在支撑某个具体的分析结论。目前大多数AI系统做的是前者,而真实的专业报告需要的是后者。

这项研究的意义在于,它不仅指出了这个问题,还从头到尾构建了一套解决方案——包括一个专门用来测试"图文混排报告生成能力"的评测基准,一个专门设计来处理这类任务的多智能体框架,以及一套评分体系。整个体系被命名为TVIR,取自"Text-Visual Interleaved Report Generation"(文本与视觉交织的报告生成)的首字母。

二、先立规矩:TVIR-BENCH是如何"出题"的

要评测AI系统的能力,首先得有一套公平、合理的考题。TVIR-BENCH就是这套考题,它包含100道精心设计的多模态深度研究任务,覆盖十个不同领域——从科技与智能、金融与商业、健康与医学,到历史与社会、文学与艺术、旅游与娱乐,可谓包罗万象。

这100道题的设计遵循了五条核心原则,理解这些原则,才能明白为什么这套基准比以前的同类测试更"接地气"。

第一条原则叫做"角色驱动"。每道题都有一个具体的身份设定:不是泛泛的"某人想了解某话题",而是"某家生物制药公司的研发主管需要评估一个新疗法的临床和商业前景"。这样的设定确保任务有真实的使用场景,而不是空洞的学术问答。

第二条原则叫做"需求导向"。题目里会明确列出需要回答哪些具体问题,避免那种"请谈谈你对AI的看法"式的开放题。每个子问题都要有明确的信息目标。

第三条原则叫做"深度研究"。题目不能用简单的信息检索来搞定,必须要求模型从多个来源综合证据、进行因果推理、比较不同观点,最后给出结论或建议。

第四条原则叫做"前沿聚焦"。题目要关注近两三年内出现的新发展、新挑战,鼓励模型去使用最新的数据和资料,而不是依赖陈旧的背景知识。

第五条原则,也是最关键的一条,叫做"多模态整合"。每道题都明确要求生成视觉内容,而且这些内容必须真正服务于分析目标。有趣的是,题目通常不会直接说"请检索一张图片"或"请生成一个图表",而是用更自然的方式嵌入这些需求,比如"请绘制一个雷达图来比较这几个方案"或"请附上这个系统的架构图"——前者暗示需要生成图表,后者暗示需要检索图片。

100道题按难度分为三档:低难度(约130个英文单词,1至3个多模态需求)、中难度(约260个英文单词,2至4个多模态需求)、高难度(约390个英文单词,3至5个多模态需求)。其中50道用中文出题,50道用英文出题,语言分布均衡。

这些题目的诞生过程也颇为严谨。首先由领域专家提出核心话题,保证话题的真实性和前沿性;接着用Grok-4.1-Thinking模型草拟题目;然后由三位领域专家对草稿进行审核,从设计合规性、事实准确性、逻辑连贯性和多模态可行性四个维度逐一把关;最后,每道题还会配套一份"评估清单"——把题目拆解成一系列可以逐条核查的具体要求,方便后续评分使用。

三、怎么打分:一套同时审查文字和图片的双轨评估体系

有了题目,还需要一把公平的评分尺。TVIR的评估体系分为两条轨道并行运作:文本评估(Textual Assessment,简称TA)和视觉评估(Visual Assessment,简称VA)。这两条轨道各包含若干细分指标,最终汇总成一个综合得分。

文本评估轨道包含五项指标。第一项是"引用支撑度",具体检查报告里每一个事实陈述是否有对应的参考来源支持——评分系统会把报告里引用的每条文献实际抓取下来,逐一核查,给出"完全支撑"、"部分支撑"或"不支撑"三档评分。第二项是"指令对齐度",对照每道题配套的评估清单,检查报告是否完整、具体地回答了所有要求。第三项是"写作质量",从连贯性与组织结构、清晰度与可读性、简洁度、以及风格与引用格式一致性四个维度打分。第四项是"分析深度与广度",评估报告是否做到了因果推理、持续分析、批判性评估、前瞻性洞察和主题覆盖的广度。第五项是"事实与逻辑一致性",专门检测报告内部是否存在自相矛盾的陈述。

视觉评估轨道同样包含五项指标。第一项是"多模态构图",从报告整体层面评估图表元素的布局、数量、多样性和丰富度是否合理。第二项是"图片质量",通过计算机视觉技术测量分辨率、长宽比、清晰度、对比度,并对重复图片施加扣分;对于代码生成的图表,则用AI逐一检查布局完整性、可读性和简洁性。第三项是"图注质量",评估每张图的说明文字是否准确描述了图的内容、提供了足够的解读信息、措辞是否清晰易读。第四项是"图文整合度",评估每张图与其周围文字的关联程度,是否被有效融入叙述流程,是否提供了纯文字无法有效传达的信息。第五项是"图表与来源一致性",专门核查代码生成的图表中的数据是否与其引用的原始来源一致,有无矛盾之处。

在技术实现层面,评估流程有一个精妙的预处理步骤:在评分之前,系统会先用大语言模型把报告里的参考文献条目、事实-引用配对关系、以及所有图表元素(连同图注、图片内容和周围上下文)都提取出来,结构化存储,再分别送入对应的评分模块。之所以要做这个预处理,是因为当前的大语言模型在处理特别长的图文混排内容时容易产生幻觉,拆分处理更为可靠。

四、解题工具:TVIR-AGENT是如何工作的

评测基准有了,接下来研究团队还构建了一个参考答案——一套叫做TVIR-AGENT的多智能体框架,用来实际生成这些文图并茂的研究报告。这个框架分四个阶段串联工作,可以用一个建筑项目来理解整个流程。

第一阶段叫做"研究驱动的规划"(Research-Grounded Planning),负责的是"Planner"(规划者)这个模块。拿到用户的研究任务之后,规划者不会立刻动笔,而是先去网络上搜索和浏览相关资料,然后把收集到的信息整理成一份结构化的提纲。这份提纲里,每一个章节单元都不只有标题和摘要,还明确列出了"视觉需求"——这一节需要什么样的图,大概是什么内容;以及"研究笔记"——从哪个来源获取了什么关键发现,来源网址是什么。这些研究笔记就像建筑项目里的材料清单,为后续所有模块提供了可追溯的事实基础。

第二阶段叫做"视觉资产实例化"(Visual Asset Instantiation),由两个专门的子模块分工合作。"图片搜索者"(Image Searcher)负责处理那些需要从网络检索的图片——比如模型架构图、历史人物照片、地标建筑图片等。它会通过谷歌图片搜索获取候选图片,用规则过滤掉低质量结果,然后借助视觉问答工具核实候选图片是否真的符合需求,最后选出最合适的一张,同时保留来源网址。"图表生成器"(Chart Generator)则负责那些需要根据数据自行绘制的图表——比如某个指标的历年趋势折线图、多个方案的雷达对比图等。它会先搜索相关数据,核验数据来源的真实性和不同来源之间的一致性,然后生成Python绘图代码,在沙箱环境里执行,最终输出图表文件,同时保留数据来源网址。经过这一阶段,原先只是计划中的"视觉需求",都变成了有实物、有来源的"视觉资产"。

第三阶段叫做"上下文感知的顺序写作"(Context-Aware Sequential Writing),由"Writer"(写作者)模块负责。它按照章节顺序逐一生成报告内容,但有一个关键设计:每写完一节,就把该节的标题、摘要和小节结构更新到一个"全局上下文"里;写下一节时,写作者会参考这个全局上下文,确保前后内容不重复、逻辑连贯。写作过程中,写作者会根据图表的描述信息决定在哪个位置插入对应的视觉资产,用Markdown格式将文字和图片自然交织在一起。如果发现规划者留下的研究笔记信息不够充分,写作者还会主动调用搜索工具补充。

第四阶段叫做"全局索引润色"(Global Index Polishing),由"Polisher"(润色者)模块负责。在整篇报告生成完毕后,润色者会做一次全面的"收尾整理":删除被引用了但实际在正文中没有出现引用标记的参考文献;对全文的参考文献按网址和内容去重合并,重新统一编号;同样地,对所有图片进行全局重新编号,并更新正文中相应的图片引用标记。这一步确保了报告在引用和图片标注上的整洁一致,避免了编号混乱或引用悬空的问题。

五、九强同台:实验结果说明了什么

研究团队用TVIR-BENCH对九个系统进行了横向比较,其中六个是商业闭源系统,三个是用不同大语言模型驱动的TVIR-AGENT变体。

六个商业系统分别是:谷歌的Gemini-3-Pro Deep Research(纯文字报告系统)、xAI的Grok-4.1-Thinking DeepSearch、Anthropic的Claude-4.5-Sonnet w/Search、Perplexity Deep Research、Genspark Deep Research,以及Manus-1.6。三个TVIR-AGENT变体分别以Qwen3-Max、GLM-4.7和Claude-4.5-Sonnet作为底层大语言模型。

总体成绩上,三个TVIR-AGENT变体包揽了前三名。其中以Claude-4.5-Sonnet为底层的TVIR-AGENT综合得分最高(74.44),其次是Qwen3-Max版(73.53)和GLM-4.7版(72.62)。在商业系统中,Manus-1.6表现最强,综合得分达到69.73。

细看各个维度,不同系统各有侧重。GLM-4.7版的TVIR-AGENT在文本评估方面得分最高(71.64),显示出较强的文字综合能力;Claude-4.5-Sonnet版则在视觉评估方面以78.76的得分遥遥领先,在图文对齐和跨模态一致性上优势明显。值得特别说明的是,Gemini-3-Pro Deep Research因为只生成纯文字报告,视觉评估和综合得分无从计算,这一结果本身就印证了多模态原生支持的重要性。

引用支撑度这一项最能体现各系统的差异。GLM-4.7版的TVIR-AGENT在这一项得到了68.64分,比表现最好的商业系统Claude-4.5-Sonnet w/Search高出整整21分——后者只有47.53分。这意味着TVIR-AGENT在事实陈述的来源可追溯性上,比商业对手强了将近一半。在图注质量方面,Claude-4.5-Sonnet版的TVIR-AGENT得到74.49分,比Manus-1.6高出8.35分。

研究团队还分析了不同任务难度对系统表现的影响,发现了一个有规律的现象:随着任务难度增加,指令对齐度得分普遍下滑,而分析深度与广度得分反而有所提升。这说明更复杂的任务对多模态协调和指令跟踪提出了更高要求,系统难以面面俱到地满足所有细节要求;但正是这种复杂性,似乎也激发了系统进行更全面、更深入探索的倾向。

跨语言表现方面,所有系统在中文任务上的文本评估得分普遍略高于英文任务,不过差距不大,系统排名也基本稳定,说明TVIR-AGENT具备较强的跨语言泛化能力。研究团队特别提醒,中英文两组题目并不是互相翻译的版本,而是各自根据语言文化背景独立设计的,因此应该把它们理解为平行的基准切片,而不是严格对等的测试对。

六、拆件测试:每个模块的贡献有多大

为了弄清楚TVIR-AGENT的哪些部分最关键,研究团队做了一组消融实验——就像逐一拆掉一台机器的零件,看少了哪个零件影响最大。

实验以Claude-4.5-Sonnet版的TVIR-AGENT为基准,分别去掉三个组件:研究笔记、图片搜索模块和图表生成模块,看每次去掉一个之后整体表现的变化。

结论是清晰的:去掉任何一个组件都会导致性能下降,但影响程度差异显著。去掉图表生成模块的代价最为惨重,视觉评估得分从78.62骤降至60.91,综合得分从73.92跌至63.84——这足以说明,自主生成有数据支撑、来源可查的图表,是整个视觉合成能力的核心。去掉图片搜索模块的影响也相当明显,各项指标都有清晰的下滑。相比之下,去掉研究笔记的影响最小,但依然存在可观测的负向效果。

七、工具使用分析:检索和画图,哪个更划算

研究团队还仔细分析了三个TVIR-AGENT变体在运行过程中的工具调用模式,发现了一个颇有启发性的权衡关系。

GLM-4.7版在规划阶段和图表生成阶段调用搜索和网页抓取工具的次数最多,检索信息最为充分,其"平均有效引用数"(衡量每道题中有来源支撑的陈述数量的指标)达到了最高的102.41条。然而,在有限的智能体操作预算下,过度的检索活动占用了大量资源,导致图表实际生成率只有38.45%——虽然平均每道题计划生成8.66张图表,但实际只产出了3.33张。

Claude-4.5-Sonnet版采取了更均衡的策略,有效引用数保持在86.14的较高水平,同时图表完成率高达94.61%,是三个变体中最高的。这个对比说明,系统表现不仅取决于底层模型的能力,还深刻受到工具调用策略的影响——如何在信息检索和内容生成之间分配有限的操作次数,是一个需要认真权衡的问题。

八、评估体系本身可靠吗

一套评估体系的价值,取决于它自身的可靠性。研究团队为此做了多项验证。

首先是信息提取的准确性验证。研究团队人工标注了90份报告(每个系统10份),为参考文献提取、事实-引用配对提取和图表元素提取建立了人工标注基准。对比结果显示,AI提取系统在三项任务上的精确率、召回率和F1分数均接近完美,参考文献提取三项均达100%,事实-引用配对精确率99.55%、召回率99.20%,图表元素提取同样达到100%。此外,在整个评测集的900份报告中,通过Serper API实际成功抓取参考来源网页的成功率高达96.53%。

然后是与人类判断的一致性验证。研究团队招募了20名具有硕士学位和相关领域专业知识的标注员,对8个系统在100道题上的报告进行独立评分(每份报告由3名标注员评分),计算了自动评分与人工评分之间的一致性。结果显示,在系统排名的皮尔逊相关系数方面,文本评估维度达到99.12,视觉评估达到99.42,综合得分达到99.73——这几乎是完美的线性相关,说明自动评分系统对系统排名的判断与人类专家高度一致。

最后是跨大语言模型评分者的鲁棒性验证。研究团队用另一个模型Gemini-2.5-Pro作为评分者,与主体评分模型GPT-5.2的结果进行对比,发现两者在文本、视觉和综合三个维度上的皮尔逊相关系数均超过99,排名相关性和成对比较一致性也都很高。这说明评估结论对于评分所用的具体模型不敏感,具有良好的稳健性。

归根结底,这项研究揭示了一个被长期忽视的核心矛盾:我们对AI研究助手的评价体系,长期只盯着文字,却对图表的质量和可信度睁一只眼闭一只眼。TVIR的工作价值在于,它从问题定义、解决方案、到评估体系,提供了一个完整的闭环回应。

对于普通用户来说,这项研究意味着未来的AI研究工具在生成包含图表和图片的报告时,将会有更严格的质量标准——不只是"有没有图",而是"图对不对"、"图和文章说的是不是一回事"、"数据来源追不追得上"。这些改变虽然发生在技术层面,但最终会直接影响到每一个依赖这类工具做决策的人所能获得的信息质量。

当然,研究团队也坦承,目前所有系统(包括TVIR-AGENT自身)在来源可追溯性方面仍存在不小的挑战,这是整个领域共同面对的未解难题。另一个值得关注的有趣发现是,任务越复杂,系统在细节指令执行上越容易顾此失彼,但分析视野反而会变得更开阔——这种微妙的权衡关系,或许正是未来优化方向上最值得深挖的课题。

有兴趣深入了解技术细节的读者,可以通过arXiv论文编号2606.02320查询完整论文,该论文的项目主页地址为nju-link.github.io/TVIR。

**Q&A**

Q1:TVIR-BENCH和现有的深度研究基准有什么区别?

A:现有的深度研究基准大多只评估文字报告的质量,对图表和图片要么完全不考察,要么只做粗粒度的评估。TVIR-BENCH的区别在于,它要求报告中的视觉内容必须真正服务于具体的分析目标,并配套了细粒度的视觉评估指标,包括图注质量、图文整合度和图表与来源一致性,这些在其他基准中基本缺失。

Q2:TVIR-AGENT生成的图表数据是从哪里来的,会不会有错?

A:图表数据由图表生成器通过搜索和网页抓取工具从公开来源检索获取,系统会对数据来源的真实性和不同来源之间的一致性进行核验,同时保留原始数据来源网址供追溯。专门设计的"图表与来源一致性"指标也会事后核查图表内容和来源之间是否存在矛盾。不过研究团队也承认,来源可追溯性仍是当前所有系统(包括TVIR-AGENT)的共同弱点。

Q3:为什么GLM-4.7版TVIR-AGENT的图表完成率只有38%,而文字质量却是最好的?

A:这是检索和生成之间的资源权衡问题。GLM-4.7版在规划和图表生成阶段调用搜索工具的次数最多,检索到的信息非常充分,但在有限的操作预算下,过多的检索活动消耗了本来可以用于实际画图的资源,导致很多计划中的图表没能最终生成。这说明系统表现不只取决于底层模型能力,工具调用策略的合理分配同样至关重要。

谈球吧官方网站,星空体育入口,

谈球吧体育官网相关资讯:星空体育app,