• 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 1000
前往

项目名称: 面向生态城市的水土资源利用格局变化机制及适应性调控研究

项目编号: No.51479160

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 水利工程

项目作者: 朱记伟

作者单位: 西安理工大学

项目金额: 82万元

中文摘要: 建设生态城市已成共识,北方挖湖、南方填湖,规划建设可谓如火如荼。作为规划响应的核心要素,水土资源配置和调控不合理将导致生态环境失衡。通过对比历次规划与发展实际,大数据表明规划缺乏定量分析且过于僵硬,落实中缺乏适应性与可操作性。在机理研究和效应计算的基础上进行顶层设计和模拟调控是解决其问题的有效途径。按照目标→机理→效应→模拟→调控思路,揭示水土资源对城市发展的响应-约束关系,采用SD模型模拟分析城市复合生态系统中水土资源利用变化及耦合作用机制,应用信息熵和均衡度模型对比计算不同配置方案的综合效应。基于综合集成可视化支撑平台和环境,结合绘图技术及工具,构建配置规划和管理调控的应用服务模式,进行规划方案交互式设计,支持离线查看规划布局、在线计算配置效应、水土资源要素调整,实现规划从方案到过程、由静态纸质向动态可视,并与管理相衔接。学科交叉,结合西安市的实证再进一步提高认识。

中文关键词: 生态城市;水土资源;配置规划;动力机制;动态调控

英文摘要: As the construction of eco-city has became consensus, the planning and construction are in full swing. As a core element of eco-city planning, the unreasonable configuration and regulation of water and soil resources will lead to ecological imbalance. By comparing all previous planning and development practice, large data shows the lack of quantitative analysis and flexibility in planning, and the lack of adaptability and maneuverability in the implementation. Based on the reveal of mechanism and effect study, the top-level design as well as simulation and configuration are the effective ways to solve these problems. According to the thought of goal, mechanism, effect, simulation and adjustment, it reveals the response-constraint relationships of water and soil resources for city development. SD model is used to simulate and analyze the change and coupling interaction for the utilization of water and soil resources in the complex ecosystems. Information entropy and equilibrium model are used to calculate and compare the combined effects under for different configuration schemes. Based on the comprehensive integrated visualization support platform and environment , combined with the drawing technique and tool , an application service model which supports configuration and planning as well as regulation and controlment is built, to make interactive design for planning scheme, to support offline view of planning layout, online calculation of configuration effect and adjustment of the elements in water and soil resources, to get configuration and planning changed from the scheme to process, from static to dynamic visualization, and connected with management. With cross-disciplines, the research takes Xi'an city as an empirical study, which further improves our understanding.

英文关键词: Eco-city;water and soil resources;configuration and planning;dynamic mechanism;dynamic adjustment and control

成为VIP会员查看完整内容
0

项目名称: 一种纳米压电仿生电子皮肤的研究

项目编号: No.61172041

项目类型: 面上项目

立项/批准年度: 2012

项目学科: 无线电电子学、电信技术

项目作者: 刘卫华

作者单位: 西安交通大学

项目金额: 62万元

中文摘要: 纳米压电电子器件(nanopiezotronic device)是利用压电电势产生的内建场将半导体性纳米材料(如ZnO)的机械学和电子学行为耦合起来,而构造出的一类新型电子器件。这类器件可对压力或形变产生主动的电信号输出,具有自获能特征,即发电型器件。本项目旨在实现一种仿生指尖皮肤触觉功能的发电型纳米压电触觉传感器,将纳米压电电子器件作为传感器的变换器集成于作为传感器敏感弹性元件的柔性凸点下,通过柔性凸点承受的被测压力来"感知"接触物表面的形貌信息。采用垂直定向ZnO纳米线作为变换器的核心材料,制作出阵列式纳米压电触觉传感器的变换器。通过微压印或喷墨技术在阵列式纳米压电变换器上制作对应的柔性凸点。柔性凸点既作为压电变换器的保护层,也作为传递压力的敏感弹性元件,功能类似指纹。希望通过本项目的研究,推动纳米压电电子器件应用技术的发展,研制出一种全新的柔性纳米压电仿生电子皮肤。

中文关键词: 触觉传感器;纳米发电机;氧化锌;电子皮肤;柔性电子

英文摘要:

英文关键词: tactile sensor;nano generator;ZnO;e-skin;flexible electronics

成为VIP会员查看完整内容
0

项目名称: 硅纳米晶薄膜材料的空间粒子辐照及原子氧侵蚀研究

项目编号: No.61176003

项目类型: 面上项目

立项/批准年度: 2012

项目学科: 信息四处

项目作者: 李正操

作者单位: 清华大学

项目金额: 74万元

中文摘要: 作为清洁的可再生能源,太阳能受到了国内外的广泛关注。纳米多晶硅薄膜材料,由于其原料丰富、无毒、转换效率高且价格相对低廉,成为了最具潜力的太阳能电池材料之一。而太阳能电池在外空间的应用,对纳米多晶硅薄膜在高能粒子辐照、原子氧侵蚀等空间应用环境下的行为研究提出了紧迫要求。本项目力图研究:通过调控镀膜参数,寻找合适的沉积方法,生长出表面具有纳米分立结构的,质地均匀,化程度和晶粒大小可控的硅纳米晶薄膜,并且对生长过程进行追踪观察,并利用相关理论阐释薄膜的沉积和晶化过程。掌握基于气相沉积法制备不同表面纳米结构薄膜的方法,实现对其结构参数的调控。研究所制备薄膜有关光电性能与薄膜本身组织、形貌、结构的关系,在硅纳米晶薄膜体系中建立从结构到性能的关系,从而实现通过制备条件对薄膜性能的有效调控。了解和阐明高能粒子辐照及原子氧侵蚀与对薄膜表面作用的微观机制及损伤机理,并提出可能的防护方法。

中文关键词: 硅纳米结构;粒子辐照;光吸收性能;硅薄膜;

英文摘要:

英文关键词: silicon nano structure;particle irradiation;optical absorption;silicon thin film;

成为VIP会员查看完整内容
0

项目名称: 互联网藏文文本资源挖掘及语料抽取关键技术研究

项目编号: No.61202219

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 计算机科学学科

项目作者: 刘汇丹

作者单位: 中国科学院软件研究所

项目金额: 23万元

中文摘要: 藏文信息处理目前面临着基础语料匮乏的困境,互联网为我们提供了大量的藏文文本资源,是藏文语料的一个重要来源。本项目将利用网络爬虫与藏文自动编码识别技术,自动从海量的互联网资源中挖掘藏文资源,并配合人工分析,考察藏文文本资源的分布情况和存在形式,发现有利用价值的藏文文本资源;我们将建立藏文搜索引擎原型系统,对互联网藏文资源进行有效索引,以便于挖掘包含预设模式的网络资源;将研究藏文网页的全自动篇章抽取技术和汉藏双语平行语料的自动发现技术,并自动采集藏文篇章语料和汉藏双语平行语料;本项目将建立藏文文本资源URL库、藏文篇章语料库、互联网藏文词(短语)库、汉藏双语平行语料库,并基于大规模藏文语料进行词频统计、训练藏文语言模型,为藏文信息处理的研究提供基础资源。

中文关键词: 藏文;语料库;数据挖掘;藏文分词;词性标注

英文摘要: Tibetan information processing is currently faced with the predicament of lack of basic corpus, the Internet provides us with a large number of Tibetan text resources, Which is an important source of the Tibetan corpus.In this program, first of all, we will exploit Tibetan text resource from the vast amounts of resources over the internet automatically, with web crawler and Tibetan automatic encoding recognition technology. Analyzing those resources, we will have a comprehensive understanding on the distribution, existence form of Tibetan text resource over the internet, and where and how they can be used in Tibetan natural language processing task. Second, we will build a Tibetan search engine, and effectively index those Tibetan Text resources. With it, we can check whether or not any Tibetan text resources meeting a predefined pattern exist on the internet. Then, we will make research on the automatic extracting technology of Tibetan news and articals, including their title, author, time, content and other information. The automatic detecting technology of Chinese-Tibetan parallel text is also one of our interesting. We will take advantage of the Tibetan search engine and Chines-Tibetan dictionary to realize it. In addition, applying all those technologies, we will build many Tibetan related corpora, such as

英文关键词: Tibetan;Corpus;Data mining;Tibetan word segmentation;Part-of-speech tagging

成为VIP会员查看完整内容
2

项目名称: 基于压缩感知的矢量地理数据水印模型研究

项目编号: No.41301413

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 天文学、地球科学

项目作者: 任娜

作者单位: 南京师范大学

项目金额: 25万元

中文摘要: 数字水印技术在矢量地理数据版权保护中发挥重要作用,但还存在一些瓶颈问题亟待解决。例如水印信息容量难以有效扩充、小数据量矢量地理数据水印嵌入难、抗攻击性不够完善等,这些问题严重制约了矢量地理数据水印的深入发展和可靠应用。本项目拟基于近年来兴起的一种突破传统采样方式的压缩感知理论,研究矢量地理数据水印信息稀疏表达模型和重构算法,扩展水印信息容量,分析不同攻击方式对水印信息重构和检测的影响,揭示矢量地理数据水印信息重构的基本规律,构建基于压缩感知的矢量地理数据水印模型,解决矢量地理数据水印信息的最佳稀疏域确定和最优化问题求解等关键科学问题。本项目是基于压缩感知理论研究矢量地理数据水印的一次全新探索,所提出的矢量地理数据水印模型与方法,可望在矢量地理数据数字水印研究中取得创新性的研究成果,充实矢量地理数据数字水印的理论与方法体系。

中文关键词: 矢量地理数据;数字水印;压缩感知;鲁棒性;水印信息容量

英文摘要: Digital watermark technology plays an important role in the area of the copyright protection for vector geographic data. However, there are still some problems to be solved. For example, it is difficult to expand the watermark information capacity effectively, it is hard to embed the watermark information into small amount of data, and the anti-attacking ability of watermark is not perfect. These problems have seriously restricted the in-depth development of watermark and its reliable applications for vector geographic data. Based on an emerging theory breaking through the traditional sampling techniques, namely the theory of compressive sensing, this project proposes to study the sparse expression model and reconstruction algorithm of the watermark information for vector geographic data, expand the watermarking capacity, and analyze the impact of different attack methods on the reconstruction as well as detecting of watermark information. The project will explore the basic criteria of information reconstruction for vector geographic data, build the watermarking model for vector geographic data based on compressive sensing, and solve the related key issues for watermarking information such as the definition of optimum sparse domain and solutions to optimization problems. This project will present a brand new exp

英文关键词: vector geographic data;digital watermark;compressive sensing;robustness;watermark information capacity

成为VIP会员查看完整内容
0

项目名称: CFRP-钢管混凝土的扭转与剪切性能研究

项目编号: No.51378320

项目类型: 面上项目

立项/批准年度: 2013

项目学科: 建筑科学

项目作者: 王庆利

作者单位: 沈阳建筑大学

项目金额: 80万元

中文摘要: CFRP-钢管混凝土的承载力高、耐久性好,已经成为当前土木工程领域研究的热点问题之一。结构构件往往承受较大的扭矩或剪力作用,而目前还鲜见有关CFRP-钢管混凝土扭转和剪切性能研究的报道,因此,开展相关研究工作具有重要的理论意义和工程应用价值。 本项目拟深入研究CFRP-钢管混凝土构件的扭转和剪切静力性能和滞回性能的工作机理和设计方法。将开展CFRP-钢管混凝土构件的扭转和剪切静力性能和滞回性能的试验研究,建立相关全过程分析的有限元模型,研究构件的破坏模态、承载能力和变形特性的变化规律。要深入研究轴力对构件抗扭承载力和抗剪承载力的影响,明晰受力全过程中各组成材料的相互作用机理,并研究重要参数,如轴压比、剪跨比、横向CFRP层数和纵向CFRP层数以及混凝土强度等的影响规律,在此基础上提出CFRP-钢管混凝土构件压扭和压剪的承载力相关方程和滞回恢复力模型。

中文关键词: CFRP-钢管混凝土;扭转性能;剪切性能;承载力;恢复力模型

英文摘要: Due to the characteristics of higher strength and better durability, the study on concrete filled CFRP-steel tubes has become one of the hot research focus in civil engineering. Structural components are frequently subjected to large torsion or shear acti

英文关键词: concrete filled CFRP-steel tube;torsional performance;shearing performance;load carrying capacity;restoring force model

成为VIP会员查看完整内容
0

项目名称: 金属纳米粒子-粘土类物质复合膜修饰电极电化学生物传感器的研究

项目编号: No.21175013

项目类型: 面上项目

立项/批准年度: 2012

项目学科: 数理科学和化学

项目作者: 张慧敏

作者单位: 北京理工大学

项目金额: 60万元

中文摘要: 粘土类物质是具有层状结构和离子交换性质的一类无机高分子功能材料,具有良好的生物相容性。近年来,将粘土类物质用于生物传感器的研究已经成为了一个科研和技术发展的新领域,得到了人们广泛的关注和积极的研究。本项目拟采用粘土类物质包括蒙脱土和水滑石作载体,通过离子交换法、焙烧复原法、原位一步合成法采用电化学或H2还原技术在插层结构的粘土类物质的层板间或层状剥离结构的粘土类物质纳米片上制备金属纳米粒子,金属纳米粒子的构筑增加了体系的导电性、增大了电极的表面积,使所制得的金属纳米粒子-粘土类物质复合膜修饰电极既具有金属纳米粒子的高催化效应,又由于粘土类物质层板的带电特性对带电物质具有富集作用,将其用于带电生物小分子的电化学响应及生物氧化还原酶的固定,获得研究物质的高灵敏、高选择性电化学生物传感器。

中文关键词: 水滑石;金属纳米颗粒;生物酶;生物分子;电化学传感器

英文摘要:

英文关键词: layerd double hydroxide;metal nanoparticles;bioenzyme;biomolecules;electrochemical sensor

成为VIP会员查看完整内容
0

项目名称: 控制玉米节根数重要QTL挖掘及其在氮高效种质创建中的应用

项目编号: No.31172015

项目类型: 面上项目

立项/批准年度: 2012

项目学科: 农业科学

项目作者: 陈范骏

作者单位: 中国农业大学

项目金额: 60万元

中文摘要: 高产养分高效品种是未来解决我国粮食安全和资源、环境问题的重要途径之一。根系是作物养分、水分吸收的重要器官。根系的遗传改良对于实现作物高产高效、促进第二次绿色革命都有着重要的研究意义。本项目在前期初定位控制玉米节根数的QTL的基础上,利用已构建的含有控制玉米节根数主效QTL(qCRN2和qCRN10)的近等基因系,通过回交和自交构建大的分离群体,丰富新的分子标记对目标QTL进行精细定位,预测候选基因,结合具有高密度标记的关联群体验证位点,发展功能型分子标记;同时利用近等基因系与骨干自交系测配杂交组合,研究控制节根数的主效QTL在不同遗传背景下如何在提高氮效率方面发挥作用。为氮高效玉米新品种的分子设计育种提供理论依据和种质基础。

中文关键词: 玉米;节根数;精细定位;全基因组关联分析;氮效率

英文摘要:

英文关键词: maize;The number of crown roots;fine-mapping;genome-wide association;nitrogen use efficiency

成为VIP会员查看完整内容
0

项目名称: 中国拟平腹蛛科分类及分子系统学研究

项目编号: No.31471969

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 生物科学

项目作者: 张保石

作者单位: 河北师范大学

项目金额: 83万元

中文摘要: 拟平腹蛛体小到大型,全球性分布,在热带和亚热带地区尤为丰富,通常捕食蚂蚁、白蚁等,是一类可用于生物防治的重要捕食性蜘蛛。目前全世界已记载78属1074种,在蜘蛛目中位居第十三。我国对拟平腹蛛的研究远远落后于世界水平,物种调查不全面,目前仅记录9属42种,许多物种亟待研究和发现。我国早期的研究报道描述简单,附图不清,不能如实反映种类的鉴别特征;随着一些新属、种的确立,亟待加强对拟平腹蛛的系统发育研究。本项目将在大量采集标本的基础上,阐明中国拟平腹蛛的种类组成,整理出我国的物种资源目录,预计新增拟平腹蛛约40种;通过显微和亚显微结构观察,系统研究拟平腹蛛外部形态构造和生殖器官等重要特征,筛选出更多界定明确而稳定的具分类学价值的适应进化特征;结合分子技术手段,基于形态学性状和分子数据对我国拟平腹蛛的系统发育关系进行研究,修订中国拟平腹蛛的分类系统。

中文关键词: 拟平腹蛛科;分类;分子系统学;形态学;中国

英文摘要: The members of Zodariidae are small to large-size and distribute globally, particularly in tropical and subtropical areas. They usually eat ants and termites. They are important preying spiders in biological prevention. Specimens of the spider family Zodariidae represented by 78 genera and 1074 known species. To date only 42 species out of nine genera have been reported from China. The level of Chinese study on the family is behind the world level. Many genus and species of the theoretical distribution in China have not been found and recorded. Early reports with simple descriptions and unclear drawings can't truly reflect the characteristics of diagnosis.As the rate of species discovery accelerates, there is a need to better study phylogenetic relationships of zodariid spiders. This project will further collecting specimens, made clear Chinese spider species and fauna composition of Zodariidae, sort out species resources catalog of our country. we expected to increase by about 40 species of Zodariidae, combine with morphology of internal and external, select more defined and stable evolutional characteristics. We use molecular biology techniques, based on a combination of molecular and morphological data to study the phylogenetic relationships of zodariid spiders. The results will revise the classification system of zodariid spiders in China.

英文关键词: Zodariidae;taxonomy;molecular systematics;morphology;China

成为VIP会员查看完整内容
0

项目名称: 顶点算子代数在局部几何Langlands纲领中的应用

项目编号: No.10971071

项目类型: 面上项目

立项/批准年度: 2010

项目学科: 数理科学和化学

项目作者: 郑驻军

作者单位: 华南理工大学

项目金额: 23万元

中文摘要: 几何Langlands纲领是近年兴起的数学物理领域的热点研究方向之一,它涉及到表示论、代数几何、微分几何等多个数学研究分支以及理论物理中的共形场理论与超弦理论。本项目拟运用顶点算子代数研究局部几何Langlands纲领中如下有关问题:1.建立顶点算子代数模范畴的K理论,并运用此理论计算Fusion Rule。将K理论引入顶点算子代数模范畴以及Fusion Rule的研究是我们重要的创新。我们已采用这个办法开始了对顶点算子代数模范畴的研究,如我们已找到了顶点算子代数K理论与经典的代数K理论之间的关系,有关结果正在整理完善中;2.研究不同类型李代数和李群的Opers几何,给出其相应的顶点算子代数的自由场表示、Screening Operator和Wakimoto模的构造,其中的计算特别复杂,如完全靠手工计算极为困难,所以我们拟借助计算机的符号计算作为辅助工具,完成相关计算,进而给出其具体构造。

中文关键词: 顶点算子代数;高维范畴;范畴化;;

英文摘要:

英文关键词: vertex algebra;higher dimensional category;categorification;;

成为VIP会员查看完整内容
0

这份讲义系统性地阐述了检索增强生成(RAG)技术,其核心思想是通过为语言模型(LM)检索外部知识库中的相关信息来增强其生成能力,从而解决传统参数化LM的“幻觉”、知识更新滞后和长尾知识匮乏等局限性。RAG系统包含三个关键部分:数据存储(海量文档的收集与处理)、检索器(包括稀疏、密集和重排器等类型,用于查找相关文档)以及语言模型(利用检索到的文档生成最终答案)。讲义详细介绍了从经典的输入增强方法(如RAG)到更先进的中间融合(如RETRO)和自省式检索(如Self-RAG)等多种架构,并强调了RAG在提升答案准确性、可验证性和降低幻觉方面的显著效果,是当前将大语言模型与外部知识连接起来的关键技术。

成为VIP会员查看完整内容
30

摘要——随着具有革命性意义的自主智能体系统的兴起,研究界正在经历一场显著的范式转变:从传统的静态、被动、领域特定的人工智能智能体,迈向更加动态、主动且具备泛化能力的智能体型人工智能(agentic AI)。 受智能体型人工智能的快速发展及其潜在通向通用人工智能(AGI)轨迹的启发,本文对智能体化多模态大语言模型(Agentic Multimodal Large Language Models,Agentic MLLMs)进行了全面综述。 在本综述中,我们探讨了智能体化 MLLMs 的新兴范式,阐明其概念基础,并从理论上区分其与传统基于 MLLM 的智能体的差异。我们提出了一个概念框架,将智能体化 MLLMs 的能力沿三个基本维度进行系统化组织: (i) 智能体内部智能(Agentic internal intelligence):作为系统的“指挥官”,通过推理、反思与记忆机制,实现精确的长时规划; (ii) 智能体外部工具调用(Agentic external tool invocation):模型能够主动调用多种外部工具,将问题求解能力扩展到其内在知识之外; (iii) 智能体环境交互(Agentic environment interaction):模型进一步被置于虚拟或物理环境中,使其能够采取行动、调整策略,并在动态的真实世界场景中维持目标导向的行为。 此外,为了进一步促进该领域的研究,我们整理了开源训练框架训练与评测数据集,以支持智能体化 MLLMs 的开发。最后,本文回顾了智能体化 MLLMs 的下游应用,并展望了这一快速发展的研究方向的未来趋势。 为持续追踪该领域的最新进展,我们还在以下地址维护了一个持续更新的公共资源库: 🔗 https://github.com/HJYao00/Awesome-Agentic-MLLMs 关键词——智能体化多模态大语言模型(Agentic MLLMs),强化学习(Reinforcement Learning),推理(Reasoning),反思(Reflection),记忆(Memory),搜索(Search),代码(Code),图像思维(Thinking with images)

智能

1 引言

多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来取得了显著进展,使人工智能系统能够在多种模态之间进行感知、理解、推理与生成 [1–8]。凭借强大的指令跟随能力跨模态泛化能力,MLLMs 已能应对广泛的任务范畴,在通用应用与专业场景中均展现出越来越高的价值 [9–14]。 然而,大多数传统的 MLLMs 仍然运行在查询–响应(query–response)范式下,即静态输入对应单一输出。这种范式对于复杂、动态的真实世界任务往往是不足的,因为此类任务需要具备三类关键能力: 1. 内部智能(internal intelligence):包括推理 [15–18]、反思 [19–20] 与记忆 [21–22]; 1. 外部工具调用(external tool invocation):包括信息检索 [23–24]、代码执行 [25–26] 与视觉处理 [27–29]; 1. 环境交互(environment interaction):包括虚拟具身 [30–31] 与物理具身 [32–33]。

为突破静态查询–响应交互的限制,研究者提出了MLLM 智能体(MLLM agents) [34–35],它们将 MLLMs 嵌入到结构化的工作流中,从而实现任务分解、情境化推理与外部工具集成 [36–41]。尽管此类方法在实践中取得了显著效果,但仍面临以下约束: 1. 静态工作流:依赖于预定义的、人工设计的流程,缺乏灵活性,难以适应新颖或动态环境; 1. 被动执行:多为被动响应指令,缺乏自主规划、工具调用或主动环境交互的智能; 1. 领域特定性:通常面向单一任务或领域,导致泛化能力差、可扩展性有限。

近年来,推理增强型 MLLMs [47, 61, 182, 183] 与强化学习(Reinforcement Learning, RL) [184–187] 的进展推动了从“基于工作流的 MLLM 智能体”向“智能体化多模态大语言模型(Agentic MLLMs)”的范式转变。与传统智能体不同,智能体化 MLLMs [24, 160, 161, 163, 188, 189] 被定义为自主决策体(autonomous decision-makers),具备内生的智能体能力,即在推理、反思、记忆、工具使用与环境交互等方面拥有自治性。 基于此,智能体化 MLLMs 具有以下三方面关键优势: (1) 动态策略调整:不依赖静态、预定义的流程,而是基于先前规划、当前状态及预期环境交互动态调整策略与工作流; (2) 主动行动执行:可自主发起计划、在需要时主动调用工具,并通过反思中间结果改进后续步骤; (3) 跨任务泛化能力:能够在多样化任务与环境中运行,实现通用建模与学习,而非局限于狭窄的领域特定应用。 这一转变标志着智能体化 MLLMs 不仅具备了自适应规划、主动工具调用与动态环境交互的能力,更代表了人工智能迈向通用自主智能体(general-purpose autonomous agents)的重要阶段。 尽管智能体化 MLLMs 已引起学术界的广泛关注,但目前研究社区仍缺乏一份系统性综述来梳理现有进展、总结核心挑战并指明未来方向。为填补这一空白,本文从以下三大核心组成部分出发,对智能体化 MLLMs 进行系统性回顾: * 智能体内部智能(Agentic Internal Intelligence); * 智能体外部工具调用(Agentic External Tool Invocation); * 智能体环境交互(Agentic Environment Interaction)

本综述从多个视角展开,包括理论讨论、基础概念、技术方法、训练与评测资源,以及未来研究方向。我们期望本文能为研究者提供当前成果的全面概览,并为该领域的进一步发展提供清晰路径。 综上,本文的主要贡献可归纳为三点: 1. 系统回顾与分类:首次系统梳理智能体化 MLLMs 的发展脉络,并根据任务类型对现有研究进行全面分类与总结; 1. 最新进展汇总:总结智能体化 MLLMs 的最新方法学进展及训练与评测资源,并提供相应链接以便参考; 1. 研究挑战与前沿方向:提出若干值得探索的未来研究挑战与潜在研究方向。

为此,本文的整体结构如图 1 所示。其余部分安排如下: 第 2 节讨论 MLLM 智能体与智能体化 MLLMs 的关系; 第 3 节介绍智能体化 MLLMs 的基础概念,包括基础模型、智能体动作空间、训练与评测机制; 第 4 节回顾并分类现有智能体化 MLLMs 研究,涵盖内部智能、外部工具调用与环境交互三个方面; 第 5 节总结智能体化 MLLMs 的常用训练框架及相关数据集; 第 6 节介绍其在深度研究(DeepResearch)、具身智能(Embodied AI)、医疗健康、图形用户界面智能体(GUI Agents)、自动驾驶及推荐系统等领域的应用; 最后,第 7 节展望智能体化 MLLMs 的若干未来研究方向。

成为VIP会员查看完整内容
28

摘要——大型语言模型(Large Language Models, LLMs)已经彻底变革了自然语言处理领域,在多种任务上取得了显著性能。然而,这种令人印象深刻的流畅性往往以生成虚假或捏造的信息为代价,这一现象被称为幻觉(hallucination)。所谓幻觉,是指LLM生成的内容虽然流畅且语法正确,但在事实层面上不准确或缺乏外部证据支撑。幻觉削弱了LLM的可靠性与可信度,尤其在那些对事实准确性要求较高的应用领域中影响尤为严重。 本综述系统梳理了LLM幻觉相关研究,重点关注其成因、检测与缓解。我们首先提出了幻觉类型的分类体系,并从数据收集、模型架构设计到推理阶段,分析了幻觉在LLM全生命周期中的根本成因。接着,我们探讨了幻觉在关键自然语言生成任务中的表现机制。在此基础上,我们分别构建了幻觉检测方法幻觉缓解策略的系统分类框架,并分析了现有方法的优势与局限。同时,我们回顾了用于量化LLM幻觉的评测基准与指标体系。最后,我们总结了当前研究的主要挑战,并展望了未来可能的研究方向,为构建更加真实、可信的大语言模型提供理论与方法基础。 关键词——大语言模型;幻觉;幻觉成因;幻觉检测;幻觉缓解;幻觉基准;幻觉指标

1 引言

近年来,得益于基于 Transformer 的语言模型(Language Models, LMs)的快速发展,自然语言生成(Natural Language Generation, NLG)取得了显著进步。诸如 ChatGPT [1]、Claude [2] 和 Bard [3] 等大型语言模型(Large Language Models, LLMs)已经彻底变革了自然语言处理(NLP)领域,使得智能体在多样化应用场景中展现出强大的能力。这些模型在提高效率与生产力方面表现突出,推动了下游任务的发展,包括问答(QA)、抽象摘要、对话生成以及数据到文本生成等。 尽管取得了突破性进展,LLM 仍面临一个关键挑战——幻觉(hallucination)。幻觉指的是 LLM 生成的内容虽然流畅且语法正确,但在事实层面上不准确或缺乏外部证据支撑 [4], [5]。这种现象可能导致严重后果,包括虚假信息的传播和隐私泄露。与传统人工智能(AI)系统通常针对特定任务数据进行训练不同,LLMs 使用了大规模的在线文本语料进行训练 [6]。这种广泛覆盖虽然带来了出色的连贯性与流畅性,但同时也增加了事实错误的风险。LLMs 可能反映训练数据中潜在的偏见,误解含糊的提示,或为了迎合输入的潜在意图而改变信息 [7]。当用户在医疗数据摘要、客户服务对话、金融分析报告或法律咨询等敏感场景中依赖语言生成时,这种问题尤其令人担忧。 要理解幻觉的根本成因,需要从 LLM 的开发生命周期各阶段进行系统分析——从预训练到生成路径的整个过程。这种分析不仅有助于揭示幻觉的来源,也为幻觉检测与缓解技术的开发提供了指导。基于 LLMs 的标准开发流程,我们将其划分为六个阶段:数据收集与准备、模型架构、预训练、微调、评估与推理,并在每一阶段分析导致幻觉的潜在因素,从而全面理解幻觉的产生机制。 此外,我们提出了一个系统的幻觉检测技术分类体系,将现有检测方法分为五类:基于检索、基于不确定性、基于嵌入、基于学习、基于自一致性。研究发现,单一检测方法难以在所有场景中表现优异。例如,基于检索的方法在处理事实性幻觉时表现出色,但高度依赖外部知识的质量;基于学习的方法精度较高,但需要高质量的标注数据;基于不确定性的方法通过模型置信度来减轻数据依赖性,但效果受阈值校准影响较大,且当模型对错误答案信心很高时常无法检测幻觉;基于自一致性的方法能捕捉逻辑与语境矛盾,但对事实性细微错误敏感度不足,且受提示多样性与采样策略影响显著;而基于嵌入的方法在捕获语义差异方面较为稳健,但在跨领域或低资源语言环境中性能可能下降。因此,多方法互补的混合检测方案(如学习结合不确定性,或检索结合学习)是提升检测稳健性与准确性的有前景方向。 同时,我们扩展了现有研究中的幻觉缓解方法分类体系 [8], [9], [10],将其划分为四大类:基于提示(prompt-based)基于检索(retrieval-based)基于推理(reasoning-based)以及基于模型中心的训练与自适应(model-centric training and adaptation-based) 方法。 * 提示式缓解方法通过结构化提示策略引导模型生成更具事实性的内容; * 检索式方法依赖外部知识以提供事实支撑; * 推理式方法(如思维链提示 Chain-of-Thought prompting, CoT 与自一致性方法)增强生成内容的逻辑连贯性与内在一致性; * 模型中心方法通过调整模型架构、修改训练目标或采用特定微调策略以提升模型的固有真实性与可靠性。

研究表明,单一方法难以彻底缓解幻觉,因此结合多种互补策略的混合方法更为有效,尤其是将提示或推理方法与检索式及模型中心式策略相结合的方案。 此外,我们探讨了当前幻觉检测与缓解研究中面临的挑战,并提出未来研究方向。本综述在前人工作的基础上,进一步系统分析了幻觉的成因及针对幻觉检测与缓解的前沿技术。 本综述的主要贡献如下: * 幻觉成因分析:系统分析了从数据收集、架构设计到推理阶段,LLM 全生命周期中的幻觉成因。 * LLM 幻觉分类体系:提出了涵盖幻觉成因、检测与缓解的综合分类框架,并总结了当前最先进(SOTA)研究成果。 * 幻觉检测方法综述:构建了五大类幻觉检测方法的结构化分类,并深入讨论了各类方法的潜力与局限。 * 幻觉缓解方法综述:将幻觉缓解方法分为四大类(提示、检索、推理、模型中心训练与自适应),并详细分析其效果与适用性。 * 数据集与评测指标:系统回顾了用于幻觉检测与缓解的基准数据集与评价指标,并指出其局限性。 * 基于推理的缓解分析:深入分析了包括 CoT、迭代优化、验证链(Chain-of-Verification)等推理增强方法在复杂任务中降低幻觉的作用。 * 多语言与低资源场景研究:探讨了低资源语言下幻觉问题的特殊挑战,并总结了跨语言迁移、多语言微调与提示自适应等缓解策略。

本文其余部分的组织结构如下: 第2节回顾相关综述;第3节介绍幻觉的定义、类型及其在不同自然语言生成任务中的表现;第4节系统分析 LLM 各阶段的幻觉成因;第5节与第6节分别讨论幻觉检测与缓解技术;第7节与第8节介绍用于训练与评估的基准数据集与指标体系;第9节总结当前的开放问题与未来研究方向;第10节给出全文结论。![]

成为VIP会员查看完整内容
31

近年来,大型语言模型(LLM)的发展和普及已对社会多个部门产生显著影响。美国军方认为应立即采纳并试验这一新兴技术,以通过更高效的工作流程满足日益增长的作战需求,保持对近似同级对手的技术优势,并发现其局限性和脆弱性,这一点至关重要。本文开发了一个端到端的框架,涵盖从LLM选择到文档评估的领域特定文档生成。我们开发的领域特定文档生成框架融合了多种技术,包括提示工程(PE)、检索增强生成(RAG)、一种代理式方法以及一种LLM作为评估器的方法。为了验证该框架,我们选择了一个"战争路径推演"(road-to-war)文档作为测试用例,该文档通常用作国防部(DoD)兵棋推演、作战、训练和分析界进行想定开发的起点。使用此框架,能够生成看似合理的领域特定文档,这些文档经专家验证具有实用性,并且与人类生成的示例文档没有显著区别。我们的研究表明,LLM可以增强针对文本生成任务的领域特定工作流程,并且通过利用这项快速发展的技术可以实现显著的时间节省。

美国军方必须加强和扩大对生成式AI技术的探索,以确保近似同级对手无法获得技术优势。该技术仍处于起步阶段,美国军方现在必须投入时间和资源来理解、探索和运用LLM,以取得对近似同级对手的决定性优势。使用LLM技术的一个关键组成部分是,军事战略家和关键领导者需要了解选择、修改和开发LLM模型的最佳方式,以及随后如何托管该模型及任何相关应用程序,以实现军事人员的广泛使用和访问。

存在许多模型选择框架(参见模型选择方法章节),但通常最基本也是最重要的选择,即在给定用例中决定性能和性能指标的,是选择使用专有模型还是开源模型。考虑到国防部的信息/数据限制,以及LLM可能需要针对特定用例进行修改和专门化,开源模型可能更适合军事领域。本工作旨在建立一个专门的、开源的LLM框架,用于领域特定文档生成,该框架使用、比较并结合多种技术,可以在选定的用例上进行测试,并且可以在信息受限的环境中执行(例如,托管在本地硬件和基础设施上)。

本研究的主要目标是开发一种能够生成高度专业化、领域特定文档的方法论,该文档可在受限的计算环境中使用。我们将通过开发一个系统化、顺序化的框架来比较开源模型的领域特定文档生成性能(采用性能增强技术和方法论)与类似的人类生成文档,从而为当前的知识体系做出贡献。由于通用专有模型目前尚不具备生成高度专业化、领域特定文档的能力,我们的工作旨在开发、测试和验证一个可在受限或简陋计算环境中使用的文档生成框架。一个能够生成与人类生成文档无显著区别、且对领域用户具有实用性的领域特定生成框架,有潜力通过增强现有的非LLM驱动的工作流程,在组织效率和时间节省方面带来显著效益。

本工作分为六个章节。在第一章和第二章奠定基础并讨论问题陈述和研究重点之后,第三至第五章将探讨三种不同的技术/方法论(包括各章节的实验结果),第六章作为结论,讨论贡献和未来工作。

  • 第一章: 本章向读者介绍LLM和生成式AI,并概述了工作的动机。首先描述了这项新兴技术如何在数月内席卷全球,并介绍了其在军事领域的潜在影响以及美国和近似同级对手采纳该技术的现状。我们概述了选定的军事用例(战争路径推演文档生成),该用例可通过应用LLM技术/方法论产生影响。最后,我们对开发的框架进行了简要介绍,以便于后续章节对框架组件进行解释。本章为深入探讨问题空间的更技术性解释奠定了基础和背景,并提供了工作的结构和组织。
  • 第二章: 本章首先对LLM及其使用和操作的细节进行了更精确的定义。将涵盖LLM相关的历史先驱和自然语言处理(NLP)主题的简要概述,以及该领域的最新进展。还将探讨模型选择方法、开源与专有模型的比较以及模型选择的军事特定考量。在综合当前LLM技术发展水平(SOA)以及概述文本生成和相关工作之后,将提出问题陈述和初步研究问题以结束本章。
  • 第三章: 第三至第四章的结构将基本保持一致,包括详细的文献综述、给定方法论/技术的描述、探索该技术的相关研究问题和假设、实验设计和程序以及结果。就第三章而言,将讨论使用专有模型的初步工作以及简单的提示工程方法。
  • 第四章: 本章首先描述RAG以及为何有必要将其集成到我们的框架中(模型缺乏生成准确的"决胜行动训练环境"相关数据的能力)。我们还将探讨为何选择此方法而非监督式微调方法。本章最后讨论RAG方法论、实验(包括试点测试以及在框架中添加编辑过程)和结果。
  • 第五章: 本章探讨了将基于代理的方法与RAG流水线实现相结合的集成方法。本章最后讨论代理式框架的实验和结果。
  • 第六章: 本章是对第四至五章讨论的贡献的概要总结,并讨论了研究参与者如何评估三份文档的结果所蕴含的意义。同时,明确指出了研究过程中识别的可能影响结果的局限性和偏差,以及可从本论文延伸的LLM文本生成领域的未来可行工作和该领域的新兴趋势。
  • 附录A: 技术细节,包括研究使用的实验平台信息、开源模型选择和Hugging Face仓库的详细信息、LLM变量、数据抓取程序和高级技术。
  • 附录B: 定义了本工作中使用的常见LLM术语。
  • 附录C: 使用简单提示工程技术进行初步实验的补充信息。
  • 附录D: 本附录包含研究程序、协议、脚本和信息表。
  • 附录E: 提供了文档评估指标的额外可视化图表。
成为VIP会员查看完整内容
26
继续向下滚动查看精品内容
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员