【LLM】PlanGPT:提高城市规划效率的专业语言模型和高效检索技术

【LLM】PlanGPT:提高城市规划效率的专业语言模型和高效检索技术

首页模拟经营智能城市规划更新时间:2024-06-18

一、结论写在前面

论文介绍了PlanGPT,这是第一个专门为城市和空间规划领域设计的大规模语言模型框架。通过定制化的方法,论文成功地解决了城市规划文本管理、审查和评估方面的挑战,展示了它在实践中的效率和优越性。论文的工作标志着人工智能与城乡规划融合的重要进步,为规划师提供了强大的支持工具,促进了城乡发展决策的更智能、更高效。

未来,可以进一步推进城市和空间规划:

二、论文的简单介绍2.1 论文背景

由于大型语言模型所固有的强大推理、记忆和理解能力,各个领域都取得了实质性的进展和前景。特别是在金融、医学和法律等领域,出现了针对特定行业定制的大型模型,它们可以有效地解决通用大型模型常见的问题,如由训练数据分布的统一性导致的模糊回复和幻觉,从而提高了员工的工作效率。

通过与城市规划部门/公司的规划师进行讨论,很明显,在文本管理、审查、审核和评估等任务上花费了大量时间。例如,在文本审查过程中,员工会仔细根据标准框架评估每一项,纠正城市规划文件中的错误或遗漏。同样,在文本评估中,员工从多个维度(合法性、可行性、经济效益、创新性等)对文件进行评估,这需要花费大量时间和精力。论文认为,利用大型语言模型强大的理解和推理能力,可以通过结合大型语言模型来解决上述过程,如图1所示。然而,在实际操作中,论文发现这并非易事,因为中国城市规划行业的固有性质和城市规划文本的特点:

  1. 政府文书风格:城市规划文件与政府事务相关,往往采用固定的短语和结构,这对大型语言模型来说是一个挑战,需要在政府风格和信息内容之间取得平衡。这些文件中的信噪比低,使检索更加复杂。此外,对数据安全的高度重视限制了模型的选择。
  2. 交叉学科知识:城市和空间规划文本集成了环境科学、生态学、经济学和法律等多个学科的知识。然而,当前的大型模型还没有有效激活这个专业领域的知识,使其难以发挥效用。
  3. 及时性和多模态:城市规划文件需要与政府法规同步,并充斥着图像和表格数据,需要专门的分析和处理工具。
2.1.1 城市规划领域的语言模型

在与城市规划相关的地理和交通等领域,出现了几个专业模型。TrafficGPT将ChatGPT与交通基础模型相结合,通过数据分析和自然语言对话提高城市交通管理和决策支持。Prithvi,一个来自NASA的模型,侧重于气候、灾害和地理预测,在IBM的watsonx.ai上进行预训练,可服务于气候变化、洪水映射和农作物产量预测等应用。作为中国第一个开源交通模型,TransGPT在交通预测、咨询、公共交通服务、城市规划、安全教育、事故分析和自动驾驶支持等方面找到应用。EarthGPT,一个用于遥感图像的多模式大型语言模型,集成了遥感解释任务,以增强视觉感知和语言理解。目前,还没有专门用于城市和空间规划领域的大型模型,所以论文谦虚地推出PlanGPT来填补这个空白。

2.2 论文方案

为应对城市规划文本固有的独特挑战,论文推出了第一个城市规划领域的大型语言模型:PlanGPT。首先,它具有自定义的嵌入模型和向量数据库检索系统,可以精确地从大量城市规划文本中提取信息,通过使用关键词提取和分层搜索技术来克服城市规划领域的低信噪比特点。此外,论文采用指令微调方法来激活模型的跨学科知识并提高它掌握政府文书风格的能力,满足规划师的需求。此外,受大型模型领域中基于agent的系统进步的启发,论文创建了PlanAgent,以战略性地利用网络、视觉辅助、图表或领域特定模型等资源。这种方法极大地解决了规划文件中与及时性和多模态相关的问题。

2.2.1 PlanGPT

在本节中,论文将介绍PlanGPT的整体框架和技术细节。

2.2.1.1 向量-LLM

在城市规划中,专业人员经常难以从大规模数据集中找到相关材料。这个任务可以建模为在文档集合S中识别最相关文档跨度s∗,定义为s∗=argmaxs∈S Relate(q,s),其中Relate(q,s)表示询问q和文档跨度s之间的相似度函数。

2.2.1.1.1 Plan-Emb

先进的嵌入方法被认为是提高语义理解的常见解决方案,但由于两个原因,它们在城市规划领域的效果仍然不够优化:(1)专业术语:城市规划拥有自己的语言系统,其特点是缩写和替换专业术语。例如,法规可能提到分区法规,土地类型指土地利用分类,这会导致歧义,特别是在中文中。(2)规划师对词汇的观点:像土地利用这样的常用词对规划师来说具有更丰富的意义。虽然通常理解为土地利用,但规划师将其视为人类、土地和生态系统之间的互动。这种观点差异会影响语义理解和搜索准确性。

借鉴之前关于嵌入模型的工作,论文为城市规划领域引入了嵌入模型Plan-Emb。Plan-Emb是一种为了理解城市规划领域专业知识而定制的嵌入模型,具有两阶段的训练过程:首先使用通用中文文本标签进行预训练,然后在自收集的城市规划数据集上进行监督微调。在第二阶段引入了正则化InfoNCE损失,以防止对先前模型能力的灾难性遗忘。

其中q和a 表示句子及其正样本,而P和Q分别表示预训练阶段和微调阶段后的模型输出分布。对于微调数据的收集,论文最初利用LLM筛选与论文自编教学大纲对齐的关键词或关键句子。随后,采用涉及扰动、解释和重写的经济高效方法生成正样本。后续实验确认了PlanEmb的有效性。

2.2.1.1.2 Plan-HS(分层搜索)

为解决信噪比低且较长句子的嵌入能力下降的问题,论文引入了一种针对查询处理的新颖分层嵌入方法(如算法1所示)。在数据预处理阶段,采用定制的关键词提取方法PlanKeyBert从输入文档D中提取相关关键词di,并将它们存储在哈希映射中,将每个块di映射到其相应的ki,同时保留必要信息。在搜索过程中,使用查询Q根据关键词和语义相似度得分从vectorDB中召回相关文档。随后,采用硬匹配得分和先进的交叉注意力得分对召回结果进行重新排序。

2.2.1.2 本地-LLM

大型语言模型通常难以整合特定领域的知识,如城市规划,从而导致与既定约定偏离的语言生成。这里的挑战不仅在于缺乏特定领域的数据,而且在于模型无法在这个专业领域中综合和应用知识。为解决这些挑战,论文进行了两阶段的模型适配:城市规划知识激活和具体能力开发。

2.2.1.2.1 城市规划知识激活

受鲸背(Humpback)方法的启发,论文提出了一种针对城市规划的自标注技术,此后称为城市规划标注,如图3所示。该方法的步骤如下:

  1. 初始化无标签数据:来自城市规划存储库、网络档案和知识图谱的文本数据经过质量检查、去重和采样,以产生高质量的无标签文本数据D。
  2. 集合分割:论文使用不同的窗口大小i和相邻段之间的重叠Δ将无标签数据D分割成多个段Si,以确保信息完整性和粒度之间的平衡。
  3. 潜在质量评估:论文自主训练评分模型来评估每个段的潜在城市规划知识价值,选择得分较高的段作为候选段Pi。
  4. 自问与随机标签:受WizardLM(Xu等,2023)的启发,论文使用不同维度和类型的随机标签来提示大型模型根据Pi生成被认为具有知识价值的指令Ii。然后,无标记文本Pi直接作为回答进行响应,或根据文档-查询对生成响应,形成<指令,输入,输出>对。
  5. 多维过滤:通过多维过滤细化生成的指令,包括指令去重、质量、复杂度和多样性过滤。为评估质量和复杂度,利用稀疏注释微调奖励模型。借鉴LIMA(Zhou等,2024)和MoDS(Du等,2023)的方法,采用k中心(Sener and Savarese,2017)算法增强生成指令的多样性。论文将通过这五个步骤获得的细粒度数据称为核心数据,并利用它来微调基础模型,从而激活与城市规划相关的知识。
2.2.1.2.2 具体能力开发

与城市规划部门和研究机构的接触表明,大型模型可以帮助规划师生成方案的章节、转换风格、评估方案和提取信息,但基础模型有限的指令遵循能力意味着仅凭提示学习是无法有效解决这些任务的。为适应该领域的实际需求,论文进一步收集了全国各省、市、区和县的4000多份历史官方规划版本,以针对性地开发能力。论文从中选择了具有潜在用途的段落,并为四项任务构建了自主标注流程。例如,在文本风格转换中,论文提示模型简化或白话化相应段落,然后让模型重写以匹配期望的风格,生成指令对t<原始文本,回应>。然后,论文使用不同温度或不同模型的提示学习来生成不同质量的响应,实现自动注释以对微调评分模型的等级进行评分。

2.2.1.3 PlanAgent

在城市规划领域,专业人员需要对特定领域的知识有扎实的掌握,同时也必须熟练运用与该领域相关的工具。受到前人关于agent的工作的启发,论文设计并开发了一个与城市规划任务和要求紧密结合的agent。这个agent被称为“PlanAgent”,它被精心定制以适应城市规划工作的复杂性。

2.2.1.3.1 自主生成待办事项列表

为了帮助城市规划专业人员执行文本审查、审计或评估等复杂任务,PlanAgent根据规划师的输入自主生成和优化任务列表,然后按顺序执行。

2.2.1.3.2 定向网络搜索

PlanAgent利用网络LLM访问实时规划法规和更新。借鉴WebGLM的网络爬虫,它采用向量查询和URL爬虫来确保精确度。为进一步提高搜索准确性,论文实现了专门设计用于识别与城市规划相关信息源的定向URL爬虫。

2.2.1.3.3 专业工具调用

PlanAgent熟练运用专业的特定领域模型来执行对城市规划至关重要的任务。这些任务包括逆地理编码、知识图谱构建和图像字幕。

此外,PlanAgent还集成了城市规划研究人员开发的先进工具,用于空间时间分析、公交导向型发展(TOD)设置、社区生命周期城市规划、土地利用和交通规划一体化、城市模拟、数字孪生城市平台等智慧城市举措的必不可少的组成部分。这种整体方法确保了对城市规划工作固有的复杂挑战的学术性和全面性的参与。

2.2.1.3.4 信息整合与校准

PlanAgent通过先进技术自主整合来自各种LLM(如向量LLM、本地LLM)和专业模型的输出。它可以在DPO或RLHF(中采用定制的奖励模型来选择最佳答案,同时利用总结模型来增强来自多个来源的发现。PlanGPT的总体架构如上图2所示,封装了其多方面的功能。

2.3 论文效果

实验结果表明,PlanGPT有效地解决了上述所有挑战,满足了规划师日常工作中四项典型任务的需求,优于其他最先进的模型。

2.3.1 实验

在本节中,论文通过大量离线实验展示了论文模型的效果。

2.3.1.1 实验设置2.3.1.1.1 训练语料库

对于城市规划知识激活,论文从各种来源整理了一个城市规划的专业数据集,包括学习材料、城市规划论坛高评分的问答线程、相关专业的优质教材以及近年来地方政府发布的官方文件。详细统计信息见附录8.3。在使用城市规划标注进行仔细筛选后,论文从语料库中整理出近5万个高质量指令对,并结合了ShareGPT或Alpaca-52k3等通用领域微调数据集的一部分,然后用其微调基础模型,增强其城市规划能力。对于具体能力的开发,论文采用第3.2.2节详述的城市规划数据和自我注释生成下游任务的数据集,如表1所示。受LIMA的启发,论文再次证明,即使是少量的微调数据也能产生满意的结果,尽管有些不稳定。

2.3.1.1.2 下游任务

下游任务描述如下:

文本生成:大型语言模型在生成城市规划文档(包括综合土地利用规划、开发方案和分区条例)方面提供了显著优势。利用这些模型,城市规划专业人员可以简化起草复杂文件过程,确保清晰、连贯,并遵守法律和监管框架。为评估生成内容的质量,论文创建了一个0到3的评分系统,四个级别表示从差到优秀的质量。四名专业城市规划师进行了主观评估,他们的平均评级确定了每个模型的最终质量得分(Human),然后将其转换为100分制。

文本风格转换:城市规划师通常在工作流程中采用文本风格转换技术。大型语言模型可以帮助将简明或非正式文本转换为城市规划交流的具体风格,从而提高城市和农村工作者的效率。评估方法与文本生成类似。

文本信息提取:大型语言模型可以从各种文本源(包括城市规划报告、公众评论和学术研究)中提取关键信息,以支持基于数据的城市和空间规划决策支持。论文为每个测试用例自主标注前5个关键词,并计算准确率(Acc),即论文的模型在可以接受的语义变化范围内能否预测出与论文预期相同的关键词。

文本评估:LLM可以通过评估各种项目的可行性、可持续性和社区影响,帮助城市规划师评估城市规划方案,从而提供客观的评估和建议。值得注意的是,论文通过为每段文字分配0到3的风格等级来简化评估过程,将其处理为一个分类任务,以准确率(Acc)和F1分数为指标。此外,论文利用训练好的模型自动评估两个任务,并报告分数(PlanEval)。

2.3.1.2 离线结果2.3.1.2.1 常见城市规划任务评估

对于上述任务,论文选择了ceval和cmmlu排行榜上评分较高的聊天模型,在零样本或少样本条件下进行试验。试验结果及相应的评估指标记录在表2中。在四项任务中,PlanGPT明显优于所有规模相似的其他模型,包括专有模型如ChatGPT,与城市规划师的认知高度吻合。PlanEval与人类评估的平均斯皮尔曼相关系数达79%,反映了PlanGPT在评估文本方面的有效性。但是,它在进行细微区分时仍面临挑战,例如“最佳”和“良好”质量之间的区分。此外,论文演示了模型在问答过程中的表现。

(1)为何不使用更大规模的模型,如330亿参数或以上?试验结果表明,微调更小的模型就可以达到规划师的满意结果。考虑到各地区城市规划机构的有限预算和硬件配置,论文认为精心定制的更小模型已经足够胜任城市规划领域的特定任务。

(2)为何不使用提示学习来完成任务?在仔细制作ChatGLM3的提示并将其在2样本条件下的表现与PlanGPT在0样本条件下的表现进行比较后,试验结果仍显示人类评估存在明显差距。在某些任务中,ChatGLM3-2样本的表现甚至低于0样本条件。论文认为观察到的差异可以归因于两个主要因素。首先,LLM固有的指令遵循能力的限制可能阻碍它们对复杂任务的理解和执行。其次,上下文长度的限制可能阻碍模型区分城市规划文本中的共性的能力。此外,规划师可能难以设计复杂的提示,影响工作效率。

(3)为何不使用GPT、Gemini、Claude2等先进模型,或来自GLM4、Kimi聊天等在线平台的模型?城市规划领域对数据隐私有极强的关注,与政府高度相关。城市规划机构优先考虑机构内的数据安全,以防数据泄露。

2.3.1.1.2.2 城市规划知识评估

为确保公平和全面性,论文利用CEval中的urban_and_rural_planner_test,简称v1,包含418个问题。C-Eval被认为是基础模型的可信赖的中文评估套件,包含13,948个多项选择题,跨越52个不同学科和四个难度级别。

此外,为了更广泛地评估模型的城市规划能力,论文手动整理了约3500个评估问题,包括过去十年城市和农村规划考试的真实问题,形成urban_and_rural_planner_test v2。论文计算了两个评估之间的分数比率δ,其中更高的值表示对模型能力的更诚实的评估。值得注意的是,

论文严格遵循了lm-harness-test和C-Eval推荐的提示模板,选择概率最高的选项。采用零样本设置,论文系统地测试了排行榜上可比规模的模型,并报告了它们的分数,如表3所示。在使用第3.2.1节介绍的核心数据集进行微调后,论文的模型在相似规模的开源模型中达到了最先进的性能。与基础模型相比,其准确率提高了约5%。此外,δ值接近0.8表示论文的模型的诚实性和领域泛化能力。

2.3.1.2.3 评估Plan-Emb在表达城市规划专业术语和语言系统中的熟练程度

为评估Plan-Emb在表达城市规划专业术语和语言系统方面的表现,论文采用前面所述的方法生成了urban-rural-STS-B-test(URSTS-B),其由两级组成:0表示无关,1表示词语及其解释之间存在较强相关性。论文严格评估了Plan-Emb各个阶段在URSTS-B和其他通用数据集上的表现,采用斯皮尔曼相关系数进行评估。如表4所示,显然在微调阶段的帮助下,Plan-Emb在城市规划方面携带的信息明显多于任何通用模型,这表明论文的嵌入策略具有卓越的聚合效能。此外,值得注意的是,随着训练的进展,BERT-cse明显优于BERT-base,这突出了第一阶段预训练的关键重要性。

Plan-Emb和BERT-cse之间的t-SNE投影可视化如图4所示。从标记的例子可以得出结论,在大多数情况下,Plan-Emb学习城市和农村规划中的关系要比BERT-cse好得多。“土地利用”和“利益”这些词汇以及代表古都型和文物的词汇在Plan-Emb的t-SNE投影空间中的距离明显小于BERT-cse。

另外,标准住宅平面布局、建设用地规划许可证和规划总面积示意图这些表示区域规划领域知识的词汇在Plan-Emb中也表现出更好的聚合特性。

2.3.1.2.4 向量-LLM的激励研究

在向量LLM上进行了激励实验,以证明自定义模块对提高下游任务性能的有效性。遵循之前的实验设置设计,论文从大规模语料库中提取适当的段落来回答urban_and_rural_planner_test中的问题,并计算score@k,表示在前k个段落中回答正确问题的准确率。

为确保公平性,禁用了网络检索工具,模型判断仅基于上下文和内在知识。论文系统地去除了Plan-Emb和Plan-HS,并记录了实验结果,如表5所示。论文的发现表明,去除任何任务组件都会导致性能下降。

具体来说,去除每个组件(Plan-Emb和Plan-HS)分别导致0.7%和3.6%的得分下降。这间接突出了Plan-Emb在表达城市规划文本方面的卓越能力。另外,值得注意的是,Plan-HS有效地解决了与低信噪比文本相关的问题,大大提高了信息利用率和准确性。

2.3.1.3 案例研究

在本节中,论文将讨论现实世界城市规划领域的相关任务,并提供潜在解决方案。

2.3.1.3.1 任务:审查

如第1节广泛讨论的,审查是城市规划机构员工的主要任务,它占用了大量时间。通过利用向量LLM识别文档查询的参考标准,然后使用PlanAgent进行审查,论文认为LLM可以检测文本中的不一致、不准确或差异,确保城市规划方案的完整性和质量。

然而,在实际工作中,论文发现尽管使用复杂的提示,大型模型的输出往往无法与人类意识对齐,表现出两个极端:要么检测出可以忽略的细微错误,要么过度放宽标准,导致召回率降低。论文的解决方案是利用GPT-4随机在城市规划文本中引入部分错误,并指明其位置。论文的员工然后识别错误原因,将其分类为三种类型:

  1. 事实错误
  2. 拼写/语法错误
  3. 文体错误(包括有害语言)

起初,论文提升了大规模模型识别错误存在的认知能力。随后,论文指示它们标识和标记错误。

2.3.1.3.2 任务:评估

在城市规划领域,文本评估是一个复杂的任务,包括验证文本的框架,审查文本的细节和文体(如前述审查步骤),以及对整体文档性质的评分。文档的整体性质包括新颖性、可行性和效用。

  1. 新颖性:评估与历史城市规划的差异和联系。
  2. 可行性:城市规划需要考虑当地经济水平、地理条件和人际关系等综合条件。
  3. 效用:城市规划是否能解决实际问题。

在实际操作中,论文的解决方案如下:

论文标题:PlanGPT: Enhancing Urban Planning with Tailored Language Model and Efficient Retrieval

论文链接:https://arxiv.org/pdf/2402.19273.pdf

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved