文库 书籍论文 未分类论文

“工业互联网 ”建筑工程文档的知识网络研究(论文).pdf

PDF   3页   下载0   2024-03-26   浏览22   收藏0   点赞0   评分-   免费文档
温馨提示:当前文档最多只能预览 1 页,若文档总页数超出了 10 页,请下载原文档以浏览全部内容。
“工业互联网 ”建筑工程文档的知识网络研究(论文).pdf 第1页
剩余2页未读, 下载浏览全部
摘 要: 首先针对工程文 档的格式特点,提出支持多种来源、多种格式 文 档的统一文本提取和语义分析方 法, 获取文 档中蕴含的关 键信息。然后提出一种基于改 进TF-IDF指 标 和 主 成 分 分 析( PCA)的 文 档 指 纹 算 法 和 文档知识网络建立算法。最后基于建筑工业互联网平台开发相应的功能模块;并将 10 0多 个大 型 项目的 40 万个文档进行分析和组织,按主题词和关键短语的内在联系,形成跨项目可视化可交互的知识网络。 关键 词: 工程文档;知识网络;工业互联网;语义分析;文档指纹 中图分类号:T U712.3  文献标识码: A  文章编号:10 02 -851X(2 0 21 )S1 -0 411 -04 DOI :10.14181/j.c n k i.10 0 2 - 851x . 20 21S1411 Research on “Industry Internet Plus ” Knowledge Network of Building Engineering Documen ts PENGỞang 1, ZUO Feng 2,YUịangqiang 1, ZHANG Ming 1 ( 1.ShanghaiỈonstr uctionồo.4 (Group )Co. ,Ltd ,Shanghaiặ01103 ,China ,2.Xinhua Hospital Affiliated to Shanghai Jiaotong University SchoolỴf Medicine ,Shanghaiặ00092 ,China ) Abstract :According toỹheừormat characteristics ofỪngineeringứocuments ,thisỵaperỵroposes a unified text extractionỦndỸemantic analysisỲethod supportingỲulti-source and multi formatứocuments. After that ,proposes a document fingerprint algorithm and a document knowledge network building algorithm based on improved TF-IDF index and principal component analysis (PCA ). Finally ,developes the softwareỲodulesỴn the buildingỮndustry internetỵlatform for analyzing and organizingẹ00ỹhousand documents ofỲore thanẶ00ựargeỵrojects. Keywords : engineering documents ;knowledge network ;industryỮnternet ;semanticỦnalysis ;docu ment fingerprint 1 引 言 工程文档是施工企业的核心资料,是工程建造的 主要依据。由于企业的业务拓展和工程规模不断增加, 单个项目的电子文 档 存 档 常 常 有上千 份;而一 个施 工 企 业 的所 有 项目文 档 可能 数以万 计。然而,随 着 项目复 杂 度增加,从如此海量的工程 文 档中提取有用的信息可能 非常困难,成本也很高昂,亟需一种有效的文件组织化 方 法 来解决这些问题。另一方面,建筑行业 近年来 快 速 发展,技术知识也迅速在项目和企业层面积累。工程技 术知识以大量的工程文档资料为载体,用于沟通和交 流。这些高质量资料是企业和全行业的重要资产,需要 经常在后续的项目中参考使用。 然而通 过调研,已有的研究成果并不能满足 工程文 档的信息需求,主要问题在于:( 1)工 程 文 档 数 据 来 源 复 杂,格式多样,异构性很强,目前还没有统一处理这 样的文档数据集的具体报道;( 2)工 程 文 档 ,特 别 是 技 术性文档的主题明确,但细分的技术知识迥然,如果使 用现有的一些单主题 术语分析方 法,得到的结果不会很 好。 Simhash 或关键短语的方法可以识别相似文档并归 为一类,但不适合将各异的主题文档组织起来;( 3)国 内已有一些文档大数据管理平台的研究,但实现的功能 基本上限于上传下载、属性索引、访问等,不提 供进一步 的内容分析和公用知识的组织。因此,需要 研究如何从 * 基金项目:上海市工业互联网创新发展专项( 2019 - GY H LW- 010 02) 作 者 简 介 : 彭 阳 ,男 ,生 于 1993年,湖北荆州人,工程师,研究方向:建筑 施工、工程大数据、智慧建筑。 余 芳 强 ( 通 讯 作 者 ) ,男 ,生 于 1987年 ,江 西 上 饶 人 ,博 士 ,高 级工程师,研究方向:智慧建筑、建筑施工、智慧运维等。 收 稿日期: 2020 -12-31 “工业互联网+”建筑工程文档的知识网络研究 * 彭阳 1,左锋 2,余芳强 1,张铭 1 ( 1.上海建工四建集团有限公司,上海 ặ01103;2. 上海交通大学医学院附属新华医院,上海 ặ00092 )建筑经济 CONSTRUCTION ECONOMY 第ẹ2 卷第 Ộ1 期 2 0 21 年Ẽ 月 Vol.42ấ ấồo.S1 Jul.   ặ021 ·412 · 大量的文件中集成技术知识,服务于企业与全行业,从 而创 造 更 大的效 益。 本文面向建筑 施 工领域的多种格式和来源的异构 文 档,有针对地设计 新的文 档语义算法,实现信息的提 取,并进一步利用文档蕴含的施工技术知识,建立文档 知识网络。知识网络的核心目标在于提供一种形象化的 文档组织结构,类似基于主题词的知识图谱,可以表达 某一专业领域的内容关联。但本文的知识网络中,节点 既表示单个知识抽象,又保留了文档指针集合供快速检 索 ,且 节 点 间 的 关 系 更 聚 焦 于 知 识 共 现 与 层 级 从 属 。 为 了 利 用 企 业 积 累 的 海 量 文 档 作 为“ 算 据 ”和 云 平 台提供的强大“算力”,验证方法的有效性,本文在“建 筑工业互联网”平台开发了相关的功能模块。该工业互 联 网 平台基于工
“工业互联网 ”建筑工程文档的知识网络研究(论文).pdf
微信