摘 要: 首先针对工程文 档的格式特点,提出支持多种来源、多种格式 文 档的统一文本提取和语义分析方 法,
获取文 档中蕴含的关 键信息。然后提出一种基于改 进TF-IDF指 标 和 主 成 分 分 析( PCA)的 文 档 指 纹 算 法 和
文档知识网络建立算法。最后基于建筑工业互联网平台开发相应的功能模块;并将 10 0多 个大 型 项目的 40
万个文档进行分析和组织,按主题词和关键短语的内在联系,形成跨项目可视化可交互的知识网络。
关键 词: 工程文档;知识网络;工业互联网;语义分析;文档指纹
中图分类号:T U712.3 文献标识码: A 文章编号:10 02 -851X(2 0 21 )S1 -0 411 -04
DOI :10.14181/j.c n k i.10 0 2 - 851x . 20 21S1411
Research on “Industry Internet Plus ” Knowledge Network of Building Engineering Documen ts
PENGỞang 1, ZUO Feng 2,YUịangqiang 1, ZHANG Ming 1
( 1.ShanghaiỈonstr uctionồo.4 (Group )Co. ,Ltd ,Shanghaiặ01103 ,China ,2.Xinhua Hospital Affiliated to Shanghai Jiaotong University
SchoolỴf Medicine ,Shanghaiặ00092 ,China )
Abstract :According toỹheừormat characteristics ofỪngineeringứocuments ,thisỵaperỵroposes a unified text
extractionỦndỸemantic analysisỲethod supportingỲulti-source and multi formatứocuments. After that ,proposes
a document fingerprint algorithm and a document knowledge network building algorithm based on improved TF-IDF
index and principal component analysis (PCA ). Finally ,developes the softwareỲodulesỴn the buildingỮndustry
internetỵlatform for analyzing and organizingẹ00ỹhousand documents ofỲore thanẶ00ựargeỵrojects.
Keywords : engineering documents ;knowledge network ;industryỮnternet ;semanticỦnalysis ;docu ment
fingerprint
1 引 言
工程文档是施工企业的核心资料,是工程建造的
主要依据。由于企业的业务拓展和工程规模不断增加,
单个项目的电子文 档 存 档 常 常 有上千 份;而一 个施 工 企
业 的所 有 项目文 档 可能 数以万 计。然而,随 着 项目复 杂
度增加,从如此海量的工程 文 档中提取有用的信息可能
非常困难,成本也很高昂,亟需一种有效的文件组织化
方 法 来解决这些问题。另一方面,建筑行业 近年来 快 速
发展,技术知识也迅速在项目和企业层面积累。工程技
术知识以大量的工程文档资料为载体,用于沟通和交
流。这些高质量资料是企业和全行业的重要资产,需要
经常在后续的项目中参考使用。
然而通 过调研,已有的研究成果并不能满足 工程文
档的信息需求,主要问题在于:( 1)工 程 文 档 数 据 来 源
复 杂,格式多样,异构性很强,目前还没有统一处理这
样的文档数据集的具体报道;( 2)工 程 文 档 ,特 别 是 技
术性文档的主题明确,但细分的技术知识迥然,如果使
用现有的一些单主题 术语分析方 法,得到的结果不会很
好。 Simhash 或关键短语的方法可以识别相似文档并归
为一类,但不适合将各异的主题文档组织起来;( 3)国
内已有一些文档大数据管理平台的研究,但实现的功能
基本上限于上传下载、属性索引、访问等,不提 供进一步
的内容分析和公用知识的组织。因此,需要 研究如何从
* 基金项目:上海市工业互联网创新发展专项( 2019 - GY H LW- 010 02)
作 者 简 介 : 彭 阳 ,男 ,生 于 1993年,湖北荆州人,工程师,研究方向:建筑
施工、工程大数据、智慧建筑。
余 芳 强 ( 通 讯 作 者 ) ,男 ,生 于 1987年 ,江 西 上 饶 人 ,博 士 ,高
级工程师,研究方向:智慧建筑、建筑施工、智慧运维等。
收 稿日期: 2020 -12-31
“工业互联网+”建筑工程文档的知识网络研究
*
彭阳 1,左锋 2,余芳强 1,张铭 1
( 1.上海建工四建集团有限公司,上海 ặ01103;2. 上海交通大学医学院附属新华医院,上海 ặ00092 )建筑经济
CONSTRUCTION ECONOMY
第ẹ2 卷第 Ộ1 期
2 0 21 年Ẽ 月
Vol.42ấ ấồo.S1
Jul. ặ021
·412 ·
大量的文件中集成技术知识,服务于企业与全行业,从
而创 造 更 大的效 益。
本文面向建筑 施 工领域的多种格式和来源的异构
文 档,有针对地设计 新的文 档语义算法,实现信息的提
取,并进一步利用文档蕴含的施工技术知识,建立文档
知识网络。知识网络的核心目标在于提供一种形象化的
文档组织结构,类似基于主题词的知识图谱,可以表达
某一专业领域的内容关联。但本文的知识网络中,节点
既表示单个知识抽象,又保留了文档指针集合供快速检
索 ,且 节 点 间 的 关 系 更 聚 焦 于 知 识 共 现 与 层 级 从 属 。
为 了 利 用 企 业 积 累 的 海 量 文 档 作 为“ 算 据 ”和 云 平
台提供的强大“算力”,验证方法的有效性,本文在“建
筑工业互联网”平台开发了相关的功能模块。该工业互
联 网 平台基于工
“工业互联网 ”建筑工程文档的知识网络研究(论文).pdf