商业数据分析之信息采集方法-第9章信息采集的内容


Time:2024-06-07 22:36:13

关于商业数据分析之信息采集方法的问题,我们总结了以下几点,给你解答:

商业数据分析之信息采集方法


商业数据分析之信息采集方法

本文内容来源于《时空信息学报》2023年第4期

一种基于规则解析的地理信息元数据批量采集方法

范登科1, 2,张恒1, 2, 3,韩祖杰1, 2,全玉山1,宋永军1,杨斌4,张利明1

1. 中国铁路设计集团有限公司,天津 300308;2. 城市轨道交通数字化建设与测评技术国家工程研究中心,天津 300308;3. 西南交通大学地球科学与环境工程学院,成都 610031;4. 甘肃天陇铁路有限公司,兰州 730046

基金项目:国家自然科学基金项目(42201445);中国铁路设计集团有限公司内部重点课题(2023A0253816)

关键词:规则解析;元数据;交互视图;数据字典;批量采集

引文格式:范登科, 张恒, 韩祖杰, 全玉山, 宋永军, 杨斌, 张利明. 2023. 一种基于规则解析的地理信息元数据批量采集方法. 时空信息学报, 30(4): 527-535.Fan D K, Zhang H, Han Z J, Quan Y S, Song Y J, Yang B, Zhang L M. 2023. A batched acquisition method for GIS metadata based on parsing schema. Journal of Spatio-temporal Information, 30(4): 527-535, doi: 10.20117/j.jsti.202304008.摘要

摘要 :针对地理信息元数据采集效率低、信息不完整、交互能力弱、灵活性差等问题,本文提出一种通过规则解析建立地理信息元数据采集交互视图,同步实施批量元数据采集作业的方法。本方法以元数据XML规则实现方式为基础,对元数据的基本组成单元进行对象化定义和解析,建立树列表视图表达元数据的数据字典内容和结构,实现交互式采集。经业务化实施验证及对比分析表明:本方法采集时间较现有方法节省60.5%;不仅完整地反映了元数据数据字典的全部内容,而且可以动态、灵活地表示其多层次、多态的数据结构。在提高作业效率和成果标准化水平的同时,解决了现有方法难以适应规则动态扩展的问题。

正文1 引 言

元数据是关于数据的数据(薛娇等,2020;Sawadogo和Darmont,2021)。在地理信息数据分析、处理、交换和服务发布过程中,元数据提供了统一的数据描述规则和方法,以便各方在信息理解和数据解译上达成一致(Lassoued等,2007;Sheoran和Parmar,2020;刘纪平等,2022)。我国于2005年发布《地理信息 元数据》(GB/T 19710—2005)标准,定义了元数据的组成单元、特征和数据字典,有效规范了元数据的内容和形式,并在《基础地理信息数字成果元数据》(GB/T 39608—2020)中提出了基于XML语言的元数据规则实现方式。为了实现地理信息元数据的结构化存储和标准化应用,全国地理信息标准化技术委员会发布了国家标准

化指导性技术文件《地理信息 元数据 XML模式实现》(GB/Z 243572009),明确了基于XML语言编制元数据规则,用以描述元数据数据字典的全部组成单元及其彼此间的关系(张涛等,2007;李爽,2017Lacayo等,2021)。由于地理信息数据具有时空海量、多源异构等特点(徐冠华和黄写勤,2022),导致元数据内容多样、规则关系复杂。常规手工对文件编辑处理的方式导致元数据的生产、管理和交互等工作效率低下、内容繁杂,致使元数据技术的推广应用受到限制(张敏等,2019;周成虎等,2020;李新等,2021)。如何对复杂规则关系进行解析,批量自动地采集标准化的元数据,是对海量时空大数据达成一致理解的重要前提。现有元数据采集方法主要包括三类。一是基于据库的采集。根据数据字典设计好数据库表结构,通过表之间的关系反映元数据实体和元数据元素间的逻辑关系,采集时将元数据实体的实例存储为数据库表中的一行记录(罗英伟等,2005;宋鸿运,2017;Parmar和Sheoran,2021)。这种方法将元数据的各种关系隐含在数据库表关系中无法显式表达,一旦进行信息交换或迁移,还需要执行烦琐的数据库查询和修改操作,以保证元数据与所描述数据统一一致。二是将XML规则文件描述的数据字典转为RDF、DTD或其他建模语言描述(程志华,2018;孙立健等,2018;王晓迪等,2023)。该方法不仅使元数据的批量采集能力和交互编辑能力受限于特定建模语言或软件,还增加了转换过程中数据字典信息错漏的风险。三是采用文本描述语言,如XML、TXT、Json等固定的语法和结构,直接写入信息批量生产实例文件(Hu 等,2022;郑聪和张衍伟,2019;任赳龙等,2019)。这种方法仅能处理通用、固定的元数据内容,由于缺少规则约束,难以保证元数据信息的完整性,以及与数据字典描述的一致性;同时由于需要在软件研发阶段固化元数据结构和内容,可扩展性和灵活性较低。此外,现软件如国家基础地理信息中心的MetaGear、商业软件ArcGIS仅支持对基础地理信息元数据的编辑,缺乏对行业特定扩展元数据的采集能力,极大限制了元数据在各专业领域的应用(Cartledge,2018;Brodeur等,2019Closa等,2019)。为解决元数据采集自动化程度和效率低、行业应用受限等问题,本文提出一种基于规则解析的地理信息元数据批量快速采集方法,以实现规则约束下的元数据标准化采集,提高元数据的采集效率及产品的可靠性,满足行业扩展应用的需求。首先,通过定义元数据的数据类型,将元数据规则文件中的各类组成单元解析为相对应数据类型的对象;其次,采用属性描述组成单元间的关系,重建数据字典结构;最后,建立交互视图以实现元数据实例的批量表达和编辑。

2 研究方法

1展示了基于规则解析的地理信息元数据批量快速采集方法的总体技术框架,主要包括元数据数据类型定义和规则解析、元数据数据字典的结构重建,以及元数据信息交互视图构建三个步骤。

2.1 建立描述架构

2.1.1 元数据组成单元类型定义

遵照国家标准的规定,采用计算机语言分别定义元数据实体类、元素类、代码表类和代码表枚举项类。其中,实体类和元素类中各项属性的数据类型与元数据特征之间的对应关系,如表1所示。将元数据代码表和代码表枚举项的“名称(中文)”“名称(英文)”“域代码”和“说明”四个特征的数据类型全部定义为字符串型。

2.1.2 元数据组成单元间关系描述

元数据各要素之间具有四类逻辑关系,分别是包含关系、引用关系、泛化关系和特化关系。作为元数据元素的一类特殊值类型,代码表与其枚举项同样构成包含关系。通过在相应要素类中新增属性定义实现上述关系描述,各属性的数据类型与所描述逻辑关系的对应情况,如表2所示。

2.2 XML规则文件解析方法

一组地理信息元数据规则文件记录了以XML语言实现的数据字典描述(蔡鲁湘,2005)。遵照国家标准化技术性指导文件的规定,元数据各要素及其实例均采用了特定的XML语法、Tag标记和组织形式进行定义。本研究通过解析这些固定的格式、标记和组织形式,将元数据的数据字典信息从XML规则文件传递到上述所建立的描述架构中,图2描述了XML规则文件解析的具体方法。

以元数据实体CRCI_Contact为例,图3展示了将其XML规则内容解析为实体类对象和元素类对象的过程,其中将上述所建描述结构中定义的实体类命名为MetadataEntity,元素类命名为MetadataElement,解析所得实体对象为O,其包含的各元素对象为ei,各项元数据特征值解析为对象的属性值。

元数据的数据字典定义了一整套从根实体MD_Metadata出发的、自上而下的“子集—实体—元素”三级组织架构。通过包含关系、引用关系、泛化关系、特化关系四种逻辑关系,元数据各要素有序组织在一起,在数据结构上表现为树结构,如图4所示。树结构中的节点为元数据实体O或元素e,节点间的连接线代表其逻辑关系,分别是实体与元素的包含关系,元素与实体的引用关系,实体与子实体的特化或泛化关系。在规则解析过程中,随着各要素对象的实例化,对象间的各类逻辑关系解析为对象的属性值。至此,借助计算机语言,元数据数据字典的全部信息被完整地描述出来。

2.3 构建交互视图

2.3.1 元数据特征表达

采用统一的树列表结构视图表达由上述解析得到的元数据数据字典。如图5所示,该视图中的一行表示一个节点,反映了一个元数据元素对象的信息。元数据的三个特征——“名称/角色(中文)”“数据类型可选性的实例信息,分别通过视图的第一列数据、第二列数据和节点图标表达。其中,“名称/角色(中文)”和“数据类型特征直接表达为属性值,可选性特征则通过节点图标样式差异化表达元素是可选的还是必选的。

2.3.2 引用关系与包含关系的表达

当元数据元素与实体之间构成引用关系时,该元素值的数据类型为实体型。在交互视图中,引用关系通过节点的第一列数据——元素的“名称/角色(中文)”特征与第二列数据——元素的“数据类型”特征二者间的对应关系表达。元数据实体与其所含元素之间的包含关系则通过树结构中节点及其子节点间的包含关系表达。以引用CRMD_ Keywords实体的元素及该实体所包含的元素为例,引用关系和包含关系在视图中表达方式,如图6所示。

2.3.3 泛化关系与特化关系的表达

与计算机语言描述的类型派生类似,元数据实体之间具有泛化或特化关系。以空间表示(CRMD_ SpatialRepresentation)实体为例,由其特化出格网空间表示(CRMD_GridSpatialRepresentation)、矢量空间表示(CRMD_VectorSpatialRepresentation)和模型空间表示(CRMD_ModelSpatialRepresentation)三个实体;其中,格网空间表示又特化出地理校正CRMD_Georectified)实体。在交互视图中,以上述特化关系创建树列表子视图,如图7所示,并通过上述构建的树结构中第二列数据——元素的数据类型特征与主视图关联。当选中子视图中某实体类型时,其包含的元素作为子节点添加到主视图中,从而实现元数据实体的多态化表达。

2.3.4 批量同步采编及空间信息驱动

如图7所示树列表主视图中,除前两列表达元数据的两个特征外,其他列用于展示元数据的实例值。一个元数据实例文件的内容由主视图中的一列数据表达。图8示意了不同元数据应用类型、不同空间数据类型的元数据实例文件内容在主视图中同步展示的效果。由于相同项目数据的元数据在一些元素(如创建日期、制作单位、说明等)上取值相同,可以对视图展示的所有或部

分元数据按行(元素)统一赋值,从而实现元数据的批量同步采编。

借助空间数据接口,能够自动采集与空间信息相关的元数据实例信息。由于作为这些信息载体的元数据实体(如空间表示信息、内容信息)具有与上述相同的多态性。对不同数据类型的地理信息数据批量同步采编时,相同元素在空间信息的驱动下表达为不同数据类型(实体类型)的实例。

3 生产实践应用及对比分析

本方法适用于基于XML规则实现的、遵照国家标准GB/T 19710GB/Z 24357扩展规定编制的各型元数据的采集。基于本方法,地理信息数据生产人员在昌景黄高速铁路、京雄城际铁路等工程的信息化项目中开展了元数据采集实践应用,采集目标为铁路建设周边地理要素矢量、数字正射影像图(digital orthophoto map,DOM)和数字高程模型(digital elevation model,DEM)影像、工程要素模型、施工图设计参数表格等地理信息数据,目标数据量总计约45 GB,采集所得元数据实例文件数为382个。元数据采集效率和质量得到提升,进一步规范了地理信息数据管理,缩短了数据服务发布周期。本文实验包括以下三个步骤。

1)元数据数据类型定义和规则解析。首先,根据地理信息元数据的XML模式实现规则,采用计算机语言定义元数据各类组成单元对象的数据类型;其次,从元数据XML规则文件和代码表文件中,提取其中记录的元数据实体、元素和代码表及代码表枚举项实例信息,解析为数据类型的对象。

2)元数据数据字典的结构重建。扩展定义步骤(1)元数据的数据类型中实体类和要素类的属性,以描述元数据数据字典中记录的包含关系、引用关系、泛化关系和特化关系。通过上述四类关系将步骤(1)解析获得的实体对象和元素对象关联组织在一起,形成数据字典的数据结构。

3)元数据信息交互视图构建。采用树列表结构,创建视图表达步骤(2)解析形成的数据结构,包括元数据实体和元数据元素的部分特征信息,以及彼此间的四类关系,形成按照视图结构表达的、统一的、多态可控的组织形式。采用列表结构,创建子视图表达步骤(1)解析得到的各代码表及所含代码表枚举项的全部特征信息。最终关联上述视图和子视图,通过所描述地理信息数据的类型驱动生成采集视图,将在组织关系上相关的元数据实例同步显示到树列表结构视图的不同列中,以统一赋值、自动提取空间信息等方式实现元数据批量快速采集。

3.1 与MetaGear采集方式的对比

MetaGear是国家基础地理信息中心研发的一款地理信息元数据采集软件,能够个性化地采集生产不同区域的XML元数据,但与本方法相比,其不足之处在于一次仅能采集一个元数据实例,且需要在采集前指定地理信息数据所对应的数据类型模板,在整个采集过程中元数据数据字典结构固定,不具有灵活可变的特性。本方法解决了MetaGear无法一次采集多个元数据实例的问题,支持多种数据类型的元数据实例同时展示,并在采集过程中可以灵活调整元数据数据字典组织内容和结构,可以有效应对当前如FileGDBKMZ等混合数据类型的地理信息数据的采集。

3.2 与传统元数据采编方式的效率对比

采用本方法与文本直接编辑方法的元数据采集进行效率对比实验,两种采集过程的采集人员、采集环境和采集目标数据均保持一致,并分别从新建实例数据和修改实例数据两方面做比较。新建实例数据的实验过程是,根据需求新建并采集20个不同地理信息数据类型的元数据文件,其中包含具有代表性的矢量数据文件7个、栅格数据文件7个、模型数据文件6个,且同类文件中空间信息各不相同,分别记录无地理信息数据类型先验知识和有地理信息数据类型先验知识两种情况下两种方法的处理时间;修改实例数据的实验过程是,根据需求修改20个既有不同地理信息数据类型的元数据文件,不同类型文件数量及信息差异性与前者保持一致,分别记录无增删元数据元素和有增删元数据元素情况下两种方法的处理时间;最终四种情况等权计算平均水平。两种方法在多环境下元数据处理时间的统计结果,如表3所示。表3 两种元数据处理方法效率对比

Tab.3 Efficiency comparison of two metadata processing methods

min

由表3可知,本方法在各种情况下均优于文本直接编辑方法。由于后者在处理过程中不仅需要编辑大量的XML节点,而且还需要充分考虑元数据数据字典层次关系的正确描述,对数据处理人员熟悉地理信息元数据XML模式的程度有很高要求。在有先验知识的新建实例数据和有增删元素的修改实例数据情况下,本方法能显著提升处理效率,平均时间节约达60.5%

4 结 论

本文提出的基于规则解析的地理信息元数据批量快速采集方法解决了现有方法中存在的处理效率低、信息不完整、交互能力弱、灵活性差等问题。基于地理信息元数据XML规则解析的数据字典重构和元数据信息交互视图的构建是本方法实现的技术基础。在规则解析与数据字典重构方面,

本方法采用计算机语言描述了由XML模式定义的地理信息元数据实体、元素、代码表及代码表枚举项的各类特征和逻辑关系,重新建立了元数据数据字典的多层级、多态化数据结构。在元数据信息交互视图构建方面,方法借助树列表视图多维信息表达的优势,直观、完整地反映元数据数据字典的全部内容,动态、灵活地表现其多层级和多态化数据结构,为批量快速采集地理信息元数据实例提供了高效的、可扩展的方法。未来工作将关注于与元数据规则相匹配的数据库表的自动创建和修改,以及元数据实例自动入库管理方法研究上,进一步提升元数据管理的统一性和规范性。作者简介作者简介:范登科,研究方向为铁路工程信息化技术、信息技术标准化。E-mail: fdkhb@163.com

初审:杨瑞芳复审:宋启凡终审:金 君

资讯

第9章信息采集的内容


第9章信息采集的内容

可视化的报表定义、审核关系的定义、报表的审批和发布、数据填报、数据预处理、数据评审、综合查询统计等功能模块。
通过信息采集网络化和数字化,扩大数据采集的覆盖范围,提高审核工作的全面性、及时性和准确性;最终实现相关业务工作管理现代化、程序规范化、决策科学化,服务网络化。
实时采集来自生产线的产量数据或是不良品的数量、或是生产线的故障类型(如停线、缺料、品质),并传输到数据库系统中;接收来自数据库的信息:如生产计划信息、物料信息等。



系统种类
设备类
是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。数据采集系统是结合基于计算机的测量软硬件产品来实现灵活的、用户自定义的测量系统。比如条码机、扫描仪等都是数据采集工具(系统)。
网络类
用来批量采集网页,论坛等的内容,直接保存到数据库或发布到网络的一种信息化工具。可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容,也可以对数据进行处理。
数据采集系统由:电压形成;模拟滤波器;采样保持;多路转换开关和模数转换器组成。
传感器——放大器——数据采集器——计算机(数据采集分析软件)——输出设备(打印机等)

信息数据采集的一般途径


信息数据采集的一般途径

获取信息的途径有电视、广播、报纸、期刊、互联网等。

电视:是指使用电子技术传送活动的图像画云及树局态青围请略面和音频信号的设备,也是重要的广播和视频通信工具。

广播:是通过无线电波或导线传送声音的新闻传播工具。

报纸:是以刊载新闻和时事评论为主的定期向公众发行的印刷出版物或电子类出版物。报纸是大众传播的重要载体,重题钟具有反映和引导社会舆论的功差困秋燃能。

注意:

在信息获取上,企约百动按秋沿失衣破外业可能受到获取信息工具、信息渠道、外界的信息封锁、信息量太大而无法容纳的限制、客观事该首创相次才零物反映在信息上的模糊性项掉款而无法清晰描述的多末烧给太养许普预外限制、信息模型的局限或者获取信息的成本太高而产生对外部世界的不准确描述等限制。

所以,企业的信息系统的建立首先要考虑在源头上如何布点,采用什么运方式、工具,以及如何形成互相验证,如何以较低的成本获取尽量全面的信息。


行业热门话题:

信息数据采集的一般途径,信息采集具体实施步骤,商业数据分析之信息采集方法


1024(定向养站+文章采集+ai聚合)目录程序| 2588(定向养站+文章采集+ai聚合)泛目录版| 淘客文章带货| 双标题| 挖关键词| 违禁词删除| 伪原创| 免费插件| 自助解答| 站长变现| 今日头条| 问答聚合| 投稿| 818(今日头条资讯聚合演示)| 1024(采集聚合+ai聚合)| 1024 (AI定向养站目录程序)| 定向养站目录程序| ai写作目录程序