- · 《中国年鉴研究》投稿方[04/09]
- · 《中国年鉴研究》期刊栏[04/09]
- · 中国年鉴研究版面费是多[04/09]
图书情报与数字图书馆论文_基于工作流的统计年
作者:网站采编关键词:
摘要:文章目录 1 材料和方法 1.1 数据来源及预处理 1.2 数据特征分析 1.3 数据清洗模型构建 1.4 数据质量控制 1.4.1 重复指标数据处理 1.4.2 数据清洗质量验证 2 统计年鉴数据清洗模型构建关键技
文章目录
1 材料和方法
1.1 数据来源及预处理
1.2 数据特征分析
1.3 数据清洗模型构建
1.4 数据质量控制
1.4.1 重复指标数据处理
1.4.2 数据清洗质量验证
2 统计年鉴数据清洗模型构建关键技术实现及结果分析
2.1 单表数据分区拆分
2.2 单表数据分区提取
2.3 制作单表数据提取宏批量提取单表数据
2.4 建立匹配数据字典规范标识数据
2.4.1 指标名称匹配数据字典
2.4.2计量单位匹配数据字典
2.4.3 空间区域名称匹配数据字典
2.4.4 利用匹配数据字典规范标识数据
2.5 年鉴清洗结果
3 结论与讨论
文章摘要:为实现统计年鉴数据集成整合和综合快速查询,以2000—2018年《中国统计年鉴》及《河南统计年鉴》等全国31个省(市、区)统计年鉴为例,深入分析其数据特征后,采用Alteryx Designer 2019.2学习版,基于工作流技术,经过提取目录及文件、提取文件中的表单、提取表单中表的内容、数据清洗及规范、规范标识数据的6个维度、数据重组和数据输出共7个步骤构建了统计年鉴数据清洗模型。结果表明,在16 GB内存的笔记本电脑上,模型用时4~5 h即可将数据容量达21 GB、包含33万个文件、120万张表单的统计年鉴数据清洗并整合为1套包含6 000多万条指标数据序列的标准规范数据集。构建的数据清洗建模方法具有高效、可溯源的优势。
文章关键词:
论文DOI:10.15933/j.cnki.1004-3268.2021.10.022
论文分类号:G353.1
文章来源:《中国年鉴研究》 网址: http://www.zgnjyj.cn/qikandaodu/2022/0130/657.html