上市公司数字化转型数据
最新版数据已整理为Excel格式,数据的时间区间为2007-2023年,内含“数据+计算方法+数据来源+参考文献”,欢迎下载!
上市公司数字化转型数据1:
通过Python 爬虫功能归集整理了上海交易所、深圳交易所全部 A 股上市企业的季度及年度报告,并通过 Java PDFbox 库提取所有文本内容,以此作为数据池供后续的特征词筛选。在企业数字化转型特征词的确定上,基于学术文献、政策文件和研究报告进行了深入讨论。在学术文献的借鉴上,参考了一系列以数字化转型为主题的经典文献,归纳整理出有关数字化转型的特定关键词;在重要政策文件和研究报告借鉴上,以《中小企业数字化赋能专项行动方案》《关于推进“上云用数赋智”行动培育新经济发展实施方案》《2020 年数字化转型趋势报告》以及近年《政府工作报告》为蓝本,进一步扩充数字化转型的特征词库,并依照前述分析展开结构化分类(即“底层技术运用”与“技术实践应用”两个层面),形成了的特征词图谱。在此基础上,剔除关键词前存在“没”“无” “不”等否定词语的表述,同时也剔除非本公司(包括公司的股东、客户、供应商、公司高管简介介绍在内)的“数字化转型”关键词。最后,基于Python对上市企业年报文本提取形成的数据池,根据特征词进行搜索、匹配和词频计数,进而分类归集关键技术方向的词频并形成最终加总词频,从而构建企业数字化转型的指标体系。由于这类数据具有典型的“右偏性”特征,本文将其进行对数化处理,从而得到刻画企业数字化转型的整体指标。
上市公司数字化转型数据2:
第一步:构建企业数字化术语词典。以国家政策语义体系为基础构建企业数字化术语词典,通过对中央人民政府(http://www. gov.cn)及工业和信息化部(www.miit.gov.cn)网站进行检索,人工筛选得到 2012~2018 年期间发布的 30 份重要的国家层面数字经济相关政策文件以备提取企业数字化相关的关键词。经Python 分词处理及人工识别,最终筛选保留197 个在国家政策文件中出现频次大于等于5 次的企业数字化相关词汇(详见附表1),这些词汇构成了本文的数字化术语词典。
第二步:对年报相关语段进行文本分析。从巨潮资讯网下载A 股所有上市公司年报并通过Python 提取公司年报中“管理层讨论与分析(MD&A)部分”以备分析。之所以选取年报中MD&A 部分作为文本分析对象,主要有以下两个原因:一是 MD&A 信息是管理层充分考虑公司的外部经营环境和内部资源条件,结合公司管理政策和业务特征,对公司的经营业务情况、发展战略、发展步骤、发展规划等重大事项所进行的有针对性的讨论与分析,因而具有较强的代表性和指向性。二是考虑到MD&A 信息披露的及时性、公允性和严肃性,较少包含与企业经营发展无关的文本信息,较高质量的文本数据有助于提高文本分析方法构建指标的准确性。接下来,我们将数字化术语词典中的197个关键词扩充到Python 软件包的“jieba”中文分词库,并运用文本分析的方法对上市公司年报中 MD&A 部分的文本内容进行分词处理,统计得到197 个数字化关键词在年报MD&A 中出现的频次。
第三步:企业数字化程度指标的构建。考虑到年报 MD&A 语段篇幅的差异可能影响企业披露“数字化”相关信息,在提取得到每家上市公司每年年报中各个数字化关键词的词频后,本文采用企业数字化关键词的总词频除以年报MD&A 语段长度衡量微观企业数字化程度。为了表述方便,将该指标乘以100,指标数值越大,表示企业数字化程度越高。
数据来源权威、可靠、详实,并由中国经济研究资料室精心整理。
更多数据(请点“数市”):
县区级:
上市公司:
全国:
省级:
地级市:
县区级: