本帖最后由 中国资料 于 2025-10-12 16:41 编辑
上市公司数字技术应用数据
最新版数据已整理为Excel格式,数据的时间区间为2007-2024年,内含“数据+计算方法+数据来源+参考文献”,欢迎下载!
目前,通过人工构建数字技术应用词典提取文本信息已成为衡量企业数字技术应用的一种主要方法。然而,词典法构建会存在关键词遗漏、背景性描述、否定含义以及意向性提及等多种问题。例如,企业年报文本中谈到,“通过‘云+API(应用程序编程接口)’的方式输出金融服务能力”,句子中“ 云+API”一词显示企业使用了云服务相关技术,而在构建词典时难以穷尽这类词语。另如,“中国制造业正沿着制造业高端化、信息化、智能化的发展方向不断探索创新……”,该语句仅对行业背景进行描述,而并非企业应用数字技术;又如,“没有大规模的智能媒体设备购置需求……”,表达了否定含义,然而词典法将判断为企业应用了数字技术。再如,“公司下一步将有计划地向金融领域深入发展,积极研究与建设线下金融便民服务网格化平台与线上应用服务平台……”,表达了意向使用而非已经使用数字技术等。上述问题的存在都影响了基于词典法构建的企业数字技术应用指标的准确性。
部分现有研究已经认识到词典法的弊端,开始应用大语言模型等前沿技术改进非结构化数据领域的研究。例如,金星晔等(2024)创新性使用大语言模型完成了对企业数字化转型的测度。首先,通过语料筛选和大规模人工阅读构建训练集,训练集中的每个句子都被标注为是否能够表明企业实际使用了某类数字技术。其次,使用训练集训练大语言模型,训练过的模型可以用于判断任意句子是否表明企业使用了数字技术。当一份年报含有表达企业进行数字化转型的句子时,则判定该企业进行了数字化转型。由此,得到一个衡量企业是否数字化转型的虚拟指标。
我们采用了金星晔等(2024)的方法,并根据研究需要,通过计算企业MD&A 文档中表达数字化转型句子的数量占该文档所有句子数量的比重来衡量企业数字技术应用程度。
数据来源权威、可靠、详实,并由中国经济研究资料室精心整理。
|