目前数据资产还未被纳入到资产负债表中列示,其信息披露尚属于自愿性信息披露。因此,需要对上市公司年度财务报告中的数据资产信息进行挖掘从而评估其数据资产信息披露水平。采用文本挖掘测度企业的数据资产信息披露水平,具体步骤如下:第一,将“数据资产”作为种子词汇;第二,借鉴中国信通院2019年发布的“数据资产是能够带来经济利益的数据资源”的观点,将“数据资源”也作为种子词汇;第三,依据“数据资产”和“数据资源”这两个种子词汇,使用 “种子词集 + 相似词扩充”方法构建数据资产的文本词典,且仅保留相似度大于0.5 的词汇,以体现词典的相关性和准确度。第四,挖掘年度报告中种子词汇与相似词词汇在年度财务报告中出现的词频,并且计算数据资产信息披露水平,计算公式如下 
其中,data为数据资产信息披露水平;dictionary words为词典中第n个种子或者相似词词汇在个股i第t年的年度财务报告中的精确词频;total words为个股i在第t年的年度报告的总词频(排除英文和数字)。由于数据资产信息披露水平变量是右偏态分布,因此对该指标进行了对数化处理。另外,还进行了归一化处理,最终得到度量企业数据资产信息披露水平的指标。
稳健性检验中考虑以相似度作为权重得出数据资产信息披露水平的替代指标。weight为数据库中的第n个词汇与种子词汇的相似度(种子词汇的weight赋值为1) 
词汇包含:数据资产、数据资源、信息资源、数据挖掘、数据源、大数据、数据共享、海量数据、数据平台、数据分析系统等28个词汇。
参考文献
[1]苑泽明,于翔,李萌.数据资产信息披露、机构投资者异质性与企业价值[J].现代财经(天津财经大学学报),2022,42(11):32-47.
[2]张俊瑞,危雁麟.数据资产会计:概念解析与财务报表列报[J].财会月刊,2021,(23):13-20.
[3]牛彪,杜雨晴,于翔,等.数据资产信息披露与债券融资成本[J].广东财经大学学报,2024,39(05):88-101.
数据说明
数据对象:全部A股
数据区间:2001-2025年
最后结果包含3个版本:
1、未筛选剔除未缩尾处理
2、剔除金融行业、剔除ST、*ST、PT类、已退市公司样本未缩尾处理
3、剔除金融行业、剔除ST、*ST、PT类、已退市公司样本已缩尾处理
数据截图

各年数据量

缩尾后描述性统计

易获数据网
评论前必须登录!
注册