201505 - page 8
北京工商大学学报
(
社会科学版
)摇 摇 摇 摇 2015
年
摇
第
5
期
很多公司属于相对初创的企业
,
业务模式还处于
相对不稳定的状态
,
与主板上市公司的企业生命
周期阶段不尽相同
,
混合在一起研究其管理控制
系统的能力会为研究引入不必要的噪音
。
同样
,
ST
企业往往具有其特定的经营管理问题
,
并且这
些问题相对比较严重
,
很多公司只是沦为
“
壳资
源
冶,
并不具有真实的经营业务
,
将其纳入研究体
系同样会造成不必要的干扰
。
金融企业的管理控
制和实体企业是迥然不同的
,
因此本文也排除了
金融企业样本
。
经过这些标准筛选
,
剩余的样本
上市公司一共
1 209
家
,3
年的收集数据
,
共
3 627
个公司年度观测
。
在本文的数据收集过程中
,
所收集的数据根
据时间维度来划分可以分为根据时间改变的数据
变量
,
比如公司年度定期报告中所收集而来的数
据和不随时间改变的变量
,
比如从网络上收集而
来的变量
。
对于不随时间改变的变量
,
虽然在收
集过程中只收集了一份
,
但是考虑到这些内容代
表着公司制度性或者理念性的差异
,
本文直接将
其复制到所有的年度中
,
即
2011—2013
年
3
个公
司财年
。
而从是否为数值变量的维度看
,
本文收
集的数据既包括数值变量
,
即收集到的数值数据
以及经过编码的
0 / 1
哑变量数据
,
也包括纯文本
数据
。
文本数据需要进行后续处理
,
转化成数值
数据才能纳入指数的编制过程
,
本文主要采用监
督式机器学习的办法对其进行编码转换
。
机器学
习被定义为是一门基于人工智能
AI
的科学
,
这个
学科的主要研究对象是人工智能
,
特别是如何利
用计算的具体算法来改善其经验学习能力
。
具体
的文本处理和转换方法详见数据字典和处理方法
部分
。
(
二
)
手工收集数据字典和处理方法
根据数据特点的不同
,
数据字典部分分为基
于文本生成的部分和纯数值生成的部分
,
并在每
个变量介绍后简要介绍其选取的原因
。
本文指数
构建所采用数据来自手工收集
,
收集规范见表
1。
表
1摇
手工收集信息数据规范
数据项
说明
管理层讨论文本
文本存为股票代码
A
年度
. txt
,
如
000012A2013. txt
内控报告文本
文本存为股票代码
B
年度
. txt
,
如
600001B2012. txt
社会责任报告文本
文本存为股票代码
C
年度
. txt
,
如
600001C2011. txt
是否设有财务公司
0 / 1
值
,
0
代表无财务公司
,
1
代表有财务公司
公司是否有管理信息系统
0 / 1
值
,
0
代表无
,
1
代表有
是否有预算管理
0 / 1
值
,
0
代表无预算管理
,
1
代表有预算管理
是否有生产信息系统
(
ERP
,
CRM
)
0 / 1
值
,
0
代表无
,
1
代表有
高管硕士以上学历人数
整数值
[
0
,
999
),
如无数据用
- 1
表示
高管人数
整数值
[
0
,
999
),
如无数据用
- 1
表示
高管平均年龄
整数值
[
0
,
99
),
如无数据用
- 1
表示
是否有新浪微博账号
0 / 1
值
,
0
代表无
,
1
代表有
是否有微信账号
0 / 1
值
,
0
代表无
,
1
代表有
摇 摇
文本变量的处理方法如下
。
管理层的未来经营的情态
(
变量代码
mgmt
_
op
):
管理层讨论文本是公司定期财务报告中信息
含量最丰富的内容
,
包含了公司高层对外部环境
、
竞争格局
、
公司未来发展战略等大量内容
,
并且所
有上市公司的年报中都包含此段内容
,
因而最值
得深度挖掘
。
国外已有研究针对上市公司管理层
讨论文本内容根据词典进行情态分析
,
以区分管
理层对未来是乐观还是悲观的
,
研究发现管理层
讨论文本具有显著的信息含量
( Davis et al. ,
2012)
[14]
。
从这个研究可以看出
,
对管理层讨论
文本的情态分析是具有良好的信息含量的
,
因此
本文在研究时对管理层讨论文本的分析方法也同
样是进行情态分析
,
对全文表达的意思抽象为编
码
,
将积极的情态定义为
1,
消极的情态定义为
0。
然而在实现过程中
,
本文无法完全模仿该研究的
·8·
I...,III,IV,V,1,2,3,4,5,6,7
9,10,11,12,13,14,15,16,17,18,...127