201505 - page 8

北京工商大学学报

(

社会科学版

)摇摇摇摇 2015

年

摇

第

期

很多公司属于相对初创的企业

业务模式还处于

相对不稳定的状态

与主板上市公司的企业生命

周期阶段不尽相同

混合在一起研究其管理控制

系统的能力会为研究引入不必要的噪音

。

同样

企业往往具有其特定的经营管理问题

并且这

些问题相对比较严重

很多公司只是沦为

“

壳资

源

冶,

并不具有真实的经营业务

将其纳入研究体

系同样会造成不必要的干扰

。

金融企业的管理控

制和实体企业是迥然不同的

因此本文也排除了

金融企业样本

。

经过这些标准筛选

剩余的样本

上市公司一共

1 209

家

年的收集数据

共

3 627

个公司年度观测

。

在本文的数据收集过程中

所收集的数据根

据时间维度来划分可以分为根据时间改变的数据

变量

比如公司年度定期报告中所收集而来的数

据和不随时间改变的变量

比如从网络上收集而

来的变量

。

对于不随时间改变的变量

虽然在收

集过程中只收集了一份

但是考虑到这些内容代

表着公司制度性或者理念性的差异

本文直接将

其复制到所有的年度中

即

2011—2013

年

个公

司财年

。

而从是否为数值变量的维度看

本文收

集的数据既包括数值变量

即收集到的数值数据

以及经过编码的

0 / 1

哑变量数据

也包括纯文本

数据

。

文本数据需要进行后续处理

转化成数值

数据才能纳入指数的编制过程

本文主要采用监

督式机器学习的办法对其进行编码转换

。

机器学

习被定义为是一门基于人工智能

的科学

这个

学科的主要研究对象是人工智能

特别是如何利

用计算的具体算法来改善其经验学习能力

。

具体

的文本处理和转换方法详见数据字典和处理方法

部分

。

(

二

)

手工收集数据字典和处理方法

根据数据特点的不同

数据字典部分分为基

于文本生成的部分和纯数值生成的部分

并在每

个变量介绍后简要介绍其选取的原因

。

本文指数

构建所采用数据来自手工收集

收集规范见表

1。

表

1摇

手工收集信息数据规范

数据项

说明

管理层讨论文本

文本存为股票代码

年度

. txt

如

000012A2013. txt

内控报告文本

文本存为股票代码

年度

. txt

如

600001B2012. txt

社会责任报告文本

文本存为股票代码

年度

. txt

如

600001C2011. txt

是否设有财务公司

0 / 1

值

代表无财务公司

代表有财务公司

公司是否有管理信息系统

0 / 1

值

代表无

代表有

是否有预算管理

0 / 1

值

代表无预算管理

代表有预算管理

是否有生产信息系统

(

ERP

CRM

)

0 / 1

值

代表无

代表有

高管硕士以上学历人数

整数值

[

999

如无数据用

- 1

表示

高管人数

整数值

[

999

如无数据用

- 1

表示

高管平均年龄

整数值

[

如无数据用

- 1

表示

是否有新浪微博账号

0 / 1

值

代表无

代表有

是否有微信账号

0 / 1

值

代表无

代表有

摇摇

文本变量的处理方法如下

。

管理层的未来经营的情态

(

变量代码

mgmt

管理层讨论文本是公司定期财务报告中信息

含量最丰富的内容

包含了公司高层对外部环境

、

竞争格局

、

公司未来发展战略等大量内容

并且所

有上市公司的年报中都包含此段内容

因而最值

得深度挖掘

。

国外已有研究针对上市公司管理层

讨论文本内容根据词典进行情态分析

以区分管

理层对未来是乐观还是悲观的

研究发现管理层

讨论文本具有显著的信息含量

( Davis et al. ,

2012)

[14]

。

从这个研究可以看出

对管理层讨论

文本的情态分析是具有良好的信息含量的

因此

本文在研究时对管理层讨论文本的分析方法也同

样是进行情态分析

对全文表达的意思抽象为编

码

将积极的情态定义为

消极的情态定义为

0。

然而在实现过程中

本文无法完全模仿该研究的

·8·

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

I...,III,IV,V,1,2,3,4,5,6,7 9,10,11,12,13,14,15,16,17,18,...127