设为首页
 加入收藏
 电子邮件
热点关注
站内搜索


合作网站
首页 > 文章导读
基于语义分析方法的创业板风险信息披露研究

 

【基金项目】上海市教委“2018年度上海大学生创新创业训练计划示范校”建设经费资助(项目编号:201810273123)。
 
 
 
 
 
易珩1 马琪琪2 章惟一1
(1上海对外经贸大学统计与信息学院 上海 201620 2上海大学机械工程与自动化学院 上海 200072)
 
【摘要】   企业信息披露制度的不断完善是我国近些年加强金融市场监管的重要举措,其中作为风险程度较高的创业板公司风险披露一定程度上影响着市场的稳定性。文章应用语义分析方法,结合机器学习、聚类分析、构建情感分析词表并基于此进行分析,以多纬度指标对创业板上市公司的首次披露招股说明书和年报所披露的风险信息进行衡量,统计分析了各地区各行业不同风险的披露水平与其相关特征信息,分类别地揭示了企业风险信息披露特点,拓展了风险信息衡量指标。
【关键词】    语义分析;机器学习;风险披露;情感分析;衡量指标
【中图分类号】   F275   【文献标识码】   A   【文章编号】   1002-5812(2019)02-0074-04
 
近年来,随着我国市场监管体系的进一步完善,企业的风险信息披露开始逐渐受到重视,并成为社会各界了解和评价企业现行发展水平、预测公司未来业绩情况的重要途径,因而对披露质量的准确衡量也相应地成为投资者制定决策的前提与基础。基于创业板公司自身经营风险、诚信风险、波动风险、技术风险等的特征,投资者信心很容易受风险披露水平影响,并进一步影响其投资决策。目前在国内的财经研究领域,语义分析的研究情况与技术手段都相对薄弱,且集中于公司的会计信息、环节信息、社会责任等方面研究。随着计算机云计算与数据处理技术的发展及应用,对于文本信息进行数据挖掘既可以提高指标的测量精度,也可多角度地衡量披露信息质量。
企业信息披露一直是投资者和监管机构共同关注的问题之一,企业风险信息的披露,一方面有利于投资者及时、全面、准确地了解企业内部运营情况以及远期风险预测,对投资者的投资决策有重要的引导作用;另外,信息披露还可以减少金融市场信息的不对称性,优化资源配置、提高资本市场的效率,挖掘有价值信息。近年来,随着我国资本市场的发展,我国的企业信息披露制度一直在改革与完善,风险信息披露水平不断提高的同时,信息质量缺乏统一的衡量指标等问题依然难以避免,以语义分析方法结合计算机文本挖掘技术可以更好地针对风险信息进行全方位衡量。本文的研究以2014年4月18日至2018年4月11日777家证监会发布的创业板上市公司的首次披露招股说明书和年报中所披露的风险信息为样本。
一、研究回顾
国内关于风险信息披露的研究起步较晚,主要集中于披露水平与资本成本、监管体制相关性研究。Linsley、Dietrich等人的研究结果论证了充分的披露水平可以提高市场效率、降低公司资本成本;李振江提出需进一步提升银行业披露风险信息透明程度,提高针对性和有效性;张秀敏通过对企业环境信息披露的研究,揭示不同语义特征与企业环境之间的关联性。谢德仁等基于上市公司业绩说明会的文本论证了管理层语调与公司未来业绩之间的显著相关性。
H.P.Luhn首先在文本挖掘领域将词频统计方法融入于文本自动分类,后Maron发表了第一篇自动分类论文,在自动分类研究领域开辟了新的道路。针对创业板风险信息披露水平主要通过内容分析法、回归分析等方法进行研究,此类方法存在数据处理效率低、精准度较差等客观问题,本文引入计算机文本挖掘技术,可改善上述问题,在确保衡量指标精准度的同时,提高文本信息处理效率。
二、理论基础和研究假设
谢仁德和林乐(2014)研究表明我国资本市场对业绩说明会中的管理层语调有显著的市场反应,市场对于披露的风险信息会进行有效的反应。国外在研究盈余管理的开放性问题时(Bushee et al.,2003;Dell Acqua et al.,2010),表示语言复杂性、管理层语调会对市场有所影响。因此本文认为市场会对风险信息披露水平以及管理层的语调做出反应,并体现在公司股价上。可以引入更多变量以探讨地理因素、行业差别、外部环境对于风险披露水平、语气强度是否存在显著的影响,根据统计学选择原假设与备择假设原则,减少统计学第二类错误即取伪错误,将需证明结论放置于备择假设,原假设即为其对立结论,因此笔者提出以下假设:
H1原假设:两分类变量之间相互独立;H1备择假设:两分类变量之间非相互独立,即有相关性。
我们进一步进行细分,将各风险进行分类,探讨各风险两两之间是否存在显著性差异,提出以下假设:
H2原假设:财务风险、市场风险、技术风险、管理风险、政策风险、生产风险两两之间不存在显著性差异;H2备择假设:财务风险、市场风险、技术风险、管理风险、政策风险、生产风险两两之间存在显著性差异,即满足显著性检验。
三、研究设计
(一) 信息提取
本文首先选取2014年4月18日至2018年4月11日777家创业板上市公司的首次披露招股说明书和年报总计1 125份报告为样本,人工摘录其中与风险相关的文本信息并存储于数据库中,再应用Python的“jieba”模块进行分词处理,应用精确模式,使用编程语句生成高频词。后构建风险信息词库、进行词频统计并结合高频词汇分析获取与企业风险信息相关的特征词,构建特征词词表。
(二) 数据分类
人工删除一些生僻字、易与其他词语或单字组成非情感词的单字以及完全不可能出现在企业风险信息披露中的词语作为“停用词”,通过TF-IDF方法计算获得文本向量的权值,用以评估各词对于语料库中的重要程度。以同类文本相似度较大、不同类文本相似度较小为标准,利用SPSS 17软件,采用K-means算法对文本进行相似度聚类分析,完成文本的分类,形成样本指标。
(三) 情感分析词表
借鉴张秀敏(2016)的做法,我们参考HowNet情感词表作为处理依据,使用传统Diction 软件从“确定性”“积极性”和“易读性”等角度对指标进行了趋势分析。该词表原有程度级别、负面评价、负面情感、正面评价、正面情感和主张六类词语,为更精准地评价各指标,本文同时引入特征词表内词汇,去除原表中部分生僻词,生成情感分析词表如表1所示。为更精准地使招股说明书与年报中的信息与分析词表吻合,提高匹配程度,本表结合特征词表,将二者有机结合,剔除部分生僻词、无用词。(表略)
 (四) 信息质量衡量指标
本文使用三种指标对企业风险信息披露质量进行衡量,特征词频数以及语气强度、乐观程度。其中,特征词频数是指与风险相关的特征词在文本中出现的频数,以其代表披露水平;语气强度为定量描述程度指标,按照是否为强调语气、确定语气、非确定语气标准分别赋予3、2、1分,综合语气强度为各词强度平均值,反映企业披露所表现出来的确定性程度;乐观程度为正面评价特征词频数减去负面评价特征词频数,反映企业应对风险的态度,若其出现负值代表企业较为不乐观,或认为其表述语气较为保守。后将语气强度、乐观性、确定性与企业股票代码、报表发布年份、行业、地域形成关联,作为后续研究的基础。
四、实证结果与分析
我们将风险披露信息具体分为财务风险、市场风险、技术风险、管理风险、政策风险、生产风险六类,以更好分析地域、风险、披露水平、语气强度、乐观程度之间的相关性。我们将各行业风险披露总水平进行分类排序,筛选出A:制造业、B:信息传输和信息技术服务业、C:文化、体育和娱乐业、D:水利、环境和公共设施管理业、E:科学研究和技术服务业、F:批发和零售业六大披露水平较高的行业作为分析对象。
(一) 各地区风险披露水平(表略)
 根据各地区特征词频数表结果所示,可以发现华东、华南地区风险披露水平明显高于其他地区,经济较为发达的沿海地区整体披露水平大于内陆地区,处于珠三角、长三角经济带的地区整体披露水平高于非经济带地区。可能因为经济发展水平较高地区拥有更具前景的市场机遇,同时存在更大的市场竞争效应,市场存在大量同类竞争性企业,技术更迭速度更快,在“优胜劣汰”的快节奏市场机制下更需提高披露质量,注重披露内容,因此披露水平整体较高。
以重工业为主的东北、华北地区以政策风险、技术风险披露为主,以农业、采矿业为主的西南、西北地区以生产风险披露为主,以金融业、信息服务业为主的华东、华南地区以市场风险、技术风险为主,作为教育服务业为主的华中地区以管理风险为主。由于各省市资源配置、地理位置不一所形成的主导产业极大地影响了披露的地区风险信息披露种类,披露风险主要集中反映当地代表产业存在的客观风险因素,例如重工业的环境破坏风险、农业的自然灾害风险等。
以东部、中部、西部进行地域划分,东部地区着重披露市场、技术风险,主要是由上海、广东等沿海发达省市的新兴信息技术服务业、金融服务业繁荣发展起主导作用,市场性因素促使了风险披露水平的提高。中部地区由于湖南、湖北为教育大省,教育业起主导作用,着重披露可能存在的管理风险。西部地区由于本身经济发展水平相对不高,创业板公司占比较低,各风险整体披露水平较低,其着重披露生产风险与财务风险,主要考虑资金的融通与周转所导致的财务风险。
(二) 各行业风险信息披露语气强度(表略)
 根据各行业风险信息披露综合语气强度,可以发现可控的内部风险(财务风险、管理风险)整体语气确定性高于不可控的外部风险(市场风险、生产风险、政策风险)。公司对于内部可控风险在披露中往往事先制定预防措施、完善内部控制制度等措施加以预防,造成的不利影响有限。由于市场环境、自然灾害、政策变化等外部环境因素所造成的企业不利影响往往只能采取有限的手段加以预见,缺乏足够有效的解决措施,整体不确定性较高,语调趋于保守。技术风险由于其各行业技术依赖性不尽相同,各行业区分度较大,这里不作具体分析。
在如今信息化时代下,基于时代发展大背景,属于技术密集型的信息传输和信息技术服务业与科学研究和技术服务业行业整体披露水平高于其他行业。此类行业准入门槛较高、行业竞争较激烈、产品更新速度较快,内部研发、外部市场等不可控因素较多。谢德仁(2015)认为,企业管理层语调可以预见公司未来业绩,此类行业竞争较激烈公司在披露过程中也将更注重披露水平,以向消费者传递积极的市场信号,作为市场竞争的手段之一。
 (三) 各行业风险披露乐观程度(表略)
 根据各行业风险披露正面评价特征词频与负面评价特征词频数差额表,我们发现竞争性风险(市场风险、技术风险)乐观程度明显高于非市场性风险(财务风险、管理风险、政策风险、生产风险)。由于竞争性风险存在较强的市场依赖性,市场中存在同类企业竞争,在外部信息获取有限的情况下,不可控因素增多,导致各行业往往针对此类风险在披露中采用相对保守的口吻。而针对非竞争性风险,多数为企业内部可控风险,且向外部传递企业内部运营情况,往往存在一定程度的过分乐观与部分夸大。
在技术风险与政策风险中各行业披露乐观程度存在较大的异质性。其主要是由于政策导向,现阶段国家发展战略重心转向技术密集型产业,注重创新产业的发展,鼓励技术革新,在国家核心发展战略演变趋势下,技术与政策风险已渐渐成为企业风险披露的重要组成部分,成为衡量企业发展前景的重要评估信息。
(四) 非参数检验(表略)
 根据各地区风险披露水平、各行业披露风险语气强度(由于列联表规定20%观测值需大于5,故语气强度采用调整后的语气强度,即将其化为百分制,结果仍保持一致)、各行业披露风险乐观程度列联表卡方检验结果(检验值均为P=0.000<0.05),故拒绝H1原假设(两个分类变量之间是独立的),认为各因素间互相影响,存在依赖关系,支持本文的备择假设。
我们选取不同分类标准中均值方差最大的风险作为基准变量,将其与同类别中其他风险均值进行均值检验,T检验P值结果如表6所示,我们可以发现大多数均值检验P=0.000<0.05,故拒绝H2原假设(各风险披露水平没有显著性差异)。我们认为各地区由于地理位置、经济发展水平、主导产业不同所以导致在不同风险披露水平、语气强度、乐观程度具有异质性。但是其中存在三个特殊情况,即各地区在政策风险和技术风险披露、财务风险和管理风险语气强度、技术风险与市场风险乐观程度不具有显著性差异。主要是由于我国近些年政策主要是由制造大国向创新型大国转型,鼓励高技术型产业的发展,在政策上有所扶持与补贴,因此政策利好型产业的技术披露成为公司披露重点;财务风险和管理风险往往是公司内部可控的自主风险,由于公司所处地区融资能力不足所导致的财务等一系列问题,常存在于内陆经济发展水平不高地区,属于相关性风险,二者具有关联性,在语气强度上保持一致;技术风险与市场风险是市场化程度较高的繁荣产业所重视的两大风险,经济发展程度较高的地区消费者消费能力提高,对于产品质量要求更高,进而促使公司注重产品的更新速度,加大技术投入,以达到争夺市场份额的目的,符合现代化市场法则。
 (五) 稳健性检验
本文进一步扩大样本容量,所得结果与本文所得结论大体一致,满足显著性检验。并且本文比较了创业板与主板上市公司的风险披露水平、语气强度、乐观程度等相关分析结果,在各自年报、招股说明书中,创业板就风险披露篇幅更多、程度更高,受地区、行业影响更大,但二者总体均满足各显著性检验,符合本文结论。
五、结论与展望
本文应用语义分析方法于我国创业板公司的风险披露信息,针对其首次披露招股说明书与年报进行数据收集、聚类分析、构建情感分析词表。数据分析结果表示,各地区风险披露水平受当地主导型产业客观存在风险、地区所处经济带外部竞争环境所影响;行业风险披露语气强度中内部风险披露语气确定性大于外部风险语气确定性,市场集约化较高行业倾向于市场风险、技术风险的披露;行业披露乐观程度中,竞争性风险相较于非竞争性风险表述更趋保守,且技术风险、政策风险在披露水平中存在异质性,在当前国家战略发展背景下更受投资者重视。
本文虽采用了较为严谨的分词与聚类手段,但是在分析中由于缺乏官方的中文经济类词表参考,采用人为处理手段降低了最终形成的分析词表的精准度,存在一定的局限性。本文研究主要针对于风险、行业、地区、披露水平、语气强度、乐观程度之间的联系与特征进行分析,未引入时间、政策发布等更多变量进行多维度分析,未来可考虑结合时间序列进行远期预测创业板公司披露水平。由于创业板公司的内部风险与外部风险较为复杂,如何以更加精准、更具广泛应用性的衡量指标进行精确评估披露水平质量也是未来后续研究的方向。Z
 
 
【参考文献】
[1]        张秀敏,汪瑾,薛宇,李晓琳.语义分析方法在企业环境信息披露研究中的应用[J] .会计研究,2016,(01).
[2]       汪海粟,白江涛.创业板上市公司风险披露实证研究 [J].统计与决策,2013,(13).

文章刊登于《商业会计》2019年1月第2期

基于语义分析方法的创业板风险信息披露研究.pdf
 

 相关链接:

版权所有 © 2005-2016《商业会计》杂志 图文未经同意请勿转载 订阅管理 投稿管理
copyright © COMMERCIAL ACCOUNTING MAGAZINE All Rights Reserved
订阅热线:010-66095303(发行部)66095301(编辑部)66095331(传真)