首页>外贸资讯>正文
如何把公企数据和海关数据结合

腾道数据2021-03-17 16:36:59

。下面简要介绍我国工业企业数据库与海关数据库匹配合并的一些常用方法。后续国际经济贸易研究小组将向社区和朋友介绍海关数据库(2000年以后)。我国工业企业数据库和海关贸易数据库的使用概况在实证研究中,企业级和产品级微观数据越来越受到重视。数据是实证研究的基础,因此数据的质量直接决定了实证研究的质量。其中,中国工业企业数据库和海关贸易数据库已成为国内外学者研究中国企业在国际贸易中行为和绩效的主要数据库。他们的研究成果被广泛发表在国内著名学术期刊上,包括《经济研究》、《管理世界》、《经济学》(季刊:)、《世界经济》等。杨汝岱用两个数据库解释了中国‘
“区位地理与企业出口产品价格差异研究”中从区位地理角度分析s出口产品。越是偏远的地方,企业出口产品的价格越低,初步反映了我国出口产业的梯度分工模式。余淼杰在《企业出口强度与进口中间品贸易自由化:来自中国企业的实证研究》一文中,利用中国制造业企业数据和贸易数据,发现企业面临的中间品关税降低显著提高了企业的出口强度,即出口占销售的比重。戴密的《中国出口企业的生产率之谜:加工贸易的作用》一文,通过对2000-2006年企业-海关数据的分析,表明中国“出口企业生产率之谜”的存在完全是由中国大量的加工贸易企业造成的。此外,还有一系列的研究应用
中国工业企业数据库和海关贸易数据库得出了很好的结论。但是,合并企业层面的生产数据和产品层面的贸易数据会面临一定的技术问题。两套数据库的编码系统完全不同。企业数据库中的企业号为9位,而贸易数据库中的企业号为10位。这两个数据库很难匹配。而且两个数据库的原始数据存在样本匹配混乱、指标缺失、变量大小异常、横向误差明显、变量定义模糊等问题。本文介绍了合并两个数据库的几种方法,并对如何整理数据和剔除异常值给出了步骤和建议。二、两个数据库基本介绍(-)中国工业企业数据库基本介绍中国制造业企业数据库由国家统计局建立。其数据主要来源于样本企业向当地统计局提交的季度和年度报告。包括2000年至2006年每年约23万家制造业企业的生产资料。这组数据包括利润表、资产负债表和现金流量表三张会计报表,共计100多个会计变量。这组数据覆盖的企业GDP每年占中国工业总产值总量的95%左右。实际上,《中国统计年鉴》中的工业总数据就是从这组数据中总结出来的。数据包括两类企业,全部国有企业和年销售额500万元以上的非国有企业。企业数量从2000年的162,885家增加到2006年的301,961家。(二)海关贸易数据库基本情况海关贸易数据库包括产品级贸易月度数据2000年至2006年的行动。每个产品都有HS8位编码。产品数量从2000年1月的78个增加到2006年12月的230个。年平均观察次数从2000年的1000万次增加到2006年的1600万次。最终,这7年的观察总数约为118333831家,参与国际贸易的企业约为286819家。三、合并两个数据库的方法(-)按企业名称对接两个数据库按企业名称和年度匹配,在同一年度内两组数据有相同名称的视为同一企业。年份变量对于匹配很重要,因为一些企业在不同年份可能有不同的企业名称,新进入者可能采用其原来的名称的名称。《中国多产品出口企业及其产品范围:事实与说明》采用这种方法,是为了杜绝中间商。同时出现在海关数据库和工业企业数据库中的企业一定不是纯粹的中间商,所以剩下的样本都是排除中间商的。采用这一方法,2000年至2005年的企业数量分别为22631家、26038家、30629家、37103家、42259家和44136家。合并后的数据库企业出口额达到原海关数据中出口额的60%。这样,合并后的数据包括有出口行为的工业企业的进出口和附近企业的投入产出信息。两篇文章的匹配结果相同。(2)用邮政编码和电话号码标识企业。将企业的邮政编码与后7个电话号码进行匹配,因为在每个邮区,企业的号码是不一样的[加工贸易、企业生产率与关税减免--来自中国产品的数据]_文中采用了这种方法。经筛选,218024家企业的产品贸易数据(海关贸易数据)保持有效,占企业样本总数640352家的34%。同样,对于企业数据集,在排除邮政编码或电话号码无效的样本后,剩余的企业样本数为973207。如果继续按照以往的标准进行筛查,仍有433273家企业样本,占973207家企业的44.5%。在此基础上,文章对产品贸易数据和企业生产数据进行了归并。(3)用企业名称、邮政编码、电话号码进行匹配,然后收集到《企业出口强度与进口中间品贸易自由化:来自中国企业的实证研究》一文。第一,企业的名称和年份上升是匹配的。如果同一年的两组数据名称相同,则认为是同一企业。这样,如果利用原有的工业企业数据,可以匹配到83679家企业。如果我们使用筛选(根据《通用会计准则》CGAPP)中的规定),我们可以匹配69623家企业,第二种方法是将企业的邮政编码与后7个电话号码进行匹配,有些企业可能在工业库或海关库中没有报上自己的名字,同样,他们的邮政编码和电话号码可能只出现在一组数据中,为了确保我们能够匹配到分配给更多的企业,合并两种方法得到的数据。这样,90558家企业与原有工业企业数据匹配成功。经筛选(按《通用会计准则》(GAPP))为76,823家。(4)将企业名称拆分成几个字,用这些字在数据匹配上搜索匹配,首先每个企业的企业名称完全匹配,接下来在不会完全匹配的关仓企业中,根据贸易量,将每个企业的企业名称分成几个段,用这些段与产业库的企业名称进行搜索匹配。如果每个段都可以匹配,则分配匹配类型为“1”。如果只有部分段匹配,可根据匹配所需的精度,分步进行赋值。四、总结与建议从现有文献来看,两个数据库合并的主要方法有:1。按企业名称和年份匹配;2.将邮政编码与后7个电话号码匹配;3.将企业名称分成几个字进行匹配;4.代码表转换。由于第三种方法要求的匹配精度不易确定,而第四种方法的码表转换不完整,所以不建议使用。建议使用第一种和第二种方法来匹配获得的数据以采取并集。
 

对腾道数据感兴趣?
可以免费体验产品Demo

体验Demo