问卷录入  wenjuanluru.com

首页

问卷录入咨询:13671291988  QQ1号: 39539776  QQ2号:1492538315  邮箱:1492538315@qq.com

调查问卷录入流程的计算机优化

作者:复旦大学社会学系   转贴自:www.3see.com 


   调查问卷数据的编码、录入是问卷调查中极其不起眼的一个环节,以至于几乎所有的社会研究方法的教材中都只有寥寥几页来介绍它的实施方法,而且彼此大同小异,以至于缺乏足够的操作性。但调查问卷数据的编码录入却又是一个问卷调查中极其重要的环节,因为它是调查的结果向计算机的二进制数据转变的一个关键环节,如果处理不当,不但可能延长编码录入所需要的时间,而且有可能在这个环节上造成数据错误,降低调查的可信度和有效性。因此,保证高效率、低错误率的完成问卷数据的编码和录入工作便是一个调查顺利完成的必要条件了。
  然而,在很多从事问卷调查工作或研究的相关人士眼中,数据的编码和录入环节是一个机械的步骤,而不像诸如问卷设计、调查报告撰写等环节那样需要相当的知识积累,并且充满着艺术性。在理想的状态下,情况的确是如此,只有要足够的金钱和人力的投入,数据编码、录入的工作是可以在足够短的时间里毫无差错的完成的。但是在现实生活中,由于受到了经费和人力的限制,我们不可能以人海和钱海战术来提高效率、降低错误率。因此,
在经费、人力的局限条件下(这种情况下最好寻求专业的问卷录入公司比较好--编者注),如何在不增加大成本的投入的前提下通过优化编码录入流程的方法来提高效率、降低错误率便成为一个值得研究的问题了。在接下来,本文便将致力于通过计算机技术的利用来实现上述目的,并希望能够达到以下几点目标:
  1.降低录入的错误率,提高录入效率。除了通过改善工作环境来提高编码、录入工作的正确率以外,本文同样希望能够通过分析研究,借助计算机技术在编码录入阶段避免错误的产生,同时在事后能够提供强大而且方便的纠错查找和校验手段。
  2.降低对于登录员、录入员的要求。在一项问卷调查中,一般必须要对登录员、录入员进行时间不短的必要培训以使其能够按照调查的要求完成工作(对登录员还需要配以必要的编码手册),而在要求严格的商业调查中,登录员甚至都需要通过相关的考核。而对登录员、录入员的高要求也就意味着整个问卷调查成本的提高。本文希望能够通过分析研究,借助计算机技术降低对于登录员、录入员的要求(理想目标是将登录员和录入员合而为一),缩短对于登录员、录入员的培训时间。
  3.改善登录员、录入员的工作环境。编码及录入过程是一个极其枯燥的过程,长时间的编码、录入工作很容易导致相关工作人员的心理烦躁,进而影响编码、录入工作的速度和正确率。本文希望能够通过分析研究,借助计算机技术改善登录员、录入员的工作环境,进而提高工作速度和正确率。
  4.提供多种数据格式输出的解决方案。在数据分析的阶段里,国内较多使用的统计软件便有SPSSSASSTATAMINITABQUANTUM等多种统计软件,如果能够借助相关的计算机技术输出尽可能多的数据格式,以方面之后的数据分析同样也是本文的目标之一。
传统的数据编码、录入环节
  正如本文开头所述,在国内的诸多社会研究方法教材中,对于数据编码、录入环节的介绍大同小异,因此本文便引用高等教育出版社出版袁方主编的《社会调查原理与方法》一书中的相关章节来介绍传统的问卷调查数据的相关步骤。在袁方的书中,资料的电子计算机汇总大致分成四个步骤:编码、登陆、录入和程序编制。除了最后一个程序编制环节现在一般已经由事先编制完成的统计软件完成外,其他的三个环节还是在被应用在目前较多的问卷调查中的。对于这三个环节,袁方是这样介绍的:
(一)编码
  编码是将问卷中的信息数字化,转换成统计软件和统计程序能够识别的数字,这项工作是一种信息代换的过程。编码工作主要是建立编码手册,编码手册纪录着每一个数字所表示的实际意义,它相当于打电报的密码手册。调查者要根据它将问卷调查资料转换成能够统计、计算的数字、录入计算机,然后再根据它将计算机整理出来的结果转换成我们能阅读的文字。
(二)登录
  登录是将编好码的问卷资料过录到资料卡片上去,以便于将它们录入到计算机的磁带、软盘或硬盘上去。登录是一项简单工作,但要耐心细致,要保证资料全息转换不出差错。
(三)录入
  录入是将登录在资料卡片上的数据录入到计算机的存储设备(磁带、软盘、硬盘)上,其工作性质同登录相同。所不同的是登陆的操作是在资料卡片上进行,录入是在计算机的终端上进行。一般来说在完成了这项工作后原始资料就可以束之高阁了。只要有编码手册、资料卡片或磁带、磁盘就能再现原始资料。……
  对于上面的介绍,我们首先不在细节上分析整个流程的问题(这将是下面重要内容),光光是从大局来看我们便很容易就可以发现整个流程一个根本的问题——没有充分的利用计算机。随着计算机软件硬件的不断发展,计算速度越来越快、界面越来越友好,计算机能够辅助我们干的事情也就越来越多了。可能是传统的问卷数据编码录入过程中,计算机始终扮演着一个简单的录入工具的作用,而大量本来最合适计算机的高强度机械工作却留给了登录员和录入员。在这样的工作分配下,编码和录入的效率是不可能有大幅度的提高,而人面对高强度机械工作必然会产生的状态下降情况也必然会影响编码和录入的效率。因此,在下面的分析部分中,在充分发现传统流程弊端的前提下重新定位计算机所应当扮演的角色,尽量让计算机分担高强度、机械工作,便成为重中之重。

                                      
传统方法的问题
  按照袁方一书的定义,编码是一种信息代换的过程,也就是按照一定的规则将原始的信息映射成计算机可以接受的数字信息。虽然编码的定义相当简单,但是实际上在操作过程中却远远没有那么简单,经常会出现这样那样的问题,下边将结合具体的事例(如果不加说明,本文中所有的事例均取自复旦大学社会学系《浦东新区社会发展调查问卷》)进行分析。
  常见问题一:伪文字内容转换成数字选项的效率低下。在一份调查问卷中,除了少数的开放式文字题以外,实际上还有不少伪文字题出现。比如在问卷卡一中的第4文化程度提供了8个选择项,第5您的职业提供了12个选择项,属于标准的封闭式选择题。而问卷卡一中的第17您父亲的职业是____文化程度是____”表面上看上去是开放式的文字题,但实际上是和前面两题同类型的选择题,而且共享同样的选择项。只不过因为选择项占用过多的问卷幅面,基于节省问卷篇幅的考虑而是以文字题的形式表现。这些题目在访问员访问的时候应该参照前面填入相关的编号,但是由于访问员或者方法的问题,实际填入的往往是文字。对于这些题首先要根据填写的内容在前两题中找出对应的选择项,然后再进行登陆。从问卷设计的角度来看,上述提到的处理方式的确可以起到缩短问卷篇幅,提高访问者回答的意愿,但是从编码上来看,却给登录员带来了额外的工作,要么将所有的选择项全部背出来,要么反复察看问卷前面的选择项,而前者可能因为记忆错误带来额外的编码错误,后者则必然因为反复察看延长编码的时间,降低编码的速度。
  常见问题二:高位补零。在编码的过程中,我们一般使用的都是固定长度的编码表(栏),对于某一题所占用的编码长度都事先有所规定。如果本题填写内容没有使用到事先规定的编码长度,那么就需要在高位补零。如问卷卡一中的第2题出生年月:19____,本题一共占用第12至第15共四个编码列,分别是年两个,月两个。在处理月份的编码时,由于有的月份是一位数,有的月份是两位数,所以在处理一位数月份的时候就需要在高位补一个零。比如问卷填写的是9月,那么在编码时就需要编码为09。在实际的操作中来看,高位补零是一项执行起来效率比较低的工作。除了必须填写大量不表示任何信息的0数字信息外,在登陆的过程中还需要随时留意在需要的地方补零,而这同样也会降低效率。而且如果登录员使用的是简单的编码表或者问卷边上的编码栏没有清楚的标明编码长度的话,登录员很容易忘记补零,使接下来的信息被编在错误的编码列中。
  常见问题三:处理缺填选项。由于种种原因(如访问员不尽责任、被调查者因为隐私问题拒绝回答),在调查问卷中往往会出现一些没有填写的调查项。对于这些缺填的选项,登陆工作同样需要进行。对于此部分工作,在袁方一书中有详细的规则介绍,这里就直接引用。给无回答答案的编码最常用的是0,对需要不指一个格的可以重复所给的数字(如00或000);给不知道答案的编码常为9或99,999。对大多数问题上述方法是可行的,因为指派数字往往从1开始,又很难超过9,所以让无回答为0,不知道为9很方便,但对少数问题,0和9两者均可能是被回答的问题本身所需要的数字(如家庭中子女的数目),在这种情况下,无回答不知道的编码必须是在经验上绝不会出现的数字(例如99,98;因为子女数目决不会有那么多)。这样往往在编码时要多增加1个格,如问家庭的子女数目,要占两格,如果回答有3个孩子,在登陆时要写03(高位空格补0);无回答的编码为99,不知道编码为98。而在实际的处理过程中,最麻烦的就是对于不同的题目缺填选项有不同的映射规则。比如问卷卡一中的第8题您或您的祖辈搬迁到浦东来居住已经__,本题编码列为28-30共3列,本题对于缺省项可以使用000或者999处理,因为既然是在浦东接受访问的浦东居民那么在浦东居住的年份必然不可能是0年,而且从经验上来看浦东这块土地成型不过百年,居住的年份不可能为999年,因为用000和999都可以表示缺填。但是问卷卡一的第14题如果您已结婚,那么您有几个子女?__,本题中可以用9来作为缺填的选项,因为经验上目前家庭几乎不可能出现拥有9个子女的情况,但是没有子女而需要用0来表示的情况却经常可见。又如问卷卡七第93题,您目前的月收入状况:(1)基本工资___元;(2)各种补贴___元;(3)奖金___,本题第三小题奖金一项共占用18-20共三个编码列。在处理此题缺填情况的时候,一般就必须使用999来表示。因为被访人很有可能没有任何月奖金收入,填写的的确是0,在编码时需要用000表示。而从经验上来看,一个人的奖金收入恰巧是999元的可能性很小,因此可以用999来表示缺填的情况。上面的三个例子便可以发现在实际的编码过程中如何处理缺填项是一件极其复杂的事情,编码人员必须随时警惕才能够在不同的调查项中使用不同的映射规则来正确的完成编码工作。
  常见问题四:相倚问题的处理。按照袁方一书的说法,在设计问题时,常常遇到这样的情况,有的问题只适用于一部分被调查对象。而一个被调查者是否需要回答这一问题,常常依据它对于该问题前的另一个问题的回来来定……我们通常把前一个问题叫做过滤性问题或筛选性问题,而把后一问题叫做相倚问题。从某种程度上来说,对于相倚问题的处理实际上和映射规则五中处理缺填选项是大同小异的,因为相倚问题的过滤性问题必然带来大量漏填的问题,比如问卷卡四第42X小题您是否知道上海市政府制定的七不规范’”?,如果你的选择是(1)知道,那么就需要回答下边的七道题目您已经做到了哪几条?,但如果你的选择是(2)知道一部分或者(3)不知道(虽然发生这种情况的机会很小,但的确会有发生的可能),那么刚才的七道题目就无需回答了。而在登陆的时候就仍旧需要把这七道题目进行登陆。上文已经说过处理缺填选项有时候是一件相当麻烦的事情,而当遇到相倚问题的时候却不得不面对大量的缺填选项,处理的难度可见一斑,可想而知,在处理这部分内容的编码时,效率和正确率可想而知。
  常见问题五:错输漏输数据。登录和录入是两个极其机械的环节,而且在录入所有的编码时,由于整个编码一般比较长(对于一些大型的调查更是如此,虽然很多大型调查将问卷分成了多个编码卡来处理,比如《浦东新区社会发展调查问卷》便将整个问卷分成了8张编码卡,但即使这样每张卡的编码长度仍旧比较长,比如卡一的编码长度是55,卡二的编码长度是74,卡三的编码长度是78,卡四的编码长度是80,卡五的编码长度是78,卡六的编码长度是80,卡七的编码长度是80,卡八的编码长度是60),因此在登录录入的环节中无论登录员录入员工作是多么的耐心细致,但是出现错误便是在所难免的。
  以上便是笔者总结归纳的传统过程中的几个常见问题,同时总结了可能降低效率或者带来错误的地方。在目前绝大多数的问卷调查中,以上六条映射规则都是由人工来执行的,因此下面我们所要做的就是结合现有的计算机技术,对于计算机在编码过程中的作用重新定位,看看计算机在提高效率降低错误率上究竟可以做些什么。

                                     
计算机优化的思路
  先来看问题一:文字内容转换成数字选项。对于登录员来说最大的困难便是必须记忆或者反复察看问卷前半部分以便知道所填写文字所对应的编码项。而这个过程完全可以由计算机来代替,一来利用计算机强大的存储功能,只需要实现把所有的文字对应编码项全部实现录入电脑,计算机便可以立即而且是随时给出相关的信息,而不像登录员必须有一个漫长的记忆过程;二来由于计算机是在数据库中读取文字对应的编码项,因此几乎不可能出现错误发生的可能,而不像登录员很容易出现记忆错误而导致编码的错误。因此笔者认为,这个过程完全可以由计算机来代替,登录员只需要在计算机中选择需要的文字,然后由计算机配对进而输出对应的编码项。
  接着再来看问题二:高位补零。人工处理的时候困难主要在于很容易忘记执行这条规则,造成编码长度不正确的问题。而且从这条映射规则出现的原因来看,只是为了保证计算机能够正确识别信息而制定的由人适应电脑的规则。由人适应电脑的初衷本来违背了本文由计算机代替人工进行机械繁琐工作的原则,因此笔者认为与其保留这个步骤给登录员代来麻烦,不如索性废除这条映射规则。只需要能够告诉计算机问卷中每一道题目的内容已经录入完毕,由计算机自动处理进行下一题的录入,这样就不需要随时记住额外的录入大量的零,给登录员造成困惑。
  然后再来看问题三:处理缺填选项。这条规则对于登录员而言是最为麻烦,因为必须随时面对不同的处理方案。但是从计算机处理的角度来看,其实记忆那么多的处理方案完全不必要由登录员来完成,完全可以交由计算机来完成,而登录员所需要做的只是告诉计算机本项缺填,至于缺填之后应该对应的编什么样的码,那么就是计算机的工作了。
  继续看问题四:相倚问题的处理。正如前面所说的,相倚问题的处理很大程度上就类似于处理大量的缺填规则。所以就像我们用计算机来处理缺省规则五的方案那样,具体的缺选项究竟应该编什么码肯定将继续由计算机来代劳。除此之外,计算机还有什么可以代劳的呢?我们可以发现,如果一道筛选问题带来的是跳过多道甚至大量的题目,登录员仍旧需要一道一道的告诉计算机这些题目均为缺填,这仍然是一件麻烦的事情。因此我们更希望计算机能够自动判断筛选问题,如果需要跳过大量题目的话,那么由计算机自动将所有跳过的选项都按照缺填的方法来处理,这样可以避免登录员的无效录入,有效的提高编码效率。
  最后问题五:既然录入时的错误是在所难免的,那么我们应当做的就应当是利用计算机把这个错误发生的可能降低到最小。首先,我们在录入的过程中就要避免录入错误。计算机应当能够一发现可能的录入错误立刻提示录入员,防患于未然。计算机不是万能的,它当然不可能完全的就在录入过程中发现错误所在,但是对于某些明显的录入错误,它还是有可能发现的。仍旧以《浦东新区社会发展调查问卷》为例,问卷卡一第1题您的性别:(1)男 (2)女,对应的编码列是第11列。它可能的编码只是1或者2,如果出现1、2以外的编码,那么显然是出现了登录或者录入的错误。计算机对于这样的错误,通过事先设定的校验规则,完全是可以事先找出。其次,当录入完成后发现多录入或者少数入了数据之后,如何能够快速的进行查找。对于查错,一般而言二分法或者黄金分割法都是用来处理数据查错较好解决方案(具体的实施方法请参见相关资料),但是要利用二分法或者黄金分割法来进行差错,有两个必要的前提:一、能够准确快速的定位任何一个编码列;二、快速的找出特定编码列对应的问卷答题项,以便两者进行对比确定是否出现错误。而在传统的登录录入过程中要做到这两点缺是相当困难,对于第一个前提,在编码表上固然可以增加竖向的列号,但是在录入到计算机时,一般采用的文本编辑软件都缺乏相应的编码列号;而第二点,则必须在知道编码列号之后再查找问卷以确定相应的题目,速度较慢。因此如何利用计算机来更好的解决这两个问题,便是我们下文所要仔细解决的问题了
  以上便是笔者对于计算机优化的简单分析,当然上面讨论的仍旧只停留在一个思路的阶段,至于具体怎样通过计算机来实现,并且是最好的实现,那便是本文后半部分的事情了。

                             
常用的计算机优化方法的分析
  对于上述的分析,相关的社会调查、市场调查人士多少早已有所认识,因此已经有了一些通过计算机优化的方法,方法的具体操作方法很多,不过如果从实现原理上来看,大致有3种。而这三种计算机的优化方法有一个共同的特点:将编码、登录、录入的过程融为一体,登录员在脑中完成编码过程后便直接录入计算机,跳过登录和录入的过程。国内的一些调查研究书中都没有提到,但是在艾尔·巴比的《社会研究方法》中提到了此种方法的可行性,假使搜集到的问卷资料已经整理的非常完备了,你们就可以直接将这些资料录入到电脑中,而不必要再用另外的编码表甚至是连页缘编码也不用。
  第一种:利用非固定字段长度的数据库(或者类似产品)。在很多小型的问卷调查中,我们会发现很多调查的问卷编码录入过程是利用EXCEL这样的无固定长度数据库产品来完成的,每一道题目占用EXCEL的一个表格列,登录员每录入完一道题目,按下TAB按钮,进入下一题的录入。这种录入方法的改进不大,主要是提高的查错的方便性。利用EXCEL的单元格标记和表格头,可以快速的进行查错。但是这种方法有一个致命的缺点,那就是带来了很多的额外工作——必须利用TAB键来表明题目之间的分割,如果遇到题目众多而每一个小题编码列教短的情况的话,那么增加的额外工作是很明显的。还是以《浦东新区社会发展调查问卷》为例,此问卷共有需要编码的题目289题(以问卷旁的编码列行数计算),总编码长度为585,如果采用传统的录入方法需要击键586次(585个编码数字+1个分行符表示问卷结束),而采用这种优化方法,总共需要击键874键(585个编码数字+1个分行符表示问卷结束+288TAB分隔符号表示题目技术),比原来的录入方法多击键49.15%,差错便利性随之带来的录入内容冗长十分明显。经常容易造成在查错上节省的时间远远比不上多击键的时间,优化方法反而起不到优化的作用,因此一般除了小型调查外,较少采用这种优化方法。
  第二种:利用固定字段长度的数据库(或者类似产品)。这种方法实际上是对上面一种优化方法的再次优化,针对额外需要录入的TAB分隔符进行了改进。至于改进方法就是不使用EXCEL这样的非固定字段长度的数据库(或者类似产品),而是使用诸如FOXBASEFOXPRO这样的固定字段长度的数据库(或者类似产品)。只需要实现设定好每一题的编码长度,以后在编码录入的时候只要录入完相应的编码,系统便会自动跳到下一题的录入,免去了大量徒劳的TAB按键,提高了效率。不过这种方法同样只能够在时候差错上有一些优化,其他的优化作用几乎没有。
  第三种:自编程序法。这种优化方法较少看到有人采用,但是去不能否认这是最完善的解决方案。所谓自编程序法就是请专门的程序员编制出针对特定问卷的录入软件,在程序编制的过程中就把事先设想好的优化方法全部做到相应的软件中去。利用这样的软件进行录入优化程度是最高的,几乎可以完成上文中提到的所有的优化思路,在给录入工作带来极大便利的同时还可以大大提高准确性。但是,这种方法的优化程度高是以牺牲通用性为代价的,为每一份问卷的录入都必须要编写一个特定的程序,不但因此必须付出额外而且是高昂的编制费用,而且每换一份问卷就必须重新编写一次,可复用程度很低。而且如果需要诸如两遍录入校验或者网络协同录入等功能的时候,程序编制的难度会急剧增加,随之而来的就是费用的急剧增加。一般而言除非经费十分宽裕,否则不会采用这种方法。
  以上简单介绍了现在经常采用的三种优化方法,我们会发现他们虽然有优点,但是缺点更多。
  但是我们从上述的三种方法里,可以大致的看出一个优化的思路来,一个理想的计算机优化方案应该具有以下几个特性:
  1.所用软件的廉价性。如果需要额外指出大笔费用购置相应软件,这对于绝大多数调查来说是不可能的。所以我们希望解决方案中涉及的软件价格最好相对较低,甚至免费更好。
  2.按题录入,同时自动处理题与题的间隔。也就是像上文说的优化方法二中的软件那样利用事先设定的题目编码长度就可以自动识别题与题的间隔。
  3.录入时即提供基本的查错功能,能够处理诸如仅涉及(1)男(2)女的编码项中出现3或者0的情况
  4.提供良好的编码提示。遇到诸如文字转化为相应编码项的题目,能够在登录员需要的时候弹出选择项供登录员选择。
  5.对于相倚问题的自动跳过。
  6.支持双录入,并提供完善的双录入 查错功能,将可能的录入错误降到最低。                               

点此处回首页

本站关键词: 问卷录入

copyright©易通数据 京ICP备09025028号-4 京公网安备110108006538号工信部备案

友情链接:  录入公司   数据录入   北京录入   图书录入   北京数据外包