二、个人信息保护的对象
在进一步研究如何保护个人信息问题时,首先要厘清一些常见的概念,包括什么是数据、什么是信息、什么是个人数据、什么是个人信息、什么是隐私。搞清这些问题和概念,对于在保护个人利益的同时充分利用技术进步造福人类至关重要。
(一)数据与信息
从技术角度来看,数据(Data)是原始的事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物未经加工的原始素材(25)。在计算机科学中,数据是指所有能输入计算机并被计算机程序处理的符号的介质的总称,是以二进制信息单元0和1的形式表示、用于输入电子计算机进行处理的数字、字母、符号、语音、图形、图像和模拟量等的通称(26)。信息(Information)是为一定目的经加工、解释后的数据(27),数据本身没有意义,只有对数据进行加工处理后的结果且对人类具有一定意义时才成为信息。
在数据和信息的关系上,数据和信息是不可分离的,数据是信息的表达形式和载体,信息是数据的内涵。英国计算机专家保罗·贝农·戴维斯(Paul Beynon-Davies, 2002,2009)在区分数据和信息时指出,数据是一系列符号,而这些符号用于指代某些事物时信息就出现了(28)。同时,美国国防部防务技术信息中心(2013年)从情报决策实务角度总结数据、信息和知识间的关系认为,数据收集和分析的目的是为决策提供合适的信息,而知识则是就某个主体的信息处理经验的结晶,来自传感器等收集的原始数据(基本无用),以可以理解的形式被处理、挖掘后就成为信息(有用),经过与决策环境中的其他信息和经验结合提炼后信息进一步转化为知识(非常有用)和智慧(29)。相应地,建立了一个“数据—智慧”(Data, Information, Knowledge, Wisdom,DIKW)的金字塔,详见图1-3(30)。
图1-3 数据、信息、知识等构成的“数据—智慧”金字塔
例如,在第一层,我有一个物品,数据显示为1而不是0,这是数据层面。第二层,这是一个西红柿,这是一条信息,基于此我们可以理解物品及其特征。第三层,西红柿是水果,这是一条知识,基于此我们可以对相关信息进行归类。第四层,西红柿不要加到水果沙拉中去,这是一条智慧,这是一条事关该物品的潜在、普遍接受的原则。
由此可见,作为信息的一种表现形式和载体的数据,一直以客观化、匿名化的方式记录和储存在那里,人类将数据指代特定的人或事后就可以从数据中找出有意义的信息了。为什么目的、针对谁或何时去处理数据和提取信息,一定程度上决定了数据的处理方式、处理流程和处理结论。为了了解特定人、特定主体的目的进行的数据处理,和为了研究某一个现象、群体、规律进行的匿名化大数据处理,二者有着本质上的区别。
(二)个人数据、个人信息和隐私
第一,个人数据、个人信息指与“个人”相关的数据和信息。以上数据和信息的定义,我们可以进一步延伸到个人数据和个人信息的定义。尽管各国在立法和保护实践中,欧盟成员国采用个人数据的概念,亚太地区的日本、韩国等则采用个人信息的概念,但本质上都强调个人数据、信息是与已识别或可识别的自然人相关的所有数据和信息。例如,1980年《经合组织指南》、1995年《欧盟指令》和2016年《欧盟条例》中,都将个人数据(Personal Data)定义为与已识别或可识别的自然人相关的任何信息,其中,可识别自然人是指通过身份证号或与其独特的身体、生理、精神、经济、文化和社会身份中的一个或若干因素可以直接或间接识别的人(31)。另外,韩国《个人信息保护法》将个人信息(Personal Information)定义为关于某个自然人的信息,包括姓名、居民身份证号码、影像等能够识别个人(包括即使根据相应信息不能识别特定个人但与其他信息结合后易于识别的信息)的信息(32),也指与特定人相关联的、反映个体特征的具有可识别性的符号系统,包括个人身份、工作、家庭、财产、健康等各方面的信息(33)。
第二,特定到某个具体的“个人”的数据就是“这个特定个人”的个人信息了,个人数据近似等于个人信息。根据上文关于数据和信息的定义,个人数据和个人信息中“个人”的含义即与某个特定的个人相关。按照保罗·贝农·戴维斯“若这些符号(数据)用于指代某些事物时信息就出现了”的标准,由于原本客观、无指代性的“数据”,一旦特定到与某个人相关了,个人数据就出现了信息的含义,个人数据就是信息了,个人数据和个人信息的概念内涵也就趋同了。这也是为何诸如英国等国家的立法中,交叉并用个人数据和个人信息两个概念。如1990年《联合国个人资料保护指南》中,规章名称为“个人数据”,而第一部分第一条确定各国立法原则时则使用“个人信息”概念。《英国个人数据保护法》也在立法目的中指出是对个人信息的保护。美国商务部2000年公布的《美国—欧盟的隐私安全港原则与常见问题》中也将“个人数据”和“个人信息”混用。
为了了解在“个人”的语境下“数据”和“信息”的本质特征,我们通过一个例子可以看出个人数据和个人信息的侧重点略有不同。比如,“张三,35岁,男,交通银行,上海,50万元,10年”这是一些数据。而这些数据反映到人脑,人脑得到的内容是信息,大概是“张三是35岁男性,在上海从交通银行借款50万元,还款期限为10年”。尽管可以将以上数据中的“男”替换为“M”,“上海”替换为“SH”,“交通银行”替换为“BOCOM”,但表述的信息和第一个数据是一模一样的。从这个角度来看,个人数据侧重于客观的形式,不以数据反映的内容与人的互动为着眼点,而个人信息则侧重人的大脑形成的认识。“无数客观事物的信息,正是通过人的眼、耳、鼻、舌、身这五个器官传递给人们,经过人们的大脑进行去伪存真、去粗取精的加工”(34)。结合以上关于个人隐私、人格权的基础性分析,我们不难发现,这些不同形式的信息正是对个人(信息主体)进行形象塑造(Profiling)并影响个人的关键因素。
第三,大数据时代,个人隐私基本上以个人数据和信息的形式表示,保护个人隐私,必须保护个人信息,保护个人信息就是保护个人隐私与安全。在大数据时代,由于人类的社会生产、生活越来越线上化,计算机系统记录和储存了人们的身份、轨迹、行为、活动、特征等信息,许多是公民不愿公开或让他人知悉的个人秘密和个人隐私。我们之所以要保护个人信息(数据),正是由于以上关于个人的信息能对个人产生形象塑造的作用,通过信息社会(既可以是报纸等新闻传媒,也可以是互联网、物联网等信息科技领域)种种有关信息主体细枝末节的信息进行拼接和使用,可以勾勒出信息主体的剖面图(35),在信息空间塑造一个人的信息形象(36),构成与实际人格相似的数字人格,形成他人对个体人格的塑造(37)。但是,现实中,这种信息形象,可能与信息网络使用者的真实情况一致,也可能大相径庭,甚至是黑白颠倒,正是由于这些基于信息系统形成的对信息主体正面或负面的评价,既影响个人隐私、安全和形象,又通过影响外界对个人的判断和决策,反过来影响现实中个人的信息权利和行为,导致其交易的机会、人格的自由发展受到干扰,催生了信息社会保护个人信息这一核心议题。因此,信息时代信息的传播,意味着个人的隐私突破房屋等自然屏障可以传播,所以从保护自由和安全这一人类基本权利来看,保护隐私,即意味着保护个人信息。
第四,本书选择个人信息为研究对象。为建立统一的比较研究标杆,鉴于以下原因,在本书研究中,我们尝试以个人信息为一个通用型概念贯穿本书始终:一是指关于某个个人的所有数据,即个人信息都是我们的研究和保护对象,我们以信息为保护标的,并不是说数据不用保护了,只是为叙述方便,只要是关于个人的,无论数据还是信息,都必须保护。二是个人信息是一个上位概念,它在技术和载体上具有中立性,它包括但不限于以电子介质在内的各种媒介为载体和各种符合所表示的各种形式的个人信息,既包括诸如以文字、图像或照片等为符号或载体所包含的视觉信息,也包括听觉信息——人特有的声音,还包括各种嗅觉信息——特定气味,基因信息、指纹信息等,一切可以间接识别某一特定自然人身份的信息。三是个人信息的概念因通信和互联网技术的发展而起,特别是进入20世纪90年代,随着互联网技术的发展,人类社会进入信息时代后,个人信息概念和理念逐步深入人心。作为一个较为中性的概念,个人信息往往有很强的商业价值,大多数国家采取保护与利用并重的原则,平衡协调信息权利主体与信息收集、使用主体之间的关系。
(三)保护与特定个人相关的信息
第一,保护与某个可识别个人相关的信息。由于个人信息保护的是个人的自由与安全,所以,只有信息处理涉及或针对某个个人时才有针对个人的保护必要,为此,本书约定以下定义:个人信息是指可以识别到某个特定的自然人及与特定或可特定的自然人相关的信息。根据此定义,个人信息可以分为两大类:一类是可以识别或推断到某个人的信息,即标识信息,如姓名、身份证号、手机号、虹膜、指纹等、移动设备号、网络协议(IP)地址等;另一类是关于这个人的信息,例如这个人的身体特征、家庭、财务状况以及行为等。这一定义具有一般性。例如,我国《电信和互联网用户个人信息保护规定》中关于个人信息的定义,包括自然人用户的姓名、出生日期、身份证件号码、住址、电话号码、账号和密码等能够单独或者与其他信息结合识别个人的信息,以及用户使用服务的时间、地点等信息(38)。例如,欧盟(39)将个人数据(个人信息)定义为指任何与一个明确自然人或可识别自然人(数据主体)身份有关的信息(40)。经合组织在1980年的《关于隐私保护和个人数据跨境流动指南》中,定义个人数据为任何与可以或能够辨别出来某一个人有关的信息。《美国—欧盟的隐私安全港原则与常见问题》规定,个人信息是指关于某一特定人的数据或用于确定某个特定人的数据(41)。
第二,可识别身份(可特定到个人)是认定个人信息的关键。在界定个人信息时,无论是可以识别个人的信息,还是与特定人相关的信息,都强调信息对特定人的可识别性,包括可以直接识别(也称已经识别(42))和间接识别(也称可以识别)。一般而言,其中,能单独直接识别信息主体的有肖像、姓名、身份证号、社会保险号、电子邮件地址等身份识别信息,其他不能单独识别但可与其他信息结合才能间接识别身份的信息,如移动终端号、网络协议(IP)地址等。此外,以下关于这个人的信息,如性别、爱好、习惯、职业、收入、学历等行为信息也是个人信息,但是如果不“关于”某人时,就不是个人信息,尽管它可能产生于某个特定的个人。当然,个人信息的可识别要结合业务场景来确定(43)。例如,一般不具有识别性的员工编号、电脑编号、工位号、去身份匿名化后的代码(号)等,对于数据控制者而言,往往因具有可识别、可特定到个人的技术和信息条件而被认定为个人信息,但是对其他机构而言可能就不属个人信息的保护范畴。
需要特别指出的是,可以特定的对象不仅限于某个唯一的人,当可特定或联系到某个唯一的计算机等设备时,这些信息也属个人信息保护的范围,因为所有设备后面对应的仍然是一个或几个特定的人。这方面,美国联邦贸易委员会早在2012年的报告中就指出,(保护的)个人信息是指“所有商业机构收集的、可以合理关联到一个具体的消费者、计算机和其他设备的信息”(44)。
在这里,我们以一笔借款合同“2015年张三在北京向工商银行借款30万元用于购车并按期还款”为例,详细来看哪部分信息在什么情况下是关于谁的个人信息。
一方面,张三会通过申请表、提供借款材料等向银行提交以下几类信息:一是带有本人唯一或接近唯一标识的信息,如姓名、证件类型、证件号码、电话号码、家庭地址、电子邮箱、设备号等标识类信息。由于这些信息单独可以标识或联合可以标识某个具体的人,或者虽不指向具体的谁,但是指向唯一一个人,与这些标识串联起来的一系列特征、隐私、秘密、敏感性信息,以及针对该身份的信息处理与应用行为,是个人信息保护的核心。二是特征类信息,包括张三个人留下的其行为习惯(线上和线下)、社会属性等信息,如出生日期、性别、籍贯、学历、学位、职业、职务、身高、体重、血型、外形、婚姻状况。由于这些信息尽管是对张三的特征类信息,但是在一般情况下单独或联合在一起无法特定到张三身上,故而不应作为个人信息加以保护,但是一旦与标识类信息相联系后,或者在一定的环境下可特定到某张三或张三常用的计算机等设备时,就属于个人信息。极端的例子是,若不能指向或识别到某一个唯一的一个人,即便是“同性恋、犹太人、有精神病史”等敏感信息,因为不威胁一个人的安全和自由可以暂不作为个人信息保护之列。
同理,作为个人交易对象的机构身份标识类信息,如在本例中即工商银行的标识信息,包括机构名称、机构代码、税务登记号、工商注册号、法人代表、注册地址等,现实中这些信息一般作为机构的商业秘密。关于工商银行特征类信息,包括机构所属的行业、机构类型、地域、规模、业务类别、股东人数等。
另一方面,是个人和机构因为本次交易共同形成的信息,如张三和在工商银行借款形成的借款合同、借款用途、时间、金额、利息、到期日,以及应还款金额、实还款金额,逾期信息、账户状态、五级分类状况等交易类信息。从信息保护角度出发,尽管这些信息是因张三和工商银行而起,但是如果单独将这些信息拿出来,从利益侵害角度来看,并不会对张三的人格利益和工商银行的商业秘密等产生影响,为此,可以作为社会公共资源和财富进行开放利用,这是通常意义上的“匿名化”的信息,也是大数据为人类谋福祉的关键所在。但是,如果这些“匿名化”的交易信息与身份标识类信息关联,或者通过与特征类信息和其他内外部的信息相关联后,可以特定到某个人、计算机或其他设备上时,则这些信息必须受到个人信息和商业秘密的严格保护。
(四)确立“谁的信息谁做主”的保护理念
纵览欧美个人信息保护历史及现状我们不难发现,为了保护个人隐私、安全和自由,确保个人对本人信息的自决、自治和自由,建立“关于谁的信息归谁所有的”权属划分标准是个人信息保护的认识基础,并由此衍生出“谁的信息谁做主”的保护和处置理念,即凡是“谁”的——关于一个主体(包括自然人和法人)的信息归谁所有。如关于这个自然人的身份、特征、财产、行为、健康状况、爱好等信息,均归这个主体所有;关于多个主体的信息则为共同所有;无关任何主体的信息为社会共同财产。这里的“关于”既包括以身份标识等直接指向某一信息主体,也包括以各种方法分析后可近似指向某一主体的信息。结合上文例子,如果甲方为张三、乙方为工商银行,相关信息权属划分详见表1-1。
表1-1 甲乙两方交易中形成的信息属性分析