首页 / 文章发布 / 君合法评 / 君合法评详情

结合《反不正当竞争法》修订看数据抓取的变化、发展和应对

2025.03.18 祁达 马钦奕 林泓岚

近年来,随着数据成为数字经济时代的核心生产要素,数据抓取行为的法律边界逐渐成为争议焦点。由于数据抓取行为在实践中广泛且普遍存在,且其抓取方式也在日益更新变化,并且在相当一部分情况下,经营者之间存在互相抓取对方数据的行为,这就意味着,今天的数据方,可能明天就是抓取方(反之亦然)。对于抓取行为本身的边界,有的经营者会采取相对容忍的态度(因为自身也存在抓取行为),有的则会采取激进的应对和反制措施,针对两者之间的界限,作为享有数据一方的Robots协议应该如何设计从而保护其针对数据的合法权益,作为抓取一方又该如何注意抓取过程中的合法边界以避免被认定违法?


此外,在数据抓取的过程中,对于公开数据的抓取,是否一定不构成违法,亦或者在何种情况下可能构成违法?这也是在理论和实践层面经常会被探讨的问题。有些经营者认为,只要是公开信息,任何抓取行为都是合法有效的,这一点在理论和实务界又该会被如何看待?


再次,在数据抓取纠纷中,司法机关对不同产品模式的竞争行为评价存在显著差异。这种差异源于互联网生态的多样性以及不同业务场景的公共利益差异。实践中作为数据权利方和抓取方又该注意哪些问题呢?


2024年12月25日,全国人民代表大会常务委员会发布了《中华人民共和国反不正当竞争法(修订草案)》(以下简称“《反不正当竞争法(修订草案)》”),其中第十三条第二款第(四)项即为“数据保护”专条。结合《反不正当竞争法(修订草案)》的颁布以及即将正式生效,本文结合笔者处理数据抓取案件有关的实践经验,通过论述数据抓取的现有法律规制路径以及上述司法实践中的三大争议问题,结合《反不正当竞争法(修订草案)》,分析数据抓取领域的变化趋势及企业应对策略。


一、数据抓取的现有法律规制路径


数据抓取行为作为互联网领域的重要技术手段,其合法性边界涉及多部法律法规的规制,包括《中华人民共和国反不正当竞争法》(以下简称“《反不正当竞争法》”)第二条“一般条款”、第十二条“互联网专条”、第九条商业秘密保护条款、《网络反不正当竞争暂行规定》以及《著作权法》等多部法律法规。根据我们对司法裁判案例的观察,法院多援引《反不正当竞争法》第二条以及第十二条作出裁判,其中第二条“一般条款”的适用概率明显高于第十二条“互联网专条”。


1、《反不正当竞争法》一般条款(第二条第1款和第2款)


根据《反不正当竞争法》第二条,“经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。本法所称的不正当竞争行为,是指经营者在生产经营活动中,违反本法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为。”根据《反不正当竞争法司法解释》第三条,商业道德指的是“特定商业领域普遍遵循和认可的行为规范”,法院在认定市场主体是否违反商业道德时,可参考“行业主管部门、行业协会或者自律组织制定的从业规范、技术规范、自律公约等。”实践中有法院认为,Robots协议是互联网行业公认商业道德的具体体现,也是互联网行业在生产经营活动中遵守诚信原则的具体表现。1


2、《反不正当竞争法》互联网专条(第十二条第2款第4项)


根据《反不正当竞争法》第十二条第2款第4项,“经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。”


数据抓取行为可能构成前述条款所规定的“妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为”,如数据抓取方通过技术手段规避或破坏数据持有者设置的反爬虫措施进行数据抓取,该等措施通常包括破坏网站设置的身份认证系统、用户登录系统等。


3、《网络反不正当竞争暂行规定》第十九条


《网络反不正当竞争暂行规定》第十九条规定,“经营者不得利用技术手段,非法获取、使用其他经营者合法持有的数据,妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行,扰乱市场公平竞争秩序。”前述条款在《反不正当竞争法》互联网专条的基础上,对不当数据爬取行为构成不正当竞争行为作出了更为明确的规定。实践中,大规模、高频次地抓取数据可能导致其他经营者的服务器负载过重,妨碍其他经营者合法提供网络产品或服务。


4、其他法律法规


不当数据抓取行为除了可能构成前述条款所规定的不正当竞争行为以外,还可能违反《反不正当竞争法》第九条第1款“经营者不得实施下列侵犯商业秘密的行为:(一)以盗窃、贿赂、欺诈、胁迫、电子侵入或者其他不正当手段获取权利人的商业秘密”的规定,被认定为以“电子侵入或其他不正当授权”获取数据权利方的商业秘密。但若抓取的是公开数据,则不涉及侵犯商业秘密的不正当竞争行为。


此外,若所抓取的数据构成《中华人民共和国著作权法》所保护的作品的,数据抓取行为还可能构成著作权侵权。


二、数据抓取案件实践中的三大争议问题


违反Robots协议是否必然或较大可能构成不正当竞争?


Robots协议(全称Robots Exclusion Protocol,即爬虫协议),是指网站所有者置于网站根目录下的文本文件,告知网络爬虫软件可以/不得抓取的数据范围。随着网络爬虫和数据抓取行为在互联网生态中的广泛应用,Robots协议在数据抓取行为中的法律地位和作用逐渐成为争议焦点。Robots协议频繁被数据方采用,作为对外禁止爬虫的法律文本。一个核心问题是:违反Robots协议的抓取是否必然或较大可能构成不正当竞争行为?


1、司法实践现状


当前司法实践中,法院对违反Robots协议的行为是否构成不正当竞争存在不同倾向:


(1)肯定立场:部分判决认为违反Robots协议直接构成不正当竞争或属于判定不正当竞争的重要理由:


  • Robots协议是行业内公认商业道德和行为标准的体现:在(2013)一中民初字第2668号案件中,法院认为Robots协议是目前国内外互联网行业普遍推行并遵守的技术规范,是行业内公认商业道德和行为标准的体现。整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。

  • Robots协议是网站自主经营权的体现:在(2021)京民终281号案件中,法院认为Robots协议在某种意义上已经成为维系企业核心竞争力,维系市场有序竞争的一种手段。尽管Robots协议客观上可能造成对某个或某些经营者的‘歧视’,但在不损害消费者利益、不损害公共利益、不损害竞争秩序的情况下,应当允许网站经营者通过Robots协议对其他网络机器人的抓取进行限制,这是网站经营者经营自主权的一种体现。


(2)折中立场(综合判断):多数法院倾向于以《反不正当竞争法》第二条(诚信原则)为审查框架,结合协议合理性、数据性质、竞争秩序等因素综合判断。部分判决指出,Robots协议仅是技术规范/商业宣誓而非法律义务,需结合行为目的和后果综合判断,抓取行为本身是否违反了反法第二条第二款的规定。例如,(2019)川01民初5468号案中,法院认为,“即使本案中A公司设置Robots协议设置具有一定合理性,但由于互联网环境的特殊性以及互联互通的要求,因此即使本案B公司违反A公司的设置抓取其数据信息,也不当然意味着B公司的行为有不正当性,法院还需要通过评判B公司的行为本身是否违反了反法第二条第二款的规定,来最终予以判定。”又如,(2021)京民终281号,法院认为,“对于网站经营者通过Robots协议限制其他网站网络机器人抓取的行为,不应作为一种互联网经营模式进行绝对化的合法性判断,而应结合Robots协议设置方与被限制方所处的经营领域和经营内容、被限制的网络机器人应用场景、Robots协议的设置对其他经营者、消费者以及竞争秩序的影响等多种因素进行综合判断。


(3)否定立场:一些法院出于公共利益的考量,认为区别对待的Robots协议,有违公平竞争原则。(2017)京民终487号案件中,法院认为,设定区别对待的Robots协议与互联网发展普遍遵循的开放、平等、协作、分享原则不符,若任由其发展,可能导致同行业经营者的效仿,将使原本遵循互联、互通、共享、开放精神的互联网变成信息相互隔绝、无法自由流动的信息“孤岛”,将有碍互联网功能的正常发挥,对互联网竞争秩序造成破坏,从而有损社会公共利益。


基于上述,尽管我们认为有必要对Robots协议是否正当、合理进行判断,但我们也关注到虽然违反Robots协议不等同于构成不正当竞争,但不少法院仍倾向于将违反Robots协议视为不正当竞争的判断因素,即使设置Robots协议本身具有不正当性、不合理性,也可能影响违反Robots协议爬取数据行为的正当性判断。因此,从主流司法实践看,违反Robots协议仍对案件的走向会有较大负面影响。


2、数据权利方和抓取方的各自注意事项


从Robots协议设置的原理来看,其本质上是一种技术约定,其内容由数据方单方设定,用于向爬虫程序表达其资源抓取的偏好或限制。我们认为,不宜机械认定违反Robots协议即构成不正当竞争,也不宜将其作为过于核心的判断因素,需要考虑Robots协议制定的合理性、数据本身的性质等因素进行判断。由于经营者之间存在互相抓取对方数据的行为,这就意味着数据权利方和抓取方可能会存在角色互换的可能。在实际的数据抓取过程中,针对Robots协议本身,数据权利方和抓取方站在各自立场应当注意以下问题:


数据权利方

(1)制定范围合理的Robots协议:例如,仅禁止恶意爬虫抓取核心数据(如涉及核心商业模式、竞争利益、用户隐私信息)的Robots协议更易被认可,而全面禁止抓取全部网页信息的协议可能反而涉嫌过度保护从而被质疑其合理性。因此,数据权利方应制定范围合理的Robots协议以区分核心数据与公开数据,而非“一刀切”地将网站全部信息都设定为禁止抓取(此等设定可能反而对自身不利);

(2)公开/保留合理性依据:可通过适当的方式(例如通过白皮书等方式)说明Robots协议的合理性理由。另外,企业内部设定Robots协议时,如有关于合理性论证的记录,也建议保留;

(3)数据公共属性:若涉及公共数据,例如天气预报、政府公开信息等公共数据,即便Robots协议禁止抓取,抓取方仍可能基于公共利益主张合法性。但是,也要注意该等抓取行为是否出于公共利益考虑还是用于商业用途。


数据抓取方

(1)优先遵守协议:在进行抓取行为之前,爬虫程序应核查目标网站的Robots协议内容。在多数情况下,应优先尊重和遵守Robots协议,避免潜在法律风险;

(2)特殊情形个案考察:若存在前文提及的特殊情形(数据具有公共属性、协议不合理)等,建议在抓取前也先进行相关领域的案例研判以及法律论证,了解行业实践的整体情况及相对合规的操作方式;

(3)实践中,数据抓取方往往会通过第三方(或其关联公司)进行数据抓取,目的是为了降低自身风险,但是,第三方和数据抓取方仍然不能避免进行抓取数据之间提供和交付,抓取方应特别注意和第三方之间的数据抓取协议、数据提供协议的条款起草和准备,从而降低风险。


公开数据的抓取在何种情况下构成违法?


1、司法实践现状


司法实践中,法院通常不会直接认可被告方提出的“抓取公开数据”抗辩,而是基于公开数据的属性、“实质性替代”原则、是否对网站运营发生负面影响等判断是否构成不正当竞争。事实上,大量案例中,被告抓取的均是原告/用户已公开数据,但法院仍认定构成侵权,法院的理由也各不相同。举例而言:


案件

公开数据及使用类型

法院核心理由

(2023)浙民终1113号

购物网站商品信息;被告抓取该等信息并可实现于另一平台上架的功能

本案涉案软件运用技术实施商品复制和搬运的行为并不构成创新性竞争,其主观上明显具有侵权意图,客观上未获得商家、平台的合法授权,采用突破淘某软件公司、A平台技术措施的手段,其运用技术系用于实施侵权。损害了A平台基于商品数据积累所建立的经营优势

(2023)沪0114民初13000号

平台UP主粉丝数、关注数,UP主作品播放数、点赞数等;将涉案数据汇总后提供给网络用户

对于A公司在A平台提供无差别对待的公开数据,基于互联互通、信息共享的互联网本质,A公司对于他人的正常处理和竞争行为负有容忍义务,但其他经营者如以违反商业道德等方式获取和使用相关数据,扰乱市场正常竞争秩序,实质性妨碍某某A公司相关网络服务正常运行的,对该行为仍应给予否定评价。

尽管该些信息已经在B平台公开,但是个人信息主体对信息传播控制的权益显然高于平台或经营主体基于已合法公开的个人信息流通利用所产生的财产权益。

(2019)京73民终3789号

平台用户博文;抓取数据,为终端客户提供舆情监测服务

在不通过技术手段破坏或者绕开A公司所作的技术限制的情况下,无法实现B公司所宣称的XX系统所具有的功能。

(2021)沪0110民初3349号

整合后的药品信息;用于同样功能供用户查看

此类信息经过人工收集、整合,并作为后台数据可供软件用户进行查询后,就能凭借其药品种类的多样性、获得方式的便捷性,而使得该软件具有竞争优势,故原告软件中的药品说明书数据库能为原告带来现实或潜在的市场利益。被告的行为侵害了原告对此享有的经济利益及市场竞争优势,构成不正当竞争。


首先,公开数据不涉及商业秘密问题,因此不会涉及商业秘密侵权,也不存在抓取商业秘密场景下的直接“不当性”。并且,由于数据本身就可以公开获取,在判断其正当性时法院可能会更多考量其他因素。


如前述司法实践总结,大量案例中,被告抓取的均是原告/用户已公开数据,但法院仍认定构成侵权,我们认为核心主要是:(1)是否出现了“实质性替代”,例如功能同质化、市场分流显著(如,某点评网站和搜索引擎之间的不正当竞争诉讼案);(2)是否存在重大利益失衡,例如原平台投入高额成本、长期经营收集数据,但抓取平台仅需低成本就可以大量复制利用(如,某电商平台和某信息科技公司的不正当竞争诉讼案);(3)技术手段的正当性,例如抓取手段明显超出合理限度(如每秒千次请求干扰服务器正常运行)、采取破解算法抓取数据等方式


2、数据权利方和抓取方的各自注意事项


数据权利方

(1)部署流量监测系统,记录、保留异常访问IP、请求频率等关键日志信息,研判异常访问IP对应的抓取主体;

(2)对核心公开数据(如用户评价)设置分层防护,如采取验证码验证等措施(实践中是否设置相关防护措施也可能被视作为该等信息是否存在经济利益的判断标准之一);

(3)明示数据使用规则:Robots协议约定禁止抓取范围,将重点数据纳入;在网站声明或用户协议中明确禁止特定类型的抓取或商业利用行为。


数据抓取方

(1)不应当然认为公开数据不构成违法,需要根据个案评估产品合规性;

(2)检测“替代性风险”,例如是否直接复现原平台核心功能(如直接展示用户评论)、是否抽离原平台主要流量入口(如绕过广告页面直接跳转);

(3)收益模式的合法性设计:若基于公开数据开发增值服务(如数据分析报告),需确保数据加工深度(如跨平台聚合分析)足以形成独立性;避免直接对抓取数据收费,而是通过衍生服务(如可视化工具)实现盈利;

(4)技术手段的合理性:控制抓取频率,不强行突破原网站的反爬措施。结合笔者处理的数据抓取类案件,须特别注意的是,实践中存在采取非法手段抓取数据从而被认定构成刑事责任的先例,典型罪名为刑法项下的“非法控制计算机信息系统罪”或“非法侵入计算机信息系统罪”


不同类型产品模式的不正当竞争评估方式是否应有差异?


在数据抓取纠纷中,司法机关对不同产品模式的竞争行为评价存在显著差异。这种差异源于互联网生态的多样性以及不同业务场景的公共利益差异。


1、司法实践现状


从司法案例来看,法院对不同产品模式的抓取行为容忍度存在差异,具体可通过下表对比呈现(注:宽容度等级仅是相对而言其他产品类型的评价,且不同法院的认定倾向存在差异,仅供参考):


产品类型

裁判要点

宽容度

差异原因

案例举例

搜索引擎

搜索引擎爬取一般公开网络信息不侵权但通知后应采取措施

Robots协议不得区别对待不同经营者

较高

搜索引擎具有信息整合的公共属性,需平衡数据流通与来源方利益

(2019)京0491民初10989号

(2017)京民终487号

就业数据库

抓取就业数据造成数据获取方付费收益受损,抓取行为直接替代了抓取对象的市场功能,构成不正当竞争。

较低

鼓励对付费大数据产品和服务保护,否则不利于大数据行业研发者进行技术创新和投入的积极性

(2020)京73民终3422号

点评网站平台

抓取用户点评的数量和比例超过合理范围,必然会对原网站构成实质性替代

中等

(需评估比例)

点评数据对平台生态黏性具有较大影响,直接大比例复制构成实质性替代

(2016)沪73民终242号

内容聚合平台

尽管单一短视频内容构成著作权法保护的客体,但是平台对涉案短视频整体享有竞争法上的合法权益

较低

短视频整体享有竞争法上的合法权益,直接聚合构成实质性替代

(2021)京73民终1011号

社交平台

禁止抓取用户关系链及动态数据,即使数据本身公开

较低

社交数据涉及用户隐私与平台生态黏性,保护阈值高于一般公开信息

(2019)京73民终3789号


从上述案例可见,信息流通是互联网的重要特性,不同平台的功能模式和公共属性差异,使不正当竞争的裁判逻辑具有一定弹性。搜索引擎等产品对数据聚合与展示的核心功能,符合互联网“开放、共享”的本质,因此抓取行为相对而言对的宽容度更高。内容聚合、社交平台等产品则具有更强的社区性与原生创造性,抓取行为可能直接损害其独特的平台体系,因此限制更严格。


至于如何判断合理边界,综合司法实践,我们理解,需综合考量的标准包括:

(1)是否造成了损害结果:抓取行为是否导致被抓平台用户流失、市场利益受损(如广告分成下降)、商业模式被破坏;

(2)是否符合公共利益:抓取行为是否满足某种公益性目的(如服务消费者、促进信息共享),并与商业利润结合形成适当平衡;

(3)被抓取平台的公共属性:抓取行为针对的数据是否具有开放、共享或公众数据性质(如公示信息),或是否涉及隐私性、敏感性数据;

(4)被抓取平台数据的商业成本投入:被抓平台对数据生产、清洗的投入成本是否显著高于抓取方,通过抓取是否造成非对等竞争利益;

(5)抓取行为是否产生实质替代:抓取行为是否导致抓取方形成对原平台核心功能的替代,直接导致市场竞争格局中的利益失衡。


2、数据权利方和抓取方的各自注意事项


数据权利方

(1)评估自身平台性质,对于公共属性较强的平台可考虑不采取过于激进的维权措施;

(2)如果出现爬取核心商业内容、爬取次数过于频繁等情况,建议及时取证并维权;

(3)对于开放公共数据,建议通过制定许可协议标明使用限制。


数据抓取方

整体同问题二。


三、《反不正当竞争法》后续修订对数据抓取的影响


《反不正当竞争法(修订草案)》第十三条第二款第(四)项规定了“数据保护”专条,要求经营者不得“以欺诈、胁迫、电子侵入等不正当方式,获取并使用其他经营者合法持有的数据”。


与此前公布的《反不正当竞争法(修订草案征求意见稿)》第18条商业数据保护专条不同的是:

(1)相较于此前的细致表述,《反不正当竞争法(修订草案)》第13条表述更为简练,以极为概括性的语言对涉数据不正当竞争行为进行了规定,有利于发挥《反不正当竞争法》本身具有高度灵活性及“兜底性”的特点,有利于适应后续不断发生变化的网络环境;

(2)此前第18条保护范围为“商业数据”,并且将与公众可以无偿利用的信息相同的数据排除在外,而第13条则将这一限制删除。关于目前可适用的范围众说纷纭。我们理解,删除该限制后,数据的保护范围其实是扩大的,将个人数据、公共数据等数据类型纳入。司法实践中(前文已有提及),存在大量不当抓取个人数据、公共数据的情形,仍可能会对数据方的竞争权益造成重大影响,该修改可以更好地匹配司法实践情况,并对更多的数据类型预留了保护空间。


关于该条的行为理解,目前也有较多不同观点。我们认为,“以欺诈、胁迫、电子侵入等不正当方式”条文中列举的“欺诈、胁迫、电子侵入”表述方式似乎与爬虫抓取行为并不完全吻合(前者明显来源于侵犯商业秘密条款的表述)。如此而言,后续究竟是使用一般条款还是互联网专条对此类行为进行规制仍可能产生争议,有待后续立法解释、司法实践进行进一步明确。


小结


数据抓取行为的正当性边界,始终映射着互联网生态中开放共享与商业利益。Robots协议的效力考量、“实质替代性”认定、不同产品模式的差异化裁判等,均体现了司法实践正逐步转向“竞争效果评估”,折射出法律对数据权益的思考与对各方利益的不断平衡。随着数据市场的成熟、AI技术等新技术的不断发展,相信后续相关规则将更趋细化。随之会产生更多、更新、更疑难复杂的不正当竞争案件。对于经营者而言,如何应对其他经营者的数据抓取行为,保护自己的核心数据不受侵犯,同时在抓取竞品数据的过程中确保合法合规(最低限度不触发刑事责任),无疑是一项重要挑战。经营者在此过程中应努力保持一种中庸与平衡,一分不多,一分不少。正所谓“君子之中庸也,君子而时中。小人之中庸也,小人而无忌惮也”。建议各方在开展数据抓取前,充分评估目标数据的性质、自身产品模式及潜在竞争影响,实现数据的合法使用及价值扩大。



1. 杭州铁路运输法院:(2021)浙8601民初309号民事判决书。

君合是两大国际律师协作组织Lex MundiMultilaw中唯一的中国律师事务所成员,同时还与亚欧主要国家最优秀的一些律师事务所建立Best Friends协作伙伴关系。通过这些协作组织和伙伴,我们的优质服务得以延伸至几乎世界每一个角落。
北京绿化基金会与君合共同发起的“北京绿化基金会碳中和专项基金”,是中国律师行业参与发起设立的第一支碳中和专项基金。旨在充分利用公开募捐平台优势,积极联合社会力量,宣传碳中和理念,鼓励和动员社会单位和个人参与“增汇减排”、“植树造林”等公益活动。