互联网数据爬取采集相关法律问题分析:恶意使用爬虫或触犯刑法 (共29字)
提到爬虫,很多人的第一印象可能是「互联网上的数据挖掘机」,只要找对路径,就能把公开网页上的文字、图片、数据一股脑都扒下来用。
不少做电商比价、做内容聚合、做行业调研的团队,都靠着爬虫提高了效率,节省了大把手动收集数据的时间。但很多人没意识到,爬数据这件事,并不是「法外之地」,用得不好,恶意爬取还可能触犯刑法,把自己送进去。
去年有个挺出圈的案子,某外卖平台的前工程师,利用自己掌握的权限,爬取了平台上千万条商家信息和用户数据,卖给了竞品公司,最后不仅赔了钱,还因为侵犯公民个人信息罪被判了好几年。还有一个做招聘网站爬虫的案子,创业者靠着爬虫爬了同行几百万条简历数据,用来给自己的网站引流,最后不仅网站被封,负责人也因为非法获取计算机信息系统数据罪判了刑。
很多人会说,我爬的都是网上公开能看到的内容,怎么就违法了?其实法律对爬虫的界定,从来不是看数据是不是公开,关键看你爬的方式和爬完之后用来做什么。
先说方式,如果你的爬虫一直高频发送请求,把对方网站的服务器搞瘫了,正常用户都打不开网页,这肯定不行。这种恶意爬取,已经属于干扰计算机信息系统正常运行的范畴,达到一定标准就能入刑。之前就有个实习生,刚毕业找工作,为了爬取某景点的门票信息,没控制爬虫的请求频率,一小时发了几十万次请求,直接把对方的票务系统搞崩了,最后不仅赔了钱,还落了个行政处罚。
如果你爬的信息本身就是涉及用户隐私的内容,那问题更严重。比如你爬了别人的手机号、家庭地址、身份证号,哪怕这些信息不小心流到了公开网页,你爬下来拿去卖或者用来发广告,只要数量达到五十条以上,就符合侵犯公民个人信息罪的立案标准。很多做房产中介、做贷款营销的团队,喜欢爬业主信息,其实这已经踩了刑法的红线。
那是不是只要是爬虫就是违法的?其实也不是,正常的爬虫是互联网发展的基础。你现在用的搜索引擎,本质上就是一个大爬虫,每天爬遍全网的网页,把内容整理好给用户搜索,这种就完全合法,因为搜索引擎本身就给网站带去了流量,也遵守了网站的爬虫协议,没有干扰网站正常运行。
现在很多网站都会在根目录放一个robots.txt协议,告诉爬虫哪些内容可以爬,哪些不能爬。这个协议虽然不是法律,但如果你明明看到对方不让爬,还绕开网站的反爬措施去爬,那性质就变了,就属于「非法侵入计算机信息系统」或者「非法获取数据」,一旦对方起诉,你大概率要负法律责任。
比如之前淘宝起诉百度爬虫的案子,就是因为百度绕开了淘宝的反爬措施,爬取淘宝的商品信息去给自己的搜索服务用,违反了robots协议,最后被判了不正当竞争,赔偿了淘宝一百万。这种虽然没到刑法的程度,但也要赔钱吃官司,对个人或者小企业来说,也是很难承受的。
还有很多人喜欢爬竞品的商业数据,比如爬对方的价格、库存、销售数据,用来做自己的商业决策。这种行为如果只是少量爬,自己用来做调研,可能只是民事侵权,对方最多告你不正当竞争,要求你停止爬取赔钱。但如果你爬的量很大,还破坏了对方的系统,或者爬了对方的核心商业秘密,那也可能触及刑法。
很多普通人刚接触爬虫,都是从网上找免费教程学,学完就想着爬点数据练手,或者赚点外快,根本没意识到风险。比如你帮别人爬了一批用户信息,赚了几千块,看起来不多,但如果这批信息的条数够了,你就是共犯,一样要负刑事责任。
那普通人想用爬虫,怎么才能不违法?其实说起来也简单,首先控制好爬取的频率,别给对方网站造成负担,不要影响别人正常运营。其次,不要绕开对方的反爬措施,对方明确不让爬的内容就别碰,遵守robots协议。第三,爬下来的数据只能自己用,不要随便传播,更不能拿去卖钱,尤其是涉及个人隐私和商业秘密的内容,一点都不能碰。
很多人觉得,我就是小打小闹,网站不会发现,就算发现了也不会跟我计较。其实现在反爬技术越来越成熟,大网站只要你爬量稍微大一点,立刻就能发现你的IP,留好证据,真要追究起来,你跑都跑不掉。
这几年因为爬虫进去的人越来越多,很多还是高学历的技术人员,就是因为一开始没当回事,觉得爬数据不是什么大错,没想到最后触碰了刑法的红线。
说白了,爬虫本身只是一个技术工具,工具本身没有对错,错的是使用它的人。你用它做正当的事,它就是提高效率的好帮手,你恶意爬取,侵犯别人的权利,谋取不正当利益,那就早晚要承担法律责任。
别抱着侥幸心理去踩法律的红线,互联网不是法外之地,爬数据也一样,做事之前先想清楚后果,别为了一点小利益,把自己的前途搭进去。
互联网数据爬取,爬虫法律问题,恶意爬虫,爬虫违法,数据采集法律,触犯刑法,非法获取数据,侵犯公民个人信息罪,爬虫合规,反爬措施
[Q]:爬取网上公开的数据也会违法吗?
[A]:爬取公开数据也可能违法,判断是否违法不是看数据是否公开,而是看爬取方式、爬取后的用途,比如绕开反爬、恶意爬取干扰网站运行,或是爬取隐私信息售卖,都可能涉嫌违法,严重的会触犯刑法。
[Q]:恶意使用爬虫真的会触犯刑法吗?
[A]:恶意使用爬虫确实可能触犯刑法,常见的涉罪情形包括:恶意高频爬取导致网站服务器瘫痪,构成破坏计算机信息系统罪;爬取售卖公民个人信息达到一定数量,构成侵犯公民个人信息罪;非法爬取获取计算机系统数据,情节严重的会构成非法获取计算机信息系统数据罪。
[Q]:所有爬虫行为都是违法的吗?
[A]:并不是所有爬虫行为都违法,合法合规的爬虫是被允许的,比如搜索引擎的爬虫,遵守网站robots协议、不干扰网站正常运行、不爬取受限和隐私内容,属于合法行为,是互联网正常运行的基础。
[Q]:robots协议有法律效力吗?违反了会怎么样?
[A]:robots协议本身不是法律,但它是互联网行业的通行规则,如果违反协议绕开反爬措施爬取受限内容,会被认定为不正当竞争,需要承担停止侵害、赔偿损失等民事责任,情节严重的还可能触犯刑法。
[Q]:爬取公民个人信息多少条会入刑?
[A]:根据法律规定,爬取、售卖五十条以上公民隐私信息(比如手机号、住址、身份证号等),就达到了侵犯公民个人信息罪的立案标准,可追究刑事责任。
[Q]:普通人爬数据练手也会有风险吗?
[A]:普通人爬数据如果不注意规范也会有风险,如果控制不好请求频率,可能会冲垮对方网站,面临赔偿甚至行政处罚,如果帮他人爬取隐私信息赚取收益,还可能成为共犯承担刑事责任。
[Q]:合规使用爬虫需要注意什么?
[A]:合规使用爬虫要做到三点:第一控制爬取频率,不要干扰目标网站正常运行;第二遵守网站的robots协议,不绕开反爬措施爬取受限内容;第三不对爬取到的隐私、商业秘密信息进行传播售卖,仅做合理个人使用。
[Q]:违规使用爬虫只需要赔钱吗?会不会坐牢?
[A]:轻度违规爬取一般只需要承担民事赔偿责任,但如果属于恶意爬取,情节严重触犯刑法的,不仅会被处以罚金,相关责任人还可能被判处有期徒刑,也就是需要坐牢。
不少做电商比价、做内容聚合、做行业调研的团队,都靠着爬虫提高了效率,节省了大把手动收集数据的时间。但很多人没意识到,爬数据这件事,并不是「法外之地」,用得不好,恶意爬取还可能触犯刑法,把自己送进去。
去年有个挺出圈的案子,某外卖平台的前工程师,利用自己掌握的权限,爬取了平台上千万条商家信息和用户数据,卖给了竞品公司,最后不仅赔了钱,还因为侵犯公民个人信息罪被判了好几年。还有一个做招聘网站爬虫的案子,创业者靠着爬虫爬了同行几百万条简历数据,用来给自己的网站引流,最后不仅网站被封,负责人也因为非法获取计算机信息系统数据罪判了刑。
很多人会说,我爬的都是网上公开能看到的内容,怎么就违法了?其实法律对爬虫的界定,从来不是看数据是不是公开,关键看你爬的方式和爬完之后用来做什么。
先说方式,如果你的爬虫一直高频发送请求,把对方网站的服务器搞瘫了,正常用户都打不开网页,这肯定不行。这种恶意爬取,已经属于干扰计算机信息系统正常运行的范畴,达到一定标准就能入刑。之前就有个实习生,刚毕业找工作,为了爬取某景点的门票信息,没控制爬虫的请求频率,一小时发了几十万次请求,直接把对方的票务系统搞崩了,最后不仅赔了钱,还落了个行政处罚。
如果你爬的信息本身就是涉及用户隐私的内容,那问题更严重。比如你爬了别人的手机号、家庭地址、身份证号,哪怕这些信息不小心流到了公开网页,你爬下来拿去卖或者用来发广告,只要数量达到五十条以上,就符合侵犯公民个人信息罪的立案标准。很多做房产中介、做贷款营销的团队,喜欢爬业主信息,其实这已经踩了刑法的红线。
那是不是只要是爬虫就是违法的?其实也不是,正常的爬虫是互联网发展的基础。你现在用的搜索引擎,本质上就是一个大爬虫,每天爬遍全网的网页,把内容整理好给用户搜索,这种就完全合法,因为搜索引擎本身就给网站带去了流量,也遵守了网站的爬虫协议,没有干扰网站正常运行。
现在很多网站都会在根目录放一个robots.txt协议,告诉爬虫哪些内容可以爬,哪些不能爬。这个协议虽然不是法律,但如果你明明看到对方不让爬,还绕开网站的反爬措施去爬,那性质就变了,就属于「非法侵入计算机信息系统」或者「非法获取数据」,一旦对方起诉,你大概率要负法律责任。
比如之前淘宝起诉百度爬虫的案子,就是因为百度绕开了淘宝的反爬措施,爬取淘宝的商品信息去给自己的搜索服务用,违反了robots协议,最后被判了不正当竞争,赔偿了淘宝一百万。这种虽然没到刑法的程度,但也要赔钱吃官司,对个人或者小企业来说,也是很难承受的。
还有很多人喜欢爬竞品的商业数据,比如爬对方的价格、库存、销售数据,用来做自己的商业决策。这种行为如果只是少量爬,自己用来做调研,可能只是民事侵权,对方最多告你不正当竞争,要求你停止爬取赔钱。但如果你爬的量很大,还破坏了对方的系统,或者爬了对方的核心商业秘密,那也可能触及刑法。
很多普通人刚接触爬虫,都是从网上找免费教程学,学完就想着爬点数据练手,或者赚点外快,根本没意识到风险。比如你帮别人爬了一批用户信息,赚了几千块,看起来不多,但如果这批信息的条数够了,你就是共犯,一样要负刑事责任。
那普通人想用爬虫,怎么才能不违法?其实说起来也简单,首先控制好爬取的频率,别给对方网站造成负担,不要影响别人正常运营。其次,不要绕开对方的反爬措施,对方明确不让爬的内容就别碰,遵守robots协议。第三,爬下来的数据只能自己用,不要随便传播,更不能拿去卖钱,尤其是涉及个人隐私和商业秘密的内容,一点都不能碰。
很多人觉得,我就是小打小闹,网站不会发现,就算发现了也不会跟我计较。其实现在反爬技术越来越成熟,大网站只要你爬量稍微大一点,立刻就能发现你的IP,留好证据,真要追究起来,你跑都跑不掉。
这几年因为爬虫进去的人越来越多,很多还是高学历的技术人员,就是因为一开始没当回事,觉得爬数据不是什么大错,没想到最后触碰了刑法的红线。
说白了,爬虫本身只是一个技术工具,工具本身没有对错,错的是使用它的人。你用它做正当的事,它就是提高效率的好帮手,你恶意爬取,侵犯别人的权利,谋取不正当利益,那就早晚要承担法律责任。
别抱着侥幸心理去踩法律的红线,互联网不是法外之地,爬数据也一样,做事之前先想清楚后果,别为了一点小利益,把自己的前途搭进去。
互联网数据爬取,爬虫法律问题,恶意爬虫,爬虫违法,数据采集法律,触犯刑法,非法获取数据,侵犯公民个人信息罪,爬虫合规,反爬措施
[Q]:爬取网上公开的数据也会违法吗?
[A]:爬取公开数据也可能违法,判断是否违法不是看数据是否公开,而是看爬取方式、爬取后的用途,比如绕开反爬、恶意爬取干扰网站运行,或是爬取隐私信息售卖,都可能涉嫌违法,严重的会触犯刑法。
[Q]:恶意使用爬虫真的会触犯刑法吗?
[A]:恶意使用爬虫确实可能触犯刑法,常见的涉罪情形包括:恶意高频爬取导致网站服务器瘫痪,构成破坏计算机信息系统罪;爬取售卖公民个人信息达到一定数量,构成侵犯公民个人信息罪;非法爬取获取计算机系统数据,情节严重的会构成非法获取计算机信息系统数据罪。
[Q]:所有爬虫行为都是违法的吗?
[A]:并不是所有爬虫行为都违法,合法合规的爬虫是被允许的,比如搜索引擎的爬虫,遵守网站robots协议、不干扰网站正常运行、不爬取受限和隐私内容,属于合法行为,是互联网正常运行的基础。
[Q]:robots协议有法律效力吗?违反了会怎么样?
[A]:robots协议本身不是法律,但它是互联网行业的通行规则,如果违反协议绕开反爬措施爬取受限内容,会被认定为不正当竞争,需要承担停止侵害、赔偿损失等民事责任,情节严重的还可能触犯刑法。
[Q]:爬取公民个人信息多少条会入刑?
[A]:根据法律规定,爬取、售卖五十条以上公民隐私信息(比如手机号、住址、身份证号等),就达到了侵犯公民个人信息罪的立案标准,可追究刑事责任。
[Q]:普通人爬数据练手也会有风险吗?
[A]:普通人爬数据如果不注意规范也会有风险,如果控制不好请求频率,可能会冲垮对方网站,面临赔偿甚至行政处罚,如果帮他人爬取隐私信息赚取收益,还可能成为共犯承担刑事责任。
[Q]:合规使用爬虫需要注意什么?
[A]:合规使用爬虫要做到三点:第一控制爬取频率,不要干扰目标网站正常运行;第二遵守网站的robots协议,不绕开反爬措施爬取受限内容;第三不对爬取到的隐私、商业秘密信息进行传播售卖,仅做合理个人使用。
[Q]:违规使用爬虫只需要赔钱吗?会不会坐牢?
[A]:轻度违规爬取一般只需要承担民事赔偿责任,但如果属于恶意爬取,情节严重触犯刑法的,不仅会被处以罚金,相关责任人还可能被判处有期徒刑,也就是需要坐牢。
评论 (0)
