网络爬虫变“害虫”9游会加强规范不让

来源:j9九游会网络 时间:2024-06-20 14:54:19

  但在大数据收集过程中=▼▷◇☆,目前-□▷□…●,近年来得到了越来越多的青睐和应用△○▪◆…=。也是其价值本源◁▼,作者▽◆●=◁:韩轶(中央民族大学法学院院长□…○▲▽、教授)○…▲、聂晶(中央民族大学法学院犯罪防控研究中心研究员)网络爬虫设计的初衷是通过计算机技术◁▷★◆,马某通过编写●★“爬虫==◆▲▲”程序▪△◆,具有访问■■▼网络爬虫变“害虫”、下载和解析(对数据进行分析与筛选)三种基本功能□•■▲。

  一是恶意抓取非授权数据=-•☆。驱动其向好向善▷☆◁▲●,成为当前重要的法治议题•▲。网络爬虫(Web Crawler)作为一种能快速精准地获取数据信息的基础性网络技术☆▪==,这种行为就构成了侵犯公民个人信息罪●--。

  非法获利共计2■☆▲.4万元-□▪▷,想方设法让网络爬虫突破道德规则与技术障碍(网站○•▷●◆“反爬虫……”措施)=-●◇☆…,例如2018年2月至4月间…=●●☆■,爬取未经授权或超过授权范围的数据★…。

  网络爬虫○◁•,又称为▲★“网页蜘蛛▪•◆•★”◁▲▽●“网络机器人☆◆”--•▪,是一种按照一定的规则…•□☆,自动抓取网络信息的程序或者脚本•○。它能在特定程序的驱动下…★◁△,模仿人工点击从网站☆•◆●○▼、手机应用▪▼▷▽、小程序或搜索引擎中检索=▼、提取…■•★▲▷、存储数据▷■◇□◆●。我们可以形象地将它们理解为一种爬行在网络上的蜘蛛☆□●•☆●,它们根据程序的指令▼▪△◇,通常沿着URL(网址)这根蛛丝•★▼▲★●,在互联网这张大网上爬来爬去★◆▼▼◆■,寻找和带回所需要的数据资源▽□。我们熟知的百度•◁◁、搜狗△★、谷歌等搜索引擎•▪…••,其技术核心元素之一就是▷◇▷“网络爬虫▼■▪▪•”▼▪。例如百度蜘蛛•…,它通过互联网入口爬取网页▷▼▪-●●,实时存储并更新索引☆○★□-△,然后为用户提供检索服务◆•▷◁。

  随着移动互联•◁▲▪•、人工智能…-☆•●▲、大数据▽□、云计算等新技术的迅速发展与普及应用◇•-◆□▪,近年来▲▲,更新信息•★◁▽★▷,爬虫作恶主要是对前两种功能的异化☆★△…-▼,数据成为驱动社会发展的新型生产要素●◇•=★-、各行各业增强竞争力的重要源泉△▲…!

  科技本身是一种中立性工具•□,向善向恶●★=、合法与非法●…○•△•,关键在于使用者的选择▲••○▪▷。原本通过robots协议◁=◆,一方获得了数据与信息▽=△●,一方增加了流量与关注○◇=,皆大欢喜◁■▲。但robots协议能防▷▷▷▲△“君子▼••◇▪▷”却难防•★“小人★△■”==-◆◆,有些爬虫程序不遵守规则=◆△▲,随心所欲地爬取别人不愿意分享的数据信息□△●◁,并大量挤占服务器资源△▲●=□◁,变成了◇□“网络害虫◁=▪☆”▽▲…☆□△。例如近年来一些大数据风控公司利用爬虫技术••=,在网络上非法收集用户个人信息并转卖给第三方■•,借以谋取经济利益▪■•…。

  自从1993年第一个网络爬虫程序——●•▽◁“互联网漫游者□★▽”被开发出来▼…◁,网络爬虫这种便捷高效的搜索技术便得到了业界关注▷◆▼。特别是随着数据资源的爆炸式增长=•▷,网络爬虫的应用场景也变得越发广泛与多元★◁▪▪▲,长期活跃于市场调查◆◆、产品研发◆◁-、金融分析•□、舆情监控▷▲▲-…、风险预测等领域▲▽。近年来●◆◇▼■△,一些运用爬虫技术为客户提供数据服务的互联网企业-☆◁◆◇▷,也获得了快速发展▼◁△▽▲。对个人而言▲△◁◁,我们可以利用爬虫软件等计算机编程语言◇□◇★,让网络爬虫为自己服务■★◇▷□◇。例如想买到理想的房子△◇◆▼▽○,就可爬取房产中介的公开信息◁…▪,分析房源数据与趋势以辅助决策…=☆-…□。

  网络的本质与价值在于连接◆□•,核心是实现数据的流动与分享◇○•▽△。网络爬虫作为数据抓取的技术工具◇●▪,通过爬行增强了网络节点间的联络=■☆,提升了网络的整体价值-▼◆,是构建互联网开放与共享理念的重要技术基石•▲□▲▽。但网络爬虫所行之处▽=•…◇▲,并非总是鲜花和掌声9游会★●◁▼★9游会加强规范不让,特别是涉及隐私领地和网络安全之时◇▲☆。因此…□●…,为了规范爬虫-◇,维护网络秩序◇◁•==◆,1994年诞生了◁●★□…◁“robots◇△▲☆▼•.txt协议○▷…△▼”•●○△,该协议虽然只是一个=●▷=“君子协议•☆●■★”◇▼,但它逐渐被视为网络空间爬虫技术应用公认的行业准则○◇,也成为判定爬取行为是否获得网站许可的主要依据••。在2014年百度公司诉奇虎360违反robots协议案中9游会△▲▪□,法院在判决时就认为□◇,被告没有遵守原告网站的robots协议••○▪…,其行为明显不当-▪•△■,应当承担相应的不利后果…▪◁☆•-。

  如何对其进行规制●▼,也存在着各种违法犯罪问题☆▷。为用户提供高效的检索服务□▷△□?窃取手机应用及网站的用户信息约20万条=★=□。

  二是恶意侵犯知识产权■☆。一些网络爬虫在数据爬取过程中■□=•▪,未经版权方的许可▼▼▲◇▲,就下载★=•▪、复制或传播文字●★、图片和视频等内容▪…▪□,并以此获利▽☆。通常形式是○△-☆□,爬虫对具有版权归属的文学或影视作品等设置加框链接□•▷▷,吸引用户点击◆△◇◆=,然后通过售卖广告等形式牟利◁□▪△☆。例如段某建立的-▲■○•“窝窝电影●■◇□●▷”网站☆◁☆◆-,利用爬虫技术对多家视频网站的500余部影视作品设置了加框链接△▷…□□,吸引用户点击播放□○■△…-,并赚取广告费100余万元-▲=●,这种行为就触犯了著作权法•-▽◆◇。

  一些企业或个人为了经济利益或其他特殊目的-•△,然后通过微信出售给他人▽◁▽…△,人们的工作◁=、交往和生活方式都发生了深刻变化●▲■○,体现为三类作恶方式▪○。访问数据是◇◇▼●•“网络爬虫▼■▼◆▲•”的行为起点▼-☆▷■,自动为网站编纂索引•…,

  三是恶意扰乱系统运行▽-▲。网络爬虫访问系统时▽▼☆▲•,跟人工点击原理一样▪○☆▲▽☆,因此当巨量爬虫同时访问某一网站时…-☆□▼,就会占用大量的带宽资源□○▼◁▽◁,造成服务器不堪重负甚至崩溃▪●…=●◆。业内专家表示◁△▪,2019年有近40%的网络流量来自爬虫•▲☆▽…,其中20%来自恶意爬虫-◆△•▪★,而且比例还将不断上升◁•○☆■◁。出行行业即是重灾区--。以中国铁路○◇△▪◆“12306网站=-●-=”为例9游会■●▼=,自2011年上线运营以来▽-,春运期间多次出现因爬虫(主要是抢票软件)攻击而无法访问的情况•○•。据统计◇▲□,2018年春运期间■○▷,网站最高峰时1天内页面浏览量达813○▽□.4亿次■●▽•▷,其中近90%是◇◆△“爬虫◁▪”所为□▷▼▲。

  2019年5月★▪△-,国家互联网信息办公室公布了《数据安全管理办法(征求意见稿)》◁■,该办法专门针对利用网络开展数据收集•▷-★◆=、存储◁▽•◇◇、传输▷▷、处理▷●==◆、使用等活动进行了规制•▲,有望对网络爬虫等技术行为进行有效治理•△▽★专题:靶材:国产替代,。该办法强调◇▷□=,国家坚持保障数据安全与发展并重…☆△,鼓励研发数据安全保护技术■▽=▲△,积极推进数据资源开发利用=◆■△▷▼,保障数据依法有序自由流动-•○■…◇。这也提醒我们■◇•□▲,网络爬虫等本质上是顺应数字经济发展需求而生▪▽○•☆…,既要从法律层面高度重视•▪☆□○◇,也要把握好法律规制的边界★-,力求达到数据利用与合理规制之间的良性平衡▼△○…,以便让网络技术更好地服务经济社会与人民生活=▲•●,助推数字中国建设•△--。

  据统计•…-,截至2020年12月■▲•,我国网民规模达9☆●.89亿☆▪。增强网络空间治理□○▲☆◆,保障个人信息和数据安全●■,已成为重大的时代命题▲•◁◁★。

  目前我国对网络爬虫的规制还没有专门的法律法规◆●◆☆◇★,主要依靠民法典△□、反不正当竞争法…▼、著作权法◆●▪☆、网络安全法以及刑法中的相关法律条款□▽=•▽□。但从法律规制效果来看▷•,情况不容乐观▽◁▲▷●△。一方面是由于互联网技术的快速发展…=■•,以及网络所具有的开放性▼□◆•■、虚拟性和流动性等特征☆▼★,让对违法犯罪行为的监管和证据提取较为困难9游会◇▽,特别是随着数据抓取从网页拓展至手机应用程序■◇●…△◆、小程序等移动端平台◆▼☆▼,抓取手段就更加复杂与隐蔽◇△-•▲•;另一方面是网络世界和数字服务发展迅猛▽▲□□■,法律法规还具有较大的滞后性▷★△●,司法实践对网络爬虫技术滥用引发的法律问题缺乏足够的司法经验▪■▷▲●,而相关的司法解释亦未能予以足够关注★■●•○,难以形成有效规制★▷☆▽●。例如2017年今日头条与新浪微博之间因●=○“微头条■•”业务同步△○☆“微博•★▽▷★”发言内容的纠纷案例▼▷,其实质是数据权属难以确定的问题▷•▪■•△。但由于缺乏明确的司法解释指引△▷◆■▪,引发了实践中的普遍争议◇○◁□…。