robotstxt协议(爬虫拿到数据违法吗数据可以商业化吗有大神懂得吗)_爬虫_数据_协议

本文目录

  • 爬虫拿到数据违法吗数据可以商业化吗有大神懂得吗
  • 在不违反被爬网站robots协议的情况下,对一个公开访问的论坛内容(如豆瓣)进行数据抓取和保存,这样合法吗

爬虫拿到数据违法吗数据可以商业化吗有大神懂得吗

网络爬虫涉及的法律问题可从信息层、策略层、数据层进行分析。在信息层,当抓取到具有著作权、个人信息等内容时,可能侵犯知识产权、人格权等法律法规;在策略层,当爬虫技术涉及突破、绕开反爬虫策略、协议时,可能犯有提供侵入非法控制计算机信息系统程序工具罪或破坏计算机信息系统罪;在数据层,当爬虫活动的关联行为涉及破解客户端、加密算法等,可能犯有非法获取计算机信息系统数据罪等。

一般爬虫界有一个默认协议《Robots协议》(也称为爬虫协议、机器人协议等),全称是“网络爬虫排除标准”(Robots Exclusion Protocol)。一般网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。是网络资源提供者与搜索引擎之间的道德约定。

《Robots协议》的实施主要依赖一个文件:

robots.txt,

网站会将该文件置于根目录下。举个例子,当爬虫访问一个网站(比如

在不违反被爬网站robots协议的情况下,对一个公开访问的论坛内容(如豆瓣)进行数据抓取和保存,这样合法吗

感谢悟空小秘书的邀请


类似百度、360搜等搜索引擎企业,它们会有全网爬虫的,24小时不间断对全网进行爬取。如果这样的网络爬虫不合法的话,那么这些企业都要关门了。

这些搜索引擎爬虫在爬取网站之前,都会看下该站点下是否有 robots.txt。然后按照 rbots.txt 里面定义的规则对该网站进行爬取。

所以制作爬虫程序,强烈建议遵循 robots 规则。另外,爬取网站的数据不得用于商业用途。例如将爬取到的网站数据售卖给网站的竞争对手等。

遵循这两点,就不算违法了。

-----------------------------------------------

喜欢的、觉得有用的麻烦点个赞,万分感谢~

个人微信公众号:极客猴(ID:Geek_monkey)

自己坚持分享 Python 原创干货,包括基础入门,进阶技巧,网络爬虫,数据分析,Web 应用开发等。欢迎关注~

特别声明

本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。

分享:

扫一扫在手机阅读、分享本文