python爬虫是干嘛的 网络爬虫是什么意思


开篇先给大家解释一下 , 什么是爬虫?
网络爬虫(web crawler 简称爬虫)就是按照一定规则从互联网上抓取信息的程序 , 既然是程序那和正常用户访问页面有何区别?爬虫与用户正常访问信息的区别就在于:用户是缓慢、少量的获取信息 , 而爬虫是大量的获取信息 。
通常来讲 , 在互联网技术圈 , 数据抓取是一件很正常的事情 。通过爬虫抓取网站内容是搜索引擎进行数据积累的必要前提 。但爬虫抓取也有一些江湖规则或君子协定 , 比如robots协议 。robots协议由网站主自行设置 , 网站会规定爬虫引擎哪些内容数据可以抓取 , 哪些禁止抓取的 , 但就是有那么一些科技公司 , 就是喜欢爬取别人的 。
来看今天的案例 。
今日 , 据企查查披露的判决书显示 。北京市朝阳区人民检察院以京朝检公诉刑诉[2020]2604号起诉书指控被告单位厦门房卖网络科技有限公司、被告人林x平、程x东、林x森犯非法获取计算机信息系统数据罪 , 于2020年12月2日向北京市朝阳区人民法院提起公诉 。该案现已审理终结 。
原告方诉求
被告单位厦门房麦网络科技有限公司(以下简称房麦公司)于2018年至2020年间 , 利用网络爬虫程序 , 采用破解验证码等手段非法获取北京某信息技术有限公司(实际经营地为北京市朝阳区酒仙桥北路甲10号院105楼 , 以下简称某公司)经营的某网站房产数据 , 经解密、加工、整理后供房麦公司的房产APP使用 , 造成某公司网络资费、人力成本等经济损失人民币10万余元 , 并造成某公司相关费用受损共计人民币300余万元 。
被告人林x平为房麦公司总负责人 , 全面管理公司工作;被告人程x东为房麦公司技术部门负责人 , 主管数据爬取工作;被告人林x森为房麦公司爬虫工程师 , 负责破解某网站的反爬取措施 。被告人林x平于2020年8月3日向公安机关投案 , 被告人程x东、林x森于同年7月22日被公安机关抓获归案 。
经审理查明:
被告单位厦门房麦网络科技有限公司(以下简称房麦公司)于2015年6月成立 , 法定代表人为被告人林x平 , 公司成立后研发“推房神器”等APP 。自2018年被告单位房麦公司 , 使用网络爬虫技术爬取北京某信息技术有限公司(实际经营地为北京市朝阳区酒仙桥北路甲10号院105楼 , 以下简称某公司)经营的“某”网站房产数据 。
在某公司增加反爬取策略后 , 2019年10月至2020年7月间 , 被告单位房麦公司使用破解验证码、绕开挑战登录等方式破解某公司的反爬取措施 , 非法获取“某”网站的房源数据 , 并将非法获取的房产数据存放在自己的服务器中供“推房神器”APP调用 , 并向该APP用户收取会员费盈利 。

推荐阅读