第4题
任务一:实现网站资源的HTTP请求 任务描述:一个爬虫的基本功能是读取URL和抓取网页内容,这需要爬虫具备实现HTTP请求的功能。请求过程包括生成请求、请求头处理、超时设置、请求重试、查看状态码等,请用Request库实现网站(不指定)发送GET类型的HTTP请求。 任务要求: (1)查看网站Robots协议 (2)使用Requests库生成HTTP请求 (3)使用Requests库查看状态码与编码 (4)使用Requests库采用合适的技巧和方法,如伪装浏览器等获取网页资源 任务二:解析网页 通过解析网页可以获取网页包含的数据信息,如文本、图片、视频等。这需要爬虫能够定位网页中信息的位置并解析网页内容的功能。请利用Beautiful Soup解析任务一中获取的网络资源的网页内容,获取并解析其中的元素及相关信息。 任务要求: (1)将任务一中获取的网页内容转化为BeautifulSoup对象 (2)解析或获取网页的页面的主题内容 (3)根据页面内容的提取需要采用合适的查找方法如finda
点击查看答案