博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python---网络爬虫
阅读量:6094 次
发布时间:2019-06-20

本文共 1643 字,大约阅读时间需要 5 分钟。

写了一个简单的网络爬虫:

#coding=utf-8from bs4 import BeautifulSoupimport requestsurl = "http://www.weather.com.cn/textFC/hb.shtml"def get_temperature(url):    headers = {        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',        'Upgrade-Insecure-Requests':'1',        'Referer':'http://www.weather.com.cn/weather1d/10129160502A.shtml',        'Host':'www.weather.com.cn'    }    res = requests.get(url,headers=headers)    res.encoding = "utf-8"    content = res.content # 拿到的是ascll编码    content = content.decode('UTF-8')# 转成UTF-8编码    #print(content)    soup = BeautifulSoup(content,'lxml')    conMidetab = soup.find('div',class_='conMidtab')    conMidetab2_list = conMidetab.find_all('div',class_='conMidtab2')    for x in conMidetab2_list:        tr_list = x.find_all('tr')[2:] # 所有的tr        province = ''        min = 0        for index,x in enumerate(tr_list):            if index == 0:                td_list = x.find_all('td')                province = td_list[0].text.replace('\n','')                city = td_list[1].text.replace('\n','')                min = td_list[7].text.replace('\n','')            else:                td_list = x.find_all('td')                city = td_list[0].text.replace('\n','')                min = td_list[6].text.replace('\n','')            print(province,city,min)        # province_list = tr_list[2]        # td_list = province_list.find_all('td')        # province_td = td_list[0]        # province = province_td.text        # #print(province.replace('\n',''))get_temperature(url)

 

转载于:https://www.cnblogs.com/e0yu/p/9505490.html

你可能感兴趣的文章
MyBatis基础:MyBatis入门(1)
查看>>
nessus安装及使用
查看>>
AspNet GridView Excel 下载 Excel 导出
查看>>
cordova 源码分析记录
查看>>
04 企业的结构
查看>>
php 记录日志时 基础的日志格式
查看>>
dedecms生成文档数据库崩溃 mysql daemon failed to start
查看>>
Linux的50个基本命令
查看>>
Objective-C中创建单例方法的步骤
查看>>
[转]无法安装MVC3,一直卡在vs10-kb2483190
查看>>
Codeforces 520B:Two Buttons(思维,好题)
查看>>
web框架-(二)Django基础
查看>>
Jenkins持续集成环境部署
查看>>
emoji等表情符号存mysql的方法
查看>>
ubuntu14.04中国源
查看>>
Excel到R中的日期转换
查看>>
网络层
查看>>
centos7没有ifconfig命令
查看>>
10-SAP PI开发手册-ERP发布服务供外围系统调用(RFC类型)
查看>>
cmd命令行查看windows版本
查看>>