爬取旅游景区网站数据.pdf

发布时间：2022-06-15 发布人：admin 分类：说明书资料大小：0.73M 资料格式：pdf 举报版权申诉

dc2c7405-27fc-4a1e-8339-512d54f4d967.pdf-第1页.png

第1页 / 共11页

dc2c7405-27fc-4a1e-8339-512d54f4d967.pdf-第2页.png

第2页 / 共11页

dc2c7405-27fc-4a1e-8339-512d54f4d967.pdf-第3页.png

第3页 / 共11页

dc2c7405-27fc-4a1e-8339-512d54f4d967.pdf-第4页.png

第4页 / 共11页

dc2c7405-27fc-4a1e-8339-512d54f4d967.pdf-第5页.png

第5页 / 共11页

dc2c7405-27fc-4a1e-8339-512d54f4d967.pdf-第6页.png

第6页 / 共11页

dc2c7405-27fc-4a1e-8339-512d54f4d967.pdf-第7页.png

第7页 / 共11页

dc2c7405-27fc-4a1e-8339-512d54f4d967.pdf-第8页.png

第8页 / 共11页

文本预览

爬取旅游景区网站数据任务：我们国家有丰富的旅游资源，进入中国旅游信息资源网站 http://scenic.cthy.com/可以查看到各种各样的旅游信息，例如选择查看 5A 景区，就可以看到全国 5A 景区的介绍，如图 1 所示，这个项目的任务是从这个网站中爬取部分 5A 景区的数据。图 1 景区信息一、解析网站 HTML 代码我们使用 Chrome 浏览器在网站中找到一个景区，点击鼠标右键弹出菜单选择“检查” 就可以看到如图 2 所示的 HTML 代码。图 2 HTML 代码我们可以看到景区的数据都在

的元素中，每个景区在一个

元素中，复制出一个景区的 HTML 代码，整理后得到：

珠海长隆国际海洋度假区

景区类型：海滨海岛生物景观
景区资质：国家级风景名胜区
景区级别： 5A 适合季节：四季皆宜

¥230 珠海海泉湾客栈

¥0 珠海海泉湾海洋温泉中心

¥700 珠海海泉湾维景大酒店

景区全攻略： [景区图片] [游记攻略] [辖内景区] [美食特产] [交通概况] 3

[休闲娱乐] [天气情况]

二、爬取网站景区数据访问景区的网站，获取 HTML 代码，创建一个 soup 的 BeautifulSoup 对象： url="http://scenic.cthy.com/scenicSearch/0-0-201-0-0-1.html" resp=urllib.request.urlopen(url) html=resp.read().decode() soup=BeautifulSoup(html,"lxml") 我们使用 soup 对象爬取数据。 1、爬取景区列表景区的数据都在

的元素中，这个元素包含很多

的景区项目，因此： divs=soup.find("div",attrs={"class":"sightlist"}).find_all("div",attrs={"class":"sightshow"}) 循环这个 divs 得到每个景区的

元素对象 div。 2、爬取景区名称景区名称在

的

中，因此使用： dd=div.find("div",attrs={"class":"sightdetail"}) sName=dd.find("h4").find("a").text 爬取到景区的名称 sName。 3、爬取景区类型景区类型是在
下面的第一个
中的各个中的，把各个 的文本连接在一起就类型 sType: dd=div.find("div",attrs={"class":"sightdetail"}) lis=dd.find("ul",attrs={"class":"sightbase"}).find_all("li") sType=[] if len(lis)>0: for link in lis[0].find_all("a"): sType.append(link.text) 4、爬取景区资源景区资源是在
下面的第二个
中的各个 中的，把各个 的文本连接在一起就类型 sSource: 4

dd=div.find("div",attrs={"class":"sightdetail"}) lis=dd.find("ul",attrs={"class":"sightbase"}).find_all("li") sSource=[] if len(lis)>1: for link in lis[1].find_all("a"): sSource.append(link.text) 5、爬取景区时间与级别景区的时间与级别是在

下面的第三个

中的各个中的，因此时间 sTime 与级别 sLevel 可以这样得到: dd=div.find("div",attrs={"class":"sightdetail"}) lis=dd.find("ul",attrs={"class":"sightbase"}).find_all("li") if len(lis)>2: sLevel=lis[2].find("span").find("a").text sTime = lis[2].find("a",recursive=False).text else: sLevel="" sTime="" 6、爬取景区酒店景区的酒店名称与价格在在
- 中的各个与中的，因此酒店 sHotel 这样得到: dd=div.find("div",attrs={"class":"sightdetail"}) lis = dd.find("ul", attrs={"class": "sighthotel"}).find_all("li") sHotel=[] for li in lis: h=[] h["name"]= li.find("a").text h["price"]= li.find("span").text sHotel.append(h) 三、爬取全部页面的数据我们查看网页时发现：第 1 页的地址是 http://scenic.cthy.com/scenicSearch/0-0-201-0-0-1.html；第 2 页的地址是 http://scenic.cthy.com/scenicSearch/0-0-201-0-0-2.html； ...... 第 n 页的地址是 http://scenic.cthy.com/scenicSearch/0-0-201-0-0-n.html；而且在页面的底部看到了总共有 21 页，如图 3 所示。 5

图 3 总页面数这个总页面数的 HTML 元素代码是：

共 202 条记录共 21 页每页 10 条

找到

元素下面的第二个，就知道有多少页面数了，设计一个 getPageCount 函数计算网页数： def getPageCount(self): count=0 try: resp=urllib.request.urlopen("http://scenic.cthy.com/scenicSearch/0-0-201-0- 0-1.html") html=resp.read().decode() soup=BeautifulSoup(html,"lxml") count=int(soup.find("ul",attrs={"id":"PagerList"}).find("li").find_all("span")[1].text) except Exception as err: print(err) 6

return count 四、设计存储数据库程序设计一个数据库 scenes.db 存储数据，这个库中有一张 scenes 表，表的各个字段如表 1 所示。字段名称 sName sType sSource sLevel sTime sHotel 类型 varchar(256) varchar(1024) varchar(1024) varchar(256) varchar(256) varchar(1024) 含义景区名称（关键字）景区类型景区资源景区级别景区时间景区酒店表 1 scenes 表字段其中 sType、sSource 存储的是类型与资源的列表，而 sHotel 存储的是酒店的名称与价格的字典数据，这些数据都转为 JSON 字符串进行存储。即先把列表、字典等结构化数据用 json.dumps 转为字符串进行存储，提取的时候再使用 json.loads 把字符串转为对应的结构数据。五、编写爬虫程序根据网页代码分析，编写爬虫程序： import urllib.request from bs4 import BeautifulSoup import sqlite3 import json class MySpider: def openDB(self): self.con = sqlite3.connect("scenes.db") self.cursor = self.con.cursor() def initDB(self): try: self.cursor.execute("drop table scenes") except: pass self.cursor.execute("create table scenes (sName varchar(256) primary key,sType varchar(1024),sSource varchar(1024),sLevel varchar(256),sTime varchar(256),sHotel varchar(1024))") def closeDB(self): self.con.commit() 7

self.con.close() def insertDB(self,sName,sType,sSource,sLevel,sTime,sHotel): try: sql="insert into scenes (sName,sType,sSource,sLevel,sTime,sHotel) values (?,?,?,?,?,?)" self.cursor.execute(sql,[sName,json.dumps(sType),json.dumps(sSource),sLevel,sTime,json.dumps( sHotel)]) except: pass def spider(self,url): try: resp=urllib.request.urlopen(url) html=resp.read().decode() soup=BeautifulSoup(html,"lxml") divs=soup.find("div",attrs={"class":"sightlist"}).find_all("div",attrs={"class":"sightshow"}) for div in divs: dd=div.find("div",attrs={"class":"sightdetail"}) sName=dd.find("h4").find("a").text lis = dd.find("ul", attrs={"class": "sightbase"}).find_all("li") sType = [] if len(lis) > 0: for link in lis[0].find_all("a"): sType.append(link.text) sSource=[] if len(lis)>1: for link in lis[1].find_all("a"): sSource.append(link.text) if len(lis)>2: sLevel=lis[2].find("span").find("a").text sTime = lis[2].find("a",recursive=False).text else: sLevel="" sTime="" lis = dd.find("ul", attrs={"class": "sighthotel"}).find_all("li") sHotel = [] for li in lis: h = {} h["name"] = li.find("a").text h["price"] = li.find("span").text sHotel.append(h) 8

分享到：

赞收藏

资料库

爬取旅游景区网站数据.pdf

珠海长隆国际海洋度假区

景区全攻略： [景区图片] [游记攻略] [辖内景区] [美食特产] [交通概况] 3

相关推荐

后端

热门标签

最新资料