Python CSV文件模塊的使用案例分析

更新時(shí)間：2019年12月21日 13:10:31 作者：為挽月明

這篇文章主要介紹了Python CSV文件模塊的使用,結(jié)合具體案例形式分析了Python使用csv模塊操作csv文件的相關(guān)使用技巧與相關(guān)注意事項(xiàng),需要的朋友可以參考下

本文實(shí)例講述了Python CSV文件模塊的使用。分享給大家供大家參考，具體如下：

1、CSV模塊使用流程

1、導(dǎo)入模塊

impport CSV

2、打開文件（xxx.csv）

with open('xxx.csv','a',encoding='utf-8') as f:

1、a和 a+ ‘追加'功能

a 追加寫

a+ 追加寫讀（先寫后讀）

2、r 和 r+

r 只讀

r+讀寫，先讀后寫

3、w，w+

w 只寫

w+寫讀先寫后讀

3、初始化寫入對(duì)象

writer = csv.wirter()

4、寫入數(shù)據(jù)

writer.writerow(['孫悟空', '蘭陵王'])

案例：

貓眼電影top10榜單的爬取

1、網(wǎng)址：url

2、目標(biāo)：爬取自己想要的文件

3、保存本地：csv文件

4、步驟

1、找url規(guī)律

第一頁：https://maoyan.com/board/4？offset=0

第4頁：https://maoyan.com/board/4?offset=30

第n頁：offset=（n-1）*10

2、寫正則表達(dá)式

'<div class="movie-item-info".*?title="(.*?)".*?class="star">(.* ?)</p>.*?class="releasetime">(.*?)</p>',re.S

練習(xí)：爬取貓王top10信息

from urllib import request
import re
import time
import csv
class MaoyanSpider(object):
   def __init__(self):
    self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"}
    self.page = 1
    # 用來計(jì)數(shù)
   def get_page(self, url):
    req = request.Request(url, headers=self.headers)
    res = request.urlopen(req)
    html = res.read().decode('utf-8')
    # 直接調(diào)用解析函數(shù)
    self.parse_page(html)
   def parse_page(self,html):
     p=re.compile('<div class="movie-item-info">.*?title="(.*?)".*?class="star">(.*?)</p>.*?class="releasetime">(.*?)</p>',re.S)
     #p=re.compile('<div class="movie-item-info">.*?title="(.*?)".*?class="star">(.* ?)</p>.*?class="releasetime">(.*?)</p>',re.S)
     r_list = p.findall(html)
     # 直接調(diào)用保存函數(shù)
     # r_list:[('霸王別姬','張國榮','1993')，（），（）]
     self.write_csv(r_list)
  # 保存數(shù)據(jù)函數(shù)
   def  write_csv(self,r_list):
     with open('貓眼電影top10.csv','a') as f:
      writer = csv.writer(f)
      # 依次寫入每個(gè)電影信息
      for r_t in r_list:
        film = [
          r_t[0].strip(),
          r_t[1].strip(),
          r_t[2].strip()
          ]
        writer.writerow(film)
  #主函數(shù)
   def work_om(self):
     for pn in range(0,41,10):
      url = 'https://maoyan.com/board/4?offset=%s'%str(pn)
      self.get_page(url)
      print('第%d頁爬取成功'%self.page)
      self.page += 1
      time.sleep(4)
if __name__ =='__main__':
  begin = time.time()
  spider = MaoyanSpider()
  spider.work_om()
  end = time.time()
  print("執(zhí)行時(shí)間%.2f"%(end - begin))

運(yùn)行截圖：