W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗值獎勵
你想讀寫一個CSV格式的文件。
對于大多數(shù)的CSV格式的數(shù)據(jù)讀寫問題,都可以使用 csv
庫。、例如,假設你在一個名叫stocks.csv文件中有一些股票市場數(shù)據(jù),就像這樣:
下面向你展示如何將這些數(shù)據(jù)讀取為一個元組的序列:
import csv
with open('stocks.csv') as f:
f_csv = csv.reader(f)
headers = next(f_csv)
for row in f_csv:
# Process row
...
在上面的代碼中,row
會是一個元組。因此,為了訪問某個字段,你需要使用下標,如row[0]訪問Symbol,row[4]訪問Change。
由于這種下標訪問通常會引起混淆,你可以考慮使用命名元組。例如:
from collections import namedtuple
with open('stock.csv') as f:
f_csv = csv.reader(f)
headings = next(f_csv)
Row = namedtuple('Row', headings)
for r in f_csv:
row = Row(*r)
# Process row
...
它允許你使用列名如 row.Symbol
和 row.Change
代替下標訪問。需要注意的是這個只有在列名是合法的Python標識符的時候才生效。如果不是的話,你可能需要修改下原始的列名(如將非標識符字符替換成下劃線之類的)。
另外一個選擇就是將數(shù)據(jù)讀取到一個字典序列中去。可以這樣做:
import csv
with open('stocks.csv') as f:
f_csv = csv.DictReader(f)
for row in f_csv:
# process row
...
在這個版本中,你可以使用列名去訪問每一行的數(shù)據(jù)了。比如,row['Symbol']
或者 row['Change']
。
為了寫入CSV數(shù)據(jù),你仍然可以使用csv模塊,不過這時候先創(chuàng)建一個 writer
對象。例如;
headers = ['Symbol','Price','Date','Time','Change','Volume']
rows = [('AA', 39.48, '6/11/2007', '9:36am', -0.18, 181800),
('AIG', 71.38, '6/11/2007', '9:36am', -0.15, 195500),
('AXP', 62.58, '6/11/2007', '9:36am', -0.46, 935000),
]
with open('stocks.csv','w') as f:
f_csv = csv.writer(f)
f_csv.writerow(headers)
f_csv.writerows(rows)
如果你有一個字典序列的數(shù)據(jù),可以像這樣做:
headers = ['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume']
rows = [{'Symbol':'AA', 'Price':39.48, 'Date':'6/11/2007',
'Time':'9:36am', 'Change':-0.18, 'Volume':181800},
{'Symbol':'AIG', 'Price': 71.38, 'Date':'6/11/2007',
'Time':'9:36am', 'Change':-0.15, 'Volume': 195500},
{'Symbol':'AXP', 'Price': 62.58, 'Date':'6/11/2007',
'Time':'9:36am', 'Change':-0.46, 'Volume': 935000},
]
with open('stocks.csv','w') as f:
f_csv = csv.DictWriter(f, headers)
f_csv.writeheader()
f_csv.writerows(rows)
你應該總是優(yōu)先選擇csv模塊分割或解析CSV數(shù)據(jù)。例如,你可能會像編寫類似下面這樣的代碼:
with open('stocks.csv') as f:
for line in f:
row = line.split(',')
# process row
...
使用這種方式的一個缺點就是你仍然需要去處理一些棘手的細節(jié)問題。比如,如果某些字段值被引號包圍,你不得不去除這些引號。另外,如果一個被引號包圍的字段碰巧含有一個逗號,那么程序就會因為產(chǎn)生一個錯誤大小的行而出錯。
默認情況下,csv
庫可識別Microsoft Excel所使用的CSV編碼規(guī)則。這或許也是最常見的形式,并且也會給你帶來最好的兼容性。然而,如果你查看csv的文檔,就會發(fā)現(xiàn)有很多種方法將它應用到其他編碼格式上(如修改分割字符等)。例如,如果你想讀取以tab分割的數(shù)據(jù),可以這樣做:
# Example of reading tab-separated values
with open('stock.tsv') as f:
f_tsv = csv.reader(f, delimiter='\t')
for row in f_tsv:
# Process row
...
如果你正在讀取CSV數(shù)據(jù)并將它們轉換為命名元組,需要注意對列名進行合法性認證。例如,一個CSV格式文件有一個包含非法標識符的列頭行,類似下面這樣:
這樣最終會導致在創(chuàng)建一個命名元組時產(chǎn)生一個 ValueError
異常而失敗。為了解決這問題,你可能不得不先去修正列標題。例如,可以像下面這樣在非法標識符上使用一個正則表達式替換:
import re
with open('stock.csv') as f:
f_csv = csv.reader(f)
headers = [ re.sub('[^a-zA-Z_]', '_', h) for h in next(f_csv) ]
Row = namedtuple('Row', headers)
for r in f_csv:
row = Row(*r)
# Process row
...
還有重要的一點需要強調(diào)的是,csv產(chǎn)生的數(shù)據(jù)都是字符串類型的,它不會做任何其他類型的轉換。如果你需要做這樣的類型轉換,你必須自己手動去實現(xiàn)。下面是一個在CSV數(shù)據(jù)上執(zhí)行其他類型轉換的例子:
col_types = [str, float, str, str, float, int]
with open('stocks.csv') as f:
f_csv = csv.reader(f)
headers = next(f_csv)
for row in f_csv:
# Apply conversions to the row items
row = tuple(convert(value) for convert, value in zip(col_types, row))
...
另外,下面是一個轉換字典中特定字段的例子:
print('Reading as dicts with type conversion')
field_types = [ ('Price', float),
('Change', float),
('Volume', int) ]
with open('stocks.csv') as f:
for row in csv.DictReader(f):
row.update((key, conversion(row[key]))
for key, conversion in field_types)
print(row)
通常來講,你可能并不想過多去考慮這些轉換問題。在實際情況中,CSV文件都或多或少有些缺失的數(shù)據(jù),被破壞的數(shù)據(jù)以及其它一些讓轉換失敗的問題。因此,除非你的數(shù)據(jù)確實有保障是準確無誤的,否則你必須考慮這些問題(你可能需要增加合適的錯誤處理機制)。
最后,如果你讀取CSV數(shù)據(jù)的目的是做數(shù)據(jù)分析和統(tǒng)計的話,你可能需要看一看 Pandas
包。Pandas
包含了一個非常方便的函數(shù)叫 pandas.read_csv()
,它可以加載CSV數(shù)據(jù)到一個 DataFrame
對象中去。然后利用這個對象你就可以生成各種形式的統(tǒng)計、過濾數(shù)據(jù)以及執(zhí)行其他高級操作了。在6.13小節(jié)中會有這樣一個例子。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: