python怎么读取csv文件
这两天刚好看到,Python CookBook上有说到.这里是三种读取csv的方法.
文件格式是这样的
Region,DATE_,RAW_ACU
zh_ch,Jan 27 2017,
import?csv
from?collections?import?namedtuple
#?with?open('data.csv')?as?f:
#?????f_csv?=?csv.reader(f)
#?????headers?=?next(f_csv)
#?????for?row?in?f_csv:
#?????????#?print(row)
#?????????print(row[0],?row[1])
#?with?open('data.csv',?encoding='utf-8-sig')?as?f:
#?????f_csv?=?csv.reader(f)
#?????headers?=?next(f_csv)
#?????print(headers)
#?????Row?=?namedtuple('Row',?headers)
#?????for?r?in?f_csv:
#?????????row?=?Row(*r)
#?????????print(row.Region,?row.DATE_)
with?open('data.csv',?encoding='utf-8-sig')?as?f:
????f_csv?=?csv.DictReader(f)
????for?row?in?f_csv:
????????print(row['DATE_'],?row)
具体可以看这个文档.
python怎么读取txt文件中的数据
with?open(txtfilename,'r')?as?fh:
????for?line?in?fh.readlines():
????????print?line
Python中怎么读取文本格式的文档中的数据
f=file('test.txt')
while?True:?
????line=f.readline()?
????if?len(line)==0:
????????break?
????print?line,
f.close()
python中怎么读取txt文件
f?=?open('*.txt','r')
txt?=?f.read()
print?txt*.txt是你的txt文件,放到同个目录下就可以,或者加路径.
f.read()就把txt文件中的全部内容取出来了.
python怎样读取pdf文件的内容
1,引言
晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取.神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容.
从而产生了一个问题:用Python爬虫的话,能做到什么程度.下面将讲述一个实验过程和源代码.
2,把pdf转换成文本的Python源代码
下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来.这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串,然后用StringIO转换成文件对象.(源代码下载地址参看文章末尾的GitHub源)
复制代码
from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdfFile = urlopen("")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()
复制代码
如果PDF文件在你的电脑里,那就把urlopen返回的对象pdfFile替换成普通的open()文件对象.
3,展望
这个实验只是把pdf转换成了文本,但是没有像开头所说的转换成html标签,那么在Python编程环境下是否有这个能力,留待今后探索.
4,集搜客GooSeeker开源代码下载源
1. GooSeeker开源Python网络爬虫GitHub源
5,文档修改历史
2016-05-26:V2.0,增补文字说明
2016-05-29:V2.1,增加第六章:源代码下载源,并更换github源的网址