.* “”“解析
代码如下:
p = re.compile(r”(%s) - - [(%s)/(%s)/(%s):(%s) [S]+] “(%s)?[s]?(%s)?.*?” (%s) (%s) “(%s)” “(%s).*?”“ %( ip, date, month, year, log_time, method, request, status, bodyBytesSent, refer, userAgent ), re.VERBOSE)
m = re.findall(p, logline)
这样,就可以得到日志条目中各个要素的原始数据,
格式及内容转化
得到日志原始数据之后,需要根据业务要求,对原始数据进行格式及内容转化。
这里需要处理的内容包括:时间,request,userAgent
时间格式转化
在日志信息原始数据中存在Dec这样的信息,利用Python的time模块可以方便的进行解析
import timedef parsetime(date, month, year, log_time): time_str = ‘%s%s%s %s‘ %(year, month, date, log_time) return time.strptime(time_str, ‘%Y%b%d %H:%M:%S‘)
解析request
在日志信息原始数据中得到的request的内容格式为:
/report?XXXXXX
这里只需要根据协议取出XXXXXX即可。
这里仍然采用Python的re模块
import redef parserequest(rqst): param = r”?P
.*“ p = re.compile(r”/report?(%s)“ %param, re.VERBOSE) return re.findall(p, rqst)
接下来需要根据业务协议解析参数内容。这里需要先利用base64模块解码,然后再利用struct模块解构内容:
import structimport base64def parseparam(param): decodeinfo = base64.b64decode(param) s = struct.Struct(‘!x‘ + bytes(len(decodeinfo) - (1 + 4 + 4 + 12)) + ‘xii12x‘) return s.unpack(decodeinfo)
解析userAgent
在日志信息原始数据中userAgent数据的格式为:
XXX; XXX; XXX; XXX
根据业务要求,只需要取出最后一项即可。
这里采用re模块来解析。
import redef parseuseragent(useragent): agent = r”?P.*“ p = re.compile(r”.*;.*;.*;(%s)“ %agent, re.VERBOSE) return re.findall(p, useragent)
至此,nginx日志文件解析基本完成。
剩下的工作就是根据业务需要,对获得的基本信息进行处理。
以上所述就是本文的全部内容了,希望大家能够喜欢。
篇2:Python 解析XML文件
2014-04-04使用Python获取CPU、内存和硬盘等windowns系统信息的2个例子
-11-11python聊天程序实例代码分享
2013-11-11python爬取网站数据保存使用的方法
2014-06-06python网络编程学习笔记(四):域名系统
2014-05-05一则python3的简单爬虫代码
2014-03-03python基础教程之字典操作详解
2014-04-04Python设计模式之代理模式实例
-12-12python 测试实现方法
2013-12-12python定时采集摄像头图像上传ftp服务器功能实现
-11-11Python+Django在windows下的开发环境配置图解
篇3:Python 解析XML文件
最近更 新
python list转dict示例分享
python生成指定尺寸缩略图的示例
python mysqldb连接数据库
python算法学习之计数排序实例
Python开发编码规范
python2.7删除文件夹和删除文件代码实例
Python 过滤字符串的技巧,map与itertools
Python中os和shutil模块实用方法集锦
python实现目录树生成示例
python通过scapy获取局域网所有主机mac地
热 点 排 行
Python入门教程 超详细1小时学会
python 中文乱码问题深入分析
比较详细Python正则表达式操作指
Python字符串的encode与decode研
Python open读写文件实现脚本
Python enumerate遍历数组示例应
Python 深入理解yield
Python+Django在windows下的开发
python 文件和路径操作函数小结
python 字符串split的用法分享
篇4:python文件操作
一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法,
1.得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd
2.返回指定目录下的所有文件和目录名:os.listdir()
3.函数用来删除一个文件:os.remove()
4.删除多个目录:os.removedirs(r“c:python”)
5.检验给出的路径是否是一个文件:os.path.isfile()
6.检验给出的路径是否是一个目录:os.path.isdir()
7.判断是否是绝对路径:os.path.isabs()
8.检验给出的路径是否真地存:os.path.exists()
9.返回一个路径的目录名和文件名:os.path.split() eg os.path.split(‘/home/swaroop/byte/code/poem.txt‘) 结果:(‘/home/swaroop/byte/code‘, ‘poem.txt‘)
10.分离扩展名:os.path.splitext()
11.获取路径名:os.path.dirname()
12.获取文件名:os.path.basename()
13.运行shell命令: os.system()
14.读取和设置环境变量:os.getenv() 与os.putenv()
15.给出当前平台使用的行终止符:os.linesep Windows使用‘rn‘,Linux使用‘n‘而Mac使用‘r‘
16.指示你正在使用的平台:os.name 对于Windows,它是‘nt‘,而对于Linux/Unix用户,它是‘posix‘
17.重命名:os.rename(old, new)
18.创建多级目录:os.makedirs(r“c:pythontest”)
19.创建单个目录:os.mkdir(“test”)
20.获取文件属性:os.stat(file)
21.修改文件权限与时间戳:os.chmod(file)
22.终止当前进程:os.exit
23.获取文件大小:os.path.getsize(filename)
二、文件操作方法大全:
1.os.mknod(”test.txt“) #创建空文件
2.fp = open(”test.txt“,w) #直接打开一个文件,如果文件不存在则创建文件
3.关于open 模式:
复制代码代码如下:w:以写方式打开,a:以追加模式打开 (从 EOF 开始, 必要时创建新文件)
r+:以读写模式打开
w+:以读写模式打开 (参见 w )
a+:以读写模式打开 (参见 a )
rb:以二进制读模式打开
wb:以二进制写模式打开 (参见 w )
ab:以二进制追加模式打开 (参见 a )
rb+:以二进制读写模式打开 (参见 r+ )
wb+:以二进制读写模式打开 (参见 w+ )
ab+:以二进制读写模式打开 (参见 a+ )
fp.read([size]) #size为读取的长度,以byte为单位
fp.readline([size]) #读一行,如果定义了size,有可能返回的只是一行的一部分
fp.readlines([size]) #把文件每一行作为一个list的一个成员,并返回这个list,
其实它的内部是通过循环调用readline()来实现的。如果提供size参数,size是表示读取内容的总长,也就是说可能只读到文件的一部分。
fp.write(str) #把str写到文件中,write()并不会在str后加上一个换行符
fp.writelines(seq)#把seq的内容全部写到文件中(多行一次性写入)。这个函数也只是忠实地写入,不会在每行后面加上任何东西。
fp.close() #关闭文件。python会在一个文件不用后自动关闭文件,不过这一功能没有保证,最好还是养成自己关闭的习惯。 如果一个文件在关闭后还对其进行操作会产生ValueError
fp.flush() #把缓冲区的内容写入硬盘
fp.fileno() #返回一个长整型的”文件标签“
fp.isatty() #文件是否是一个终端设备文件(unix系统中的)
fp.tell() #返回文件操作标记的当前位置,以文件的开头为原点
fp.next() #返回下一行,并将文件操作标记位移到下一行。把一个file用于for … in file这样的语句时,就是调用next()函数来实现遍历的。
fp.seek(offset[,whence])#将文件打操作标记移到offset的位置。这个offset一般是相对于文件的开头来计算的,一般为正数。但如果提供了whence参数就不一定了,whence可以为0表示从头开始计算,1表示以当前位置为原点计算。2表示以文件末尾为原点进行计算。需要注意,如果文件以a或a+的模式打开,每次进行写操作时,文件操作标记会自动返回到文件末尾。
fp.truncate([size]) #把文件裁成规定的大小,默认的是裁到当前文件操作标记的位置。如果size比文件的大小还要大,依据系统的不同可能是不改变文件,也可能是用0把文件补到相应的大小,也可能是以一些随机的内容加上去。
三、目录操作方法大全
1.创建目录
os.mkdir(”file“)
2.复制文件:
shutil.copyfile(”oldfile“,”newfile“) #oldfile和newfile都只能是文件
shutil.copy(”oldfile“,”newfile“)#oldfile只能是文件夹,newfile可以是文件,也可以是目标目录
3.复制文件夹:
4.shutil.copytree(”olddir“,”newdir“) #olddir和newdir都只能是目录,且newdir必须不存在
5.重命名文件(目录)
os.rename(”oldname“,”newname“) #文件或目录都是使用这条命令
6.移动文件(目录)
shutil.move(”oldpos“,”newpos“)
7.删除文件
os.remove(”file“)
8.删除目录
os.rmdir(”dir“) #只能删除空目录
shutil.rmtree(”dir“)#空目录、有内容的目录都可以删
9.转换目录
os.chdir(”path“) #换路径
篇5:Python struct模块解析
最近更 新
python list 合并连接字符串的方法
用python实现的可以拷贝或剪切一个文件列
Python3 入门教程 简单但比较不错
python实现数通设备tftp备份配置文件示例
python改变日志(logging)存放位置的示例
python网络编程学习笔记(四):域名系统
python计数排序和基数排序算法实例
python pickle 和 shelve模块的用法
用pywin32实现windows模拟鼠标及键盘动作
Python字符串的encode与decode研究心得乱
热 点 排 行
Python入门教程 超详细1小时学会
python 中文乱码问题深入分析
比较详细Python正则表达式操作指
Python字符串的encode与decode研
Python open读写文件实现脚本
Python enumerate遍历数组示例应
Python 深入理解yield
Python+Django在windows下的开发
python 文件和路径操作函数小结
python 字符串split的用法分享
篇6:python 解析HTML
层次化的数据有多个解析HTML的第三方库,例如:LXML,BeautifulSoup,HTMLParser等等,
python 解析HTML
。解析HTML所面临的问题:没有统一的标准。很多网页并没有遵循HTML文档
2.1 BeautifulSoup
BeautifulSoup第三方库有以下特点:
- 容易使用。
- 版本4允许使用lxml和html5lib,可以更好的处理不规范的HTML。
- 在处理编码方面也比较有效。
下面是解析方法及优缺点的一个对比:
篇7:python 解析HTML
从终端进入python环境,按照以下方式进行试验。如果没有bs4库的话,可以使用以下命令(Ubuntu下)进行安装:
sudo pip install beautifulsoup4
>>>
>>>from bs4 import BeautifulSoup
>>>
>>>import urllib
>>>html = urllib.urlopen(“192.168.1.33/temwet/“)
>>>
>>>html
addinfourl at 164618764 whose fp = socket._fileobject object at 0x9cd19ac
>>>html.code
200
>>>
下面看一下网页的源代码:
使用BeautifulSoup进行解析:
使用bt = BeautifulSoup(html.read,”lxml“)
语句对接收到的html进行解析,bt.title, bt.meta, bt.title.string, bt.find_all(‘meta‘)
进行元素的查找,
电脑资料
对查找到的多个结果,可以以数组的形式存储和访问。
如果想提取网页中含有的超链接呢?我们只需要查找到”a”标签,并将其提取出来即可。links = bt.find_all(”a‘)
可将网页中所有的超链接保存在links中,如果len(links)
等于0的话就是网页中没有超链接,否则直接以数组的方式访问即可。
篇8:Python 文件I/O
最简单的输出方法是用print语句,你可以给它传递零个或多个用逗号隔开的表达式。此函数把你传递的表达式转换成一个字符串表达式,并将结果写到标准输出如下:
#!/usr/bin/python# -*- coding: UTF-8 -*- print “Python 是一个非常棒的语言,不是吗?”;
你的标准屏幕上会产生以下结果:
Python 是一个非常棒的语言,不是吗?
★ Python读写Excel文件的实例
★ python批量修改文件后缀示例代码
★ 文件范本
★ 文件范文
★ python学习札记
★ 日志范文
★ 投标文件范本
★ 文件管理制度
★ [作文素材]python if not Secretspeakingif
★ 研修日志
Python解析nginx日志文件(共8篇)
欢迎下载DOC格式的Python解析nginx日志文件,但愿能给您带来参考作用!