Python解析nginx日志文件

时间:2022-11-24 23:12:42 作者:Rebecca 综合材料 收藏本文 下载本文

“Rebecca”通过精心收集,向本站投稿了8篇Python解析nginx日志文件,这里给大家分享一些Python解析nginx日志文件,供大家参考。

篇1:Python解析nginx日志文件

Web服务器的各种系统管理工作包括了多Nginx/Apache 日志的统计,python使这个任务变得极其简单,下面我们来详细讲解下具体的做法,有需要的小伙伴可以参考下,

项目的一个需求是解析nginx的日志文件。

简单的整理如下:

日志规则描述

首先要明确自己的Nginx的日志格式,这里采用默认Nginx日志格式:

log_format main ‘$remote_addr - $remote_user [$time_local] “$request” ‘ ‘$status $body_bytes_sent “$http_referer” ‘ ‘“$http_user_agent” “$http_x_forwarded_for”‘;

其中一条真实记录样例如下:

代码如下:

172.22.8.207 - - [16/Dec/:17:57:35 +0800] “GET /report?DOmjjuS6keWJp+WculSQAgdUkAIPODExMzAwMDJDN0FC HTTP/1.1” 200 0 “-” “XXXXXXX/1.0.16; iPhone/iOS 8.1.2; ; 8DA77E2F91D0”

其中,客户端型号信息用XXXXXXX代替。

项目中已经按照业务规则对Nginx日志文件进行了处理命名规则如下:

ID-ID-YYMMDD-hhmmss

并且所有的日志文件存放在统一路径下。

解决思路

获取所有日志文件path

这里使用Python的glob模块来获取日志文件path

import globdef readfile(path): return glob.glob(path + ‘*-*-*-*‘)

获取日志文件中每一行的内容

使用Python的linecache模块来获取文件行的内容

import linecachedef readline(path): return linecache.getlines(path)

注意:linecache模块使用了缓存,所以存在以下问题:

在使用linecache模块读取文件内容以后,如果文件发生了变化,那么需要使用linecache.updatecache(filename)来更新缓存,以获取最新变化。

linecache模块使用缓存,所以会耗费内存,耗费量与要解析的文件相关。最好在使用完毕后执行linecache.clearcache清空一下缓存。

当然,作为优化,这里可以利用生成器来进行优化。暂且按下不表。

处理日志条目

一条日志信息就是一个特定格式的字符串,因此使用正则表达式来解析,这里使用Python的re模块。

下面,一条一条建立规则:

规则

ip = r“?P[d.]*” date = r“?Pd+” month = r“?Pw+” year = r“?Pd+” log_time = r“?P

解析

代码如下:

p = re.compile(r”(%s) - - [(%s)/(%s)/(%s):(%s) [S]+] “(%s)?[s]?(%s)?.*?” (%s) (%s) “(%s)” “(%s).*?”“ %( ip, date, month, year, log_time, method, request, status, bodyBytesSent, refer, userAgent ), re.VERBOSE)

m = re.findall(p, logline)

这样,就可以得到日志条目中各个要素的原始数据,

格式及内容转化

得到日志原始数据之后,需要根据业务要求,对原始数据进行格式及内容转化。

这里需要处理的内容包括:时间,request,userAgent

时间格式转化

在日志信息原始数据中存在Dec这样的信息,利用Python的time模块可以方便的进行解析

import timedef parsetime(date, month, year, log_time): time_str = ‘%s%s%s %s‘ %(year, month, date, log_time) return time.strptime(time_str, ‘%Y%b%d %H:%M:%S‘)

解析request

在日志信息原始数据中得到的request的内容格式为:

/report?XXXXXX

这里只需要根据协议取出XXXXXX即可。

这里仍然采用Python的re模块

import redef parserequest(rqst): param = r”?P

.*“ p = re.compile(r”/report?(%s)“ %param, re.VERBOSE) return re.findall(p, rqst)

接下来需要根据业务协议解析参数内容。这里需要先利用base64模块解码,然后再利用struct模块解构内容:

import structimport base64def parseparam(param): decodeinfo = base64.b64decode(param) s = struct.Struct(‘!x‘ + bytes(len(decodeinfo) - (1 + 4 + 4 + 12)) + ‘xii12x‘) return s.unpack(decodeinfo)

解析userAgent

在日志信息原始数据中userAgent数据的格式为:

XXX; XXX; XXX; XXX

根据业务要求,只需要取出最后一项即可。

这里采用re模块来解析。

import redef parseuseragent(useragent): agent = r”?P.*“ p = re.compile(r”.*;.*;.*;(%s)“ %agent, re.VERBOSE) return re.findall(p, useragent)

至此,nginx日志文件解析基本完成。

剩下的工作就是根据业务需要,对获得的基本信息进行处理。

以上所述就是本文的全部内容了,希望大家能够喜欢。

篇2:Python 解析XML文件

2014-04-04使用Python获取CPU、内存和硬盘等windowns系统信息的2个例子

-11-11python聊天程序实例代码分享

2013-11-11python爬取网站数据保存使用的方法

2014-06-06python网络编程学习笔记(四):域名系统

2014-05-05一则python3的简单爬虫代码

2014-03-03python基础教程之字典操作详解

2014-04-04Python设计模式之代理模式实例

-12-12python 测试实现方法

2013-12-12python定时采集摄像头图像上传ftp服务器功能实现

-11-11Python+Django在windows下的开发环境配置图解

篇3:Python 解析XML文件

最近更 新

python list转dict示例分享

python生成指定尺寸缩略图的示例

python mysqldb连接数据库

python算法学习之计数排序实例

Python开发编码规范

python2.7删除文件夹和删除文件代码实例

Python 过滤字符串的技巧,map与itertools

Python中os和shutil模块实用方法集锦

python实现目录树生成示例

python通过scapy获取局域网所有主机mac地

热 点 排 行

Python入门教程 超详细1小时学会

python 中文乱码问题深入分析

比较详细Python正则表达式操作指

Python字符串的encode与decode研

Python open读写文件实现脚本

Python enumerate遍历数组示例应

Python 深入理解yield

Python+Django在windows下的开发

python 文件和路径操作函数小结

python 字符串split的用法分享

篇4:python文件操作

一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法,

1.得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd

2.返回指定目录下的所有文件和目录名:os.listdir()

3.函数用来删除一个文件:os.remove()

4.删除多个目录:os.removedirs(r“c:python”)

5.检验给出的路径是否是一个文件:os.path.isfile()

6.检验给出的路径是否是一个目录:os.path.isdir()

7.判断是否是绝对路径:os.path.isabs()

8.检验给出的路径是否真地存:os.path.exists()

9.返回一个路径的目录名和文件名:os.path.split() eg os.path.split(‘/home/swaroop/byte/code/poem.txt‘) 结果:(‘/home/swaroop/byte/code‘, ‘poem.txt‘)

10.分离扩展名:os.path.splitext()

11.获取路径名:os.path.dirname()

12.获取文件名:os.path.basename()

13.运行shell命令: os.system()

14.读取和设置环境变量:os.getenv() 与os.putenv()

15.给出当前平台使用的行终止符:os.linesep Windows使用‘rn‘,Linux使用‘n‘而Mac使用‘r‘

16.指示你正在使用的平台:os.name 对于Windows,它是‘nt‘,而对于Linux/Unix用户,它是‘posix‘

17.重命名:os.rename(old, new)

18.创建多级目录:os.makedirs(r“c:pythontest”)

19.创建单个目录:os.mkdir(“test”)

20.获取文件属性:os.stat(file)

21.修改文件权限与时间戳:os.chmod(file)

22.终止当前进程:os.exit

23.获取文件大小:os.path.getsize(filename)

二、文件操作方法大全:

1.os.mknod(”test.txt“) #创建空文件

2.fp = open(”test.txt“,w) #直接打开一个文件,如果文件不存在则创建文件

3.关于open 模式:

复制代码代码如下:w:以写方式打开,

a:以追加模式打开 (从 EOF 开始, 必要时创建新文件)

r+:以读写模式打开

w+:以读写模式打开 (参见 w )

a+:以读写模式打开 (参见 a )

rb:以二进制读模式打开

wb:以二进制写模式打开 (参见 w )

ab:以二进制追加模式打开 (参见 a )

rb+:以二进制读写模式打开 (参见 r+ )

wb+:以二进制读写模式打开 (参见 w+ )

ab+:以二进制读写模式打开 (参见 a+ )

fp.read([size]) #size为读取的长度,以byte为单位

fp.readline([size]) #读一行,如果定义了size,有可能返回的只是一行的一部分

fp.readlines([size]) #把文件每一行作为一个list的一个成员,并返回这个list,

其实它的内部是通过循环调用readline()来实现的。如果提供size参数,size是表示读取内容的总长,也就是说可能只读到文件的一部分。

fp.write(str) #把str写到文件中,write()并不会在str后加上一个换行符

fp.writelines(seq)#把seq的内容全部写到文件中(多行一次性写入)。这个函数也只是忠实地写入,不会在每行后面加上任何东西。

fp.close() #关闭文件。python会在一个文件不用后自动关闭文件,不过这一功能没有保证,最好还是养成自己关闭的习惯。 如果一个文件在关闭后还对其进行操作会产生ValueError

fp.flush() #把缓冲区的内容写入硬盘

fp.fileno() #返回一个长整型的”文件标签“

fp.isatty() #文件是否是一个终端设备文件(unix系统中的)

fp.tell() #返回文件操作标记的当前位置,以文件的开头为原点

fp.next() #返回下一行,并将文件操作标记位移到下一行。把一个file用于for … in file这样的语句时,就是调用next()函数来实现遍历的。

fp.seek(offset[,whence])#将文件打操作标记移到offset的位置。这个offset一般是相对于文件的开头来计算的,一般为正数。但如果提供了whence参数就不一定了,whence可以为0表示从头开始计算,1表示以当前位置为原点计算。2表示以文件末尾为原点进行计算。需要注意,如果文件以a或a+的模式打开,每次进行写操作时,文件操作标记会自动返回到文件末尾。

fp.truncate([size]) #把文件裁成规定的大小,默认的是裁到当前文件操作标记的位置。如果size比文件的大小还要大,依据系统的不同可能是不改变文件,也可能是用0把文件补到相应的大小,也可能是以一些随机的内容加上去。

三、目录操作方法大全

1.创建目录

os.mkdir(”file“)

2.复制文件:

shutil.copyfile(”oldfile“,”newfile“) #oldfile和newfile都只能是文件

shutil.copy(”oldfile“,”newfile“)#oldfile只能是文件夹,newfile可以是文件,也可以是目标目录

3.复制文件夹:

4.shutil.copytree(”olddir“,”newdir“) #olddir和newdir都只能是目录,且newdir必须不存在

5.重命名文件(目录)

os.rename(”oldname“,”newname“) #文件或目录都是使用这条命令

6.移动文件(目录)

shutil.move(”oldpos“,”newpos“)

7.删除文件

os.remove(”file“)

8.删除目录

os.rmdir(”dir“) #只能删除空目录

shutil.rmtree(”dir“)#空目录、有内容的目录都可以删

9.转换目录

os.chdir(”path“) #换路径

篇5:Python struct模块解析

最近更 新

python list 合并连接字符串的方法

用python实现的可以拷贝或剪切一个文件列

Python3 入门教程 简单但比较不错

python实现数通设备tftp备份配置文件示例

python改变日志(logging)存放位置的示例

python网络编程学习笔记(四):域名系统

python计数排序和基数排序算法实例

python pickle 和 shelve模块的用法

用pywin32实现windows模拟鼠标及键盘动作

Python字符串的encode与decode研究心得乱

热 点 排 行

Python入门教程 超详细1小时学会

python 中文乱码问题深入分析

比较详细Python正则表达式操作指

Python字符串的encode与decode研

Python open读写文件实现脚本

Python enumerate遍历数组示例应

Python 深入理解yield

Python+Django在windows下的开发

python 文件和路径操作函数小结

python 字符串split的用法分享

篇6:python 解析HTML

层次化的数据有多个解析HTML的第三方库,例如:LXML,BeautifulSoup,HTMLParser等等,

python 解析HTML

。解析HTML所面临的问题:

没有统一的标准。很多网页并没有遵循HTML文档

2.1 BeautifulSoup

BeautifulSoup第三方库有以下特点:

- 容易使用。

- 版本4允许使用lxml和html5lib,可以更好的处理不规范的HTML。

- 在处理编码方面也比较有效。

下面是解析方法及优缺点的一个对比:

篇7:python 解析HTML

从终端进入python环境,按照以下方式进行试验。如果没有bs4库的话,可以使用以下命令(Ubuntu下)进行安装:

sudo pip install beautifulsoup4

>>>

>>>from bs4 import BeautifulSoup

>>>

>>>import urllib

>>>html = urllib.urlopen(“192.168.1.33/temwet/“)

>>>

>>>html

addinfourl at 164618764 whose fp = socket._fileobject object at 0x9cd19ac

>>>html.code

200

>>>

下面看一下网页的源代码:

使用BeautifulSoup进行解析:

使用bt = BeautifulSoup(html.read,”lxml“)语句对接收到的html进行解析,bt.title, bt.meta, bt.title.string, bt.find_all(‘meta‘)进行元素的查找,

电脑资料

对查找到的多个结果,可以以数组的形式存储和访问。

如果想提取网页中含有的超链接呢?我们只需要查找到”a”标签,并将其提取出来即可。links = bt.find_all(”a‘)可将网页中所有的超链接保存在links中,如果len(links)等于0的话就是网页中没有超链接,否则直接以数组的方式访问即可。

篇8:Python 文件I/O

最简单的输出方法是用print语句,你可以给它传递零个或多个用逗号隔开的表达式。此函数把你传递的表达式转换成一个字符串表达式,并将结果写到标准输出如下:

#!/usr/bin/python# -*- coding: UTF-8 -*- print “Python 是一个非常棒的语言,不是吗?”;

你的标准屏幕上会产生以下结果:

Python 是一个非常棒的语言,不是吗?

Python读写Excel文件的实例

python批量修改文件后缀示例代码

文件范本

文件范文

python学习札记

日志范文

投标文件范本

文件管理制度

[作文素材]python if not Secretspeakingif

研修日志

Python解析nginx日志文件(共8篇)

欢迎下载DOC格式的Python解析nginx日志文件,但愿能给您带来参考作用!
推荐度: 推荐 推荐 推荐 推荐 推荐
点击下载文档 文档为doc格式
点击下载本文文档