Python解析nginx日志文件

时间：2022-11-24 23:12:42 作者：Rebecca 综合材料收藏本文下载本文

“Rebecca”通过精心收集，向本站投稿了8篇Python解析nginx日志文件，这里给大家分享一些Python解析nginx日志文件，供大家参考。

目录
第1篇：Python解析nginx日志文件第2篇：Python 解析XML文件第3篇：Python 解析XML文件第4篇：python文件操作第5篇：Python struct模块解析第6篇：python 解析HTML第7篇：python 解析HTML第8篇：Python 文件I/O

篇1：Python解析nginx日志文件

Web服务器的各种系统管理工作包括了多Nginx/Apache 日志的统计，python使这个任务变得极其简单，下面我们来详细讲解下具体的做法，有需要的小伙伴可以参考下，

项目的一个需求是解析nginx的日志文件。

简单的整理如下：

日志规则描述

首先要明确自己的Nginx的日志格式，这里采用默认Nginx日志格式：

log_format main ‘$remote_addr - $remote_user [$time_local] “$request” ‘ ‘$status $body_bytes_sent “$http_referer” ‘ ‘“$http_user_agent” “$http_x_forwarded_for”‘;

其中一条真实记录样例如下：

代码如下:

172.22.8.207 - - [16/Dec/:17:57:35 +0800] “GET /report?DOmjjuS6keWJp+WculSQAgdUkAIPODExMzAwMDJDN0FC HTTP/1.1” 200 0 “-” “XXXXXXX/1.0.16; iPhone/iOS 8.1.2; ; 8DA77E2F91D0”

其中，客户端型号信息用XXXXXXX代替。

项目中已经按照业务规则对Nginx日志文件进行了处理命名规则如下：

ID-ID-YYMMDD-hhmmss

并且所有的日志文件存放在统一路径下。

解决思路

获取所有日志文件path

这里使用Python的glob模块来获取日志文件path

import globdef readfile(path): return glob.glob(path + ‘*-*-*-*‘)

获取日志文件中每一行的内容

使用Python的linecache模块来获取文件行的内容

import linecachedef readline(path): return linecache.getlines(path)

注意：linecache模块使用了缓存，所以存在以下问题：

在使用linecache模块读取文件内容以后，如果文件发生了变化，那么需要使用linecache.updatecache(filename)来更新缓存，以获取最新变化。

linecache模块使用缓存，所以会耗费内存，耗费量与要解析的文件相关。最好在使用完毕后执行linecache.clearcache清空一下缓存。

当然，作为优化，这里可以利用生成器来进行优化。暂且按下不表。

处理日志条目

一条日志信息就是一个特定格式的字符串，因此使用正则表达式来解析，这里使用Python的re模块。

下面，一条一条建立规则：

规则

ip = r“?P[d.]*” date = r“?Pd+” month = r“?Pw+” year = r“?Pd+” log_time = r“?PS+” method = r“?PS+” request = r“?PS+” status = r“?Pd+” bodyBytesSent = r“?Pd+” refer = r“”“?P[^”]* “”“ userAgent=r”“”?P .* “”“

解析

代码如下:

p = re.compile(r”(%s) - - [(%s)/(%s)/(%s):(%s) [S]+] “(%s)?[s]?(%s)?.*?” (%s) (%s) “(%s)” “(%s).*?”“ %( ip, date, month, year, log_time, method, request, status, bodyBytesSent, refer, userAgent ), re.VERBOSE)

m = re.findall(p, logline)

这样，就可以得到日志条目中各个要素的原始数据，

格式及内容转化

得到日志原始数据之后，需要根据业务要求，对原始数据进行格式及内容转化。

这里需要处理的内容包括：时间，request，userAgent

时间格式转化

在日志信息原始数据中存在Dec这样的信息，利用Python的time模块可以方便的进行解析

import timedef parsetime(date, month, year, log_time): time_str = ‘%s%s%s %s‘ %(year, month, date, log_time) return time.strptime(time_str, ‘%Y%b%d %H:%M:%S‘)

解析request

在日志信息原始数据中得到的request的内容格式为：

/report?XXXXXX

这里只需要根据协议取出XXXXXX即可。

这里仍然采用Python的re模块

import redef parserequest(rqst): param = r”?P

.*“ p = re.compile(r”/report?(%s)“ %param, re.VERBOSE) return re.findall(p, rqst)

接下来需要根据业务协议解析参数内容。这里需要先利用base64模块解码，然后再利用struct模块解构内容：

import structimport base64def parseparam(param): decodeinfo = base64.b64decode(param) s = struct.Struct(‘!x‘ + bytes(len(decodeinfo) - (1 + 4 + 4 + 12)) + ‘xii12x‘) return s.unpack(decodeinfo)

解析userAgent

在日志信息原始数据中userAgent数据的格式为：

XXX; XXX; XXX; XXX

根据业务要求，只需要取出最后一项即可。

这里采用re模块来解析。

import redef parseuseragent(useragent): agent = r”?P.*“ p = re.compile(r”.*;.*;.*;(%s)“ %agent, re.VERBOSE) return re.findall(p, useragent)

至此，nginx日志文件解析基本完成。

剩下的工作就是根据业务需要，对获得的基本信息进行处理。

以上所述就是本文的全部内容了，希望大家能够喜欢。

篇2：Python 解析XML文件

2014-04-04使用Python获取CPU、内存和硬盘等windowns系统信息的2个例子

-11-11python聊天程序实例代码分享

2013-11-11python爬取网站数据保存使用的方法

2014-06-06python网络编程学习笔记(四)：域名系统

2014-05-05一则python3的简单爬虫代码

2014-03-03python基础教程之字典操作详解

2014-04-04Python设计模式之代理模式实例

-12-12python 测试实现方法

2013-12-12python定时采集摄像头图像上传ftp服务器功能实现

-11-11Python+Django在windows下的开发环境配置图解

篇3：Python 解析XML文件

热点排行

Python入门教程超详细1小时学会

python 中文乱码问题深入分析

比较详细Python正则表达式操作指

Python字符串的encode与decode研

Python open读写文件实现脚本

Python enumerate遍历数组示例应

Python 深入理解yield

Python+Django在windows下的开发

python 文件和路径操作函数小结

python 字符串split的用法分享

篇4：python文件操作

一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法，

1.得到当前工作目录，即当前Python脚本工作的目录路径: os.getcwd

2.返回指定目录下的所有文件和目录名:os.listdir()

3.函数用来删除一个文件:os.remove()

4.删除多个目录：os.removedirs（r“c：python”）

5.检验给出的路径是否是一个文件：os.path.isfile()

6.检验给出的路径是否是一个目录：os.path.isdir()

7.判断是否是绝对路径：os.path.isabs()

8.检验给出的路径是否真地存:os.path.exists()

9.返回一个路径的目录名和文件名:os.path.split() eg os.path.split(‘/home/swaroop/byte/code/poem.txt‘) 结果：(‘/home/swaroop/byte/code‘, ‘poem.txt‘)

10.分离扩展名：os.path.splitext()

11.获取路径名：os.path.dirname()

12.获取文件名：os.path.basename()

13.运行shell命令: os.system()

14.读取和设置环境变量:os.getenv() 与os.putenv()

15.给出当前平台使用的行终止符:os.linesep Windows使用‘rn‘，Linux使用‘n‘而Mac使用‘r‘

16.指示你正在使用的平台：os.name 对于Windows，它是‘nt‘，而对于Linux/Unix用户，它是‘posix‘

17.重命名：os.rename（old， new）

18.创建多级目录：os.makedirs（r“c：pythontest”）

19.创建单个目录：os.mkdir（“test”）

20.获取文件属性：os.stat（file）

21.修改文件权限与时间戳：os.chmod（file）

22.终止当前进程：os.exit

23.获取文件大小：os.path.getsize（filename）

二、文件操作方法大全：

1.os.mknod(”test.txt“) #创建空文件

2.fp = open(”test.txt“,w) #直接打开一个文件，如果文件不存在则创建文件

3.关于open 模式：

复制代码代码如下:w：以写方式打开，

a：以追加模式打开 (从 EOF 开始, 必要时创建新文件)

r+：以读写模式打开

w+：以读写模式打开 (参见 w )

a+：以读写模式打开 (参见 a )

rb：以二进制读模式打开

wb：以二进制写模式打开 (参见 w )

ab：以二进制追加模式打开 (参见 a )

rb+：以二进制读写模式打开 (参见 r+ )

wb+：以二进制读写模式打开 (参见 w+ )

ab+：以二进制读写模式打开 (参见 a+ )

fp.read([size]) #size为读取的长度，以byte为单位

fp.readline([size]) #读一行，如果定义了size，有可能返回的只是一行的一部分

fp.readlines([size]) #把文件每一行作为一个list的一个成员，并返回这个list，

其实它的内部是通过循环调用readline()来实现的。如果提供size参数，size是表示读取内容的总长，也就是说可能只读到文件的一部分。

fp.write(str) #把str写到文件中，write()并不会在str后加上一个换行符

fp.writelines(seq)#把seq的内容全部写到文件中(多行一次性写入)。这个函数也只是忠实地写入，不会在每行后面加上任何东西。

fp.close() #关闭文件。python会在一个文件不用后自动关闭文件，不过这一功能没有保证，最好还是养成自己关闭的习惯。如果一个文件在关闭后还对其进行操作会产生ValueError

fp.flush() #把缓冲区的内容写入硬盘

fp.fileno() #返回一个长整型的”文件标签“

fp.isatty() #文件是否是一个终端设备文件（unix系统中的）

fp.tell() #返回文件操作标记的当前位置，以文件的开头为原点

fp.next() #返回下一行，并将文件操作标记位移到下一行。把一个file用于for … in file这样的语句时，就是调用next()函数来实现遍历的。

fp.seek(offset[,whence])#将文件打操作标记移到offset的位置。这个offset一般是相对于文件的开头来计算的，一般为正数。但如果提供了whence参数就不一定了，whence可以为0表示从头开始计算，1表示以当前位置为原点计算。2表示以文件末尾为原点进行计算。需要注意，如果文件以a或a+的模式打开，每次进行写操作时，文件操作标记会自动返回到文件末尾。

fp.truncate([size]) #把文件裁成规定的大小，默认的是裁到当前文件操作标记的位置。如果size比文件的大小还要大，依据系统的不同可能是不改变文件，也可能是用0把文件补到相应的大小，也可能是以一些随机的内容加上去。

三、目录操作方法大全

1.创建目录

os.mkdir(”file“)

2.复制文件：

shutil.copyfile(”oldfile“,”newfile“) #oldfile和newfile都只能是文件

shutil.copy(”oldfile“,”newfile“)#oldfile只能是文件夹，newfile可以是文件，也可以是目标目录

3.复制文件夹：

4.shutil.copytree(”olddir“,”newdir“) #olddir和newdir都只能是目录，且newdir必须不存在

5.重命名文件（目录）

os.rename(”oldname“,”newname“) #文件或目录都是使用这条命令

6.移动文件（目录）

shutil.move(”oldpos“,”newpos“)

7.删除文件

os.remove(”file“)

8.删除目录

os.rmdir(”dir“) #只能删除空目录

shutil.rmtree(”dir“)#空目录、有内容的目录都可以删

9.转换目录

os.chdir(”path“) #换路径

篇5：Python struct模块解析

热点排行

Python入门教程超详细1小时学会

python 中文乱码问题深入分析

比较详细Python正则表达式操作指

Python字符串的encode与decode研

Python open读写文件实现脚本

Python enumerate遍历数组示例应

Python 深入理解yield

Python+Django在windows下的开发

python 文件和路径操作函数小结

python 字符串split的用法分享

篇6：python 解析HTML

层次化的数据有多个解析HTML的第三方库，例如：LXML，BeautifulSoup，HTMLParser等等，

python 解析HTML

。解析HTML所面临的问题：

没有统一的标准。很多网页并没有遵循HTML文档

2.1 BeautifulSoup

BeautifulSoup第三方库有以下特点：

- 容易使用。

- 版本4允许使用lxml和html5lib，可以更好的处理不规范的HTML。

- 在处理编码方面也比较有效。

下面是解析方法及优缺点的一个对比：

篇7：python 解析HTML

从终端进入python环境，按照以下方式进行试验。如果没有bs4库的话，可以使用以下命令（Ubuntu下）进行安装：

sudo pip install beautifulsoup4

>>>

>>>from bs4 import BeautifulSoup

>>>

>>>import urllib

>>>html = urllib.urlopen(“192.168.1.33/temwet/“)

>>>

>>>html

addinfourl at 164618764 whose fp = socket._fileobject object at 0x9cd19ac

>>>html.code

200

>>>

下面看一下网页的源代码:

使用BeautifulSoup进行解析:

使用bt = BeautifulSoup(html.read,”lxml“)语句对接收到的html进行解析，bt.title, bt.meta, bt.title.string, bt.find_all(‘meta‘)进行元素的查找，

电脑资料

对查找到的多个结果，可以以数组的形式存储和访问。

如果想提取网页中含有的超链接呢？我们只需要查找到”a”标签，并将其提取出来即可。links = bt.find_all(”a‘)可将网页中所有的超链接保存在links中，如果len(links)等于0的话就是网页中没有超链接，否则直接以数组的方式访问即可。

篇8：Python 文件I/O

最简单的输出方法是用print语句，你可以给它传递零个或多个用逗号隔开的表达式。此函数把你传递的表达式转换成一个字符串表达式，并将结果写到标准输出如下：

#!/usr/bin/python# -*- coding: UTF-8 -*- print “Python 是一个非常棒的语言，不是吗？”;

你的标准屏幕上会产生以下结果：

Python 是一个非常棒的语言，不是吗？

★ python复制文件代码实现

★ Python读写Excel文件的实例

★ python批量修改文件后缀示例代码

★ 文件范本

★ 文件范文

★ 文件管理制度

★ [作文素材]python if not Secretspeakingif

★ python操作MySQL数据库具体方法

★ 涉密文件管理制度

★ 文件转发通知范文

Python解析nginx日志文件（共8篇）

欢迎下载DOC格式的Python解析nginx日志文件，但愿能给您带来参考作用！

推荐度：

点击下载文档文档为doc格式

猜你喜欢

Python解析nginx日志文件

篇1：Python解析nginx日志文件

篇2：Python 解析XML文件

篇3：Python 解析XML文件

最近更新

热点排行

篇4：python文件操作

篇5：Python struct模块解析

最近更新

热点排行

篇6：python 解析HTML

篇7：python 解析HTML

电脑资料

篇8：Python 文件I/O

Python解析nginx日志文件（共8篇）

例行检查文件范文

文件遗失证明

文件和档案管理制度

xlsx文件怎么打开 xlsx是什么文件

设备招标文件范文

cdr文件打开方式

解析尊重

简历解析

Python查找相似单词的方法

浅谈Python中copy方法的使用

青春日志语录

测量员施工日志范文

会计实习日志范文

教学日志随笔

心情日志：乡情

家庭卫生日志范文

实习日志怎样写

行长工作日志范文

土建施工日志范文

教育日志范文小学

Python解析nginx日志文件

篇1：Python解析nginx日志文件

篇2：Python 解析XML文件

篇3：Python 解析XML文件

最近更 新

热 点 排 行

篇4：python文件操作

篇5：Python struct模块解析

最近更 新

热 点 排 行

篇6：python 解析HTML

篇7：python 解析HTML

电脑资料

篇8：Python 文件I/O

Python解析nginx日志文件（共8篇）

最近更新

热点排行

最近更新

热点排行