博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
用python中htmlParser实现的spider(python spider)
阅读量:4045 次
发布时间:2019-05-24

本文共 9033 字,大约阅读时间需要 30 分钟。

最近公司网站搞检查,发现了一些问题,一直在用的是xenu工具,速度快,小巧(写了这么多年的MFC,真的很亲切啊,呵呵)

 

刚好这2天才学习python,所以自己写了一个spider,逐渐也对python有了一些了解,下面把源码分享出来,大家可以玩玩看

文件是utf-8格式,但如果加了中文注释,竟然不能debug了。。。无论你是不是在文件头2行加了#encoding=utf-8等方法,有人解决了告诉我一下哦

 

spider.py(主程序)

mylogger.py

 

myHtmlParse.py

 

logging.config(配置档,用过log4c等的一看就明白了)

 

转载地址:http://oggdi.baihongyu.com/

你可能感兴趣的文章
Android(三)数据存储之XML解析技术
查看>>
Spring JTA应用之JOTM配置
查看>>
spring JdbcTemplate 的若干问题
查看>>
Servlet和JSP的线程安全问题
查看>>
GBK编码下jQuery Ajax中文乱码终极暴力解决方案
查看>>
Oracle 物化视图
查看>>
PHP那点小事--三元运算符
查看>>
解决国内NPM安装依赖速度慢问题
查看>>
Brackets安装及常用插件安装
查看>>
Centos 7(Linux)环境下安装PHP(编译添加)相应动态扩展模块so(以openssl.so为例)
查看>>
fastcgi_param 详解
查看>>
Nginx配置文件(nginx.conf)配置详解
查看>>
标记一下
查看>>
IP报文格式学习笔记
查看>>
autohotkey快捷键显示隐藏文件和文件扩展名
查看>>
Linux中的进程
查看>>
学习python(1)——环境与常识
查看>>
学习设计模式(3)——单例模式和类的成员函数中的静态变量的作用域
查看>>
自然计算时间复杂度杂谈
查看>>
当前主要目标和工作
查看>>