良玉的博客 点点滴滴,积水成河_良玉的博客_页游、手游linux运维工程师之路

php使用curl和正则表达式抓取网页数据

php也可以抓取网页数据,虽然性能上,个人感觉太慢还浪费资源,但是看你怎么去使用了。

利用curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器,支持输入小说ID下载小说。
依赖项:curl
可以简单的看下,里面用到了curl ,正则表达式,ajax等技术,适合新手看看。在本地测试,必须保证联网并且确保php开启curl的mode

SpiderTools.class.php 

<a data="7981

阅读全文...

python模块Pexpect 的实例分析

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
This runs a command on a remote host using SSH. At the prompts enter hostname,
user, password and the command.
"""

import pexpect
import getpass, os

#user: ssh 主机的用户名
#host:ssh 主机的域名
#password:ssh 主机的密码
#command:即将在远端 ssh 主机上运行的命令


阅读全文...

python模块之Pexpect函数

Pxssh 做为 pexpect 的派生类可以用来建立一个 ssh 连接,它相比其基类增加了如下方法:

login() 建立到目标机器的ssh连接 ;

losuckgout() 释放该连接 ;

prompt() 等待提示符,通常用于等待命令执行结束。

下面的示例连接到一个远程服务器,执行命令并打印命令执行结果。


阅读全文...

python安装Pexpect模块

Pexpect 是 Don Libes 的 Expect 语言的一个 Python 实现,是一个用来启动子程序,并使用正则表达式对程序输出做出特定响应,以此实现与其自动交互的 Python 模块。 Pexpect 的使用范围很广,可以用来实现与 ssh、ftp 、telnet 等程序的自动交互;可以用来自动复制软件安装包并在不同机器自动安装;还可以用来实现软件测试中与命令行交互的自动化。

阅读全文...

linux下按时间过滤文件,find按时间查找文件

linux下按时间过滤文件通常会想到使用find,一般用到mtime和mmin,今天看到个精准到分秒的查询方式:

问题:

1.过滤得到的文件时间段(最后写入时间)为2014年12月2日9:12-2015年1月13日12:02之间的;
2.过滤得到的文件时间段为2015年2月15日13:51之后的;
3.过滤得到的文件时间段为2014年5月3日21:35之前的。

答案:


阅读全文...

Linux中sed多行匹配

在你抓取到的html文件,如果想查找并选出一个标签间的内容的话,就需要使用多行匹配。这一点上grep不能提供此功能。所以就可以使用sed的多行匹配功能。
比如,你想选出
<html>
<body>
<div class="info">
......
......
</div>

</body>
</html>

阅读全文...