新云网站管理系统采集功能演示
D\E"v,Y\+O -----------------------------------------------------
'1zC|:, 我们要学习的是文章采集功能,软件采集和文章大同小异,此教程需要你有一定的网页知识。
DLO#_t^v. 要采集的目标网站:天空软件站(
www.skycn.com)
c~d*SDca 采集前请添加文章、软件分类
.5tXwxad" 下面我们开始采集前的项目设置,登录网站管理系统后台--文章采集
7,Q7`}gBf 第一步、“采集基本设置”--根据自己的要求设置,这一步就不多说了;
`.wgRUhFH; 第二步、“添加采集项目”--填写项目的一些基本设置;
cca]@Ox] “网站URL”--http://www2.skycn.com
J3'0^JP* “远程文章列表网址” --http://www2.skycn.com/sort/sort0200wz_indate_DESC_1.html
a;(,$q3M
如果有列表有分页可以用“*”或者“{$PageCode}”来代替分页,如:
http://www2.skycn.com/sort/sort0200wz_indate_DESC_*.html
>n1UK5QD “列表最多页数”--112,一般网站都有说明列表的总页数,可以在目标网页内找到,
ANR611-a 也可以自己计算出它的页数或者根据自己的需求来设置要采集的页数;
%v^qQWy=* 其它的自行设置;
k"cKxzB 设置完成后请进行下一步
C*Qx 这一步我们将要获取显示列表标题的所有源代码,以备后面使用,文本框内显示的是要采集的目标网页源码;
i,L"%q)C “列表开始代码”--在目标网页源码中找到列表的开始代码,这段代码必须是目标源码中唯一的代码,不能有重复,可以用计事本的“查找”功能测试看是否有重复;
m-qOyt ]ed7Q3lq --------------------代码如下--------------------
[?da BXS <font color=#0000ff>人气</font></td>
}}wSns --------------------Code End--------------------
,pW^>J “列表结束代码”--必须是开始代码后面唯一的字符
<!X]$kvG --------------------代码如下--------------------
5UQ[vHMqI <table border='0' cellPadding=0 cellSpacing=0 width='540'>
o+\?E.%%g --------------------Code End--------------------
UaHN*@ 设置正确后请进行下一步
F^!mgU X 这一步我们将要获取所有文章内容的URL,文本框内显示的是要采集的目标网页源码
u@zT~\ h* “列表连接开始代码”--这里的获取方法是匹配获取,将获取所有相匹配的URL
@s\}ER3 --------------------代码如下--------------------
|+=ctpx9& <A href='
$<f+CtD4 --------------------Code End--------------------
z] |Y “列表连接结束代码”
HBw0N? --------------------代码如下--------------------
}~#qDrK '><b>
@d|]BqQ4jh --------------------Code End--------------------
N9z!-y'X 设置正确后请进行下一步
f&XM|Bg 这一步我们将获取文章内容
(e3?--~b6 “文章标题开始代码”
L)Da1<O --------------------代码如下--------------------
@2\U
jEo~ <tr><td width='100%' align='center' bgcolor='#CED7F1' height='20'><b><font color='#000000'>
UQtG<W]< --------------------Code End--------------------
*C> N “文章标题结束代码”
3W3d $ --------------------代码如下--------------------
L.a~vk
1 </font></b>
|D8c=c% --------------------Code End--------------------
l_2YPon “文章内容开始代码”
Q}#H|@ --------------------代码如下--------------------
eT8h:+k </td></tr><tr><td><br>
S7CD#Y[s --------------------Code End--------------------
aIN?|Ch “文章内容结束代码”
=[Tf9uQY --------------------代码如下--------------------
<"S/M]9 <iframe name=import_frame width=1 height=1
>*}
m.'u --------------------Code End--------------------
w_q=mKu “文章作者设置”--可选项
Ki3wqY “文章来源设置”--可选项
<Q.-WV]Z “过虑其它字符”--可选项,有时候文章内容中可能有广告,可能在此过虑掉
oXqx]@7 设置完成后请行下一步
fXkemB^)_ 如果显示正常,便可以开始采集了。
yF^)H{yx opCQ=G1 4
_\]zhS
D&8*4> http://down.3389hack.com/2008061806@www.3389hack.com.rar