刚刚发了火车头的采集工具,之所做这个教程。
希望能对大家所有帮助。
现在我要对我的人才网采集新闻信息。
打开火车头采集程序了
我的人才网:http://www.nanfangrc.com/
第一步:新建一个站点。
站点名我随便打哈。
看到已经新建出,测试2站点了吧。
第二步:选中测试2右击,新建任务。
任务名:你自已可以随便打。
开始采集地址,就是你要采集的目标网址。
我现在去百度随便搜索一个。人才网
这是最新资讯列表地址:
http://www..com/news_list.asp
采集目标源:http://www..com/news_list.asp
1 2 3 4 5 自动采集下一页。
先看我演示
先写获取新闻列表规则。
查看源码,这个网站网速真慢
从什么位置开始采集-到什么位置结束。
湖南科技大学2010届毕业生供需见面会邀请函 (2009-11-9 9:48:)
这是开始位置
查看源码,查找一下看是不是唯一的。
是唯一的,表示可用
<TABLE width="96%" border=0 cellPadding=1 cellSpacing=1 class="leftmenu">
现在再找一个结束唯一标识
看,<td background="img/line.gif"><img src="img/spacer.gif" width="1" height="1"></td>
这条就不是唯一的了。
试试,看能获取到列表不。
明显获取不到。。因为不是唯一的结束规则。
<table width="780" border="0" align="center" cellpadding="0" cellspacing="0">
这条是本页源码中唯一的一条,可做结束规则标识。
看看是不是都出来了,但你会发现是不是有些不是新闻列表里的新闻也采集到了,在这里我们过滤一下就可以了
在文章内容页面的地址必须包含:tongzhi_list1.asp?id=
再来看看
是不是被过滤了。。好了,采集列表规则写好了。
下一步来写采集内容标签。
还是先来看看,自动采集分页吧。
http://www..com/news_list.asp?pager=2
上面是分页地址.
把后面的2去替换成通配*符。
http://www..com/news_list.asp?pager=(*)
我先择采集的是2个页面的列表新闻。
现在我们来看看吧。
看到了吧。
OK,现在来写采集内容规则标签。
【标题】: 先修改标题规则。
刚刚不小心点一下录制,断了。
好了,继续
找到”湖南对创业人员减免行政事业性收费推进带动就业“标题标签。
<h1>看是否只唯一.是唯一的。
你可以仿原创一下标题。
例:湖南对创业人员减免行政事业性收费推进带动就业
修改湖南=南方
看到了吧。多动动手,即可了。
现在来写内容规则
OK
成功,现在来替换一下内容以及去除一些标签HTML代码
来源:湖南日报 整理:<a href="http://www..com">湖南长沙高新人才网
如何修改:现在看我操作
OK
【作者】: <a href="http://www.nanfangrc.com" target="_blank">湖南人才网|南方人才网|长沙人才网</a>
采集规则全部写好了。。
现在来看看多测试几个页面,看有没有问题、
:</strong><strong像这种加粗标签,你也可以去掉。
OK。排除
现在我们来看发布吧。
启用web在线发布,这节课我只做WEB在线发布,下次做数据库发布吧。
为了节俭时间,我还是用我以前配置好的。
配置很简单,大家看看就明白了。
这是我的/New_AddSave.asp文章发布地址
后台地址:/Index.asp
title=[标签:标题]&t_color=#333333&typeid=[分类ID]&author=[标签:作者]&newfrom=[标签:来源]&Submit=娣诲姞鏂伴椈&n_content=[标签:内容]&cityid=0
这个你可以自动抓包,然后再修改一下里面的参数即可。
现在我来测试发布一次吧。
先登录到后台,火车头自动抓取COOKIe值。
好久没进来了,呵呵,密码都快忘了
登录成了,直接关闭就可以了
因为我这个不能直接获取到后台新闻分类ID。在这里我自定了一个。
记住一定要把数据发布时进行URLENCODE处理打上勾。否则将发布的新闻内容导致不全。
ok,现在来采集以及web发布。。
OK。进网站后台看看。。
看到了吧,都对应该上了吧。。
好了,就到这吧,,有问题。你可以联系我。。
欢迎来我博客:www.heibs.com
有任何问题可以到这里给我留言。
8888888888888888888
视频教程下载地址:火车头采集规则教程
agui
2010-6-17 14:41:47 1http://www.plugnet.cn/html/a/bz/show58.html
回复留言
Leave a reply
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。(谢绝污染灌水)