|
||
辅导计算机软件程序 毕业设计 程序代码 代写做软件程序毕设 免费开发资料 -> 毕业设计 -> C#正则网页分析网页爬虫/采集分析数据-912-源码+论文资料 | 退出登录 用户管理 |
|
适合 采集分析数据,关键字分析,网页爬虫蜘蛛等功能,
大体功能描述:
分析页面,根据对应要求规则提取数据,
可以根据该页面内对应链接,继续分析链接页面,依次递归.
1. 输入IP地址
2. 抓取输入IP地址页面的源代码,入库,也就是掉用第一个函数
3. 对源代码进行分析,提取此页上的非图片和视频的链接
4. 将提取的IP地址入库
5. 对这些链接启用多线程
6. 多线程完成三个函数功能
7. 第一个函数内容:调用NMAP对其扫描,查看是否开放6667端口,开放则定位含有IRC 聊天室
8. 第二个函数:对所有的链接进行源代码的下载,入库
9. 第三个函数:对入库后的代码分析,查看是否有聊天室的关键字
10. 最后判断输出结果
针对 IP 查询 IP的内容
查询 IP
页面信息 , 源码, 是否开启6667 是否含有聊天室给关键字
主表 地址
子表 ,所属地址, 页面地址, 源码, 是否开启6667 是否含有关键字
环境:C#
聊天室扫描模块的关键是使用nmap-sS-p 6667;
要求:输入一个IP地址,用c#调用NMAP扫描,用正则表达式进行匹配,查看是否开放6667端口,如果是OPEN就显示含有CS聊天室;
然后对给出的IP地址抓取源代码,用正则表达式找出非图片和视频的链接,将这些链接和最开始的那个链接一起入库到IP列,然后调用线程并行下载,线程个数为10,为了不重复下载,在TIME列为0的时候下载,当为1的时候不下载,然后将源代码入库,对其进行关键字分析,是否包含聊天室关键字,最后给出探测结果,*【图形界面】
*调用NMAP使用 nmap -sS -p 6667,采用C#调用cmd,传递这个参数,和下面的方法类似:
符合大部分网页采集爬虫特性:
采用特征比对的方法对收集到的网站网页进行检索,如果从中发现具有已知聊天室特征的网站网页,认为发现了网络聊天室。
1.1.1 网页分析
在这里进行分析的网页是指html、asp、jsp等类型网页,它由标题、文本和tag串三部分构成。本文对B/S结构聊天室探测时,只针对文本信息进行识别,因此不考虑其中的视频、音频信息等等数据。
1.标题:即Web页面源代码中用<TITLE>和</TITLE>标记的文字.在实际浏览的时候它会出现在浏览器界面最上方的标题栏中。标题中的内容与网页的主题的关系非常密切,起着概括全篇的重要作用。如果标题中出现了与某个主题相关的关键词。则其主要内容与该主题一般也是相关的,所以标题是很重要的。
2.页面标记:起控制作用的标识符,属于HTML语法的一部分,成为Tag ,他们的特点是由“<”和“>”以及它们中间的字串组成如<TITLE>、<BR>等等。对于普通的文本文档,识别标题、小标题、段首句等结构信息是一项十分困难的工作,然而在网页文件中,由于有控制标识符表明这些结构信息,识别它们就变得十分的简单,在识别聊天室网页时可以参考这些信息。
3.文本:就是浏览网页时真正看到的文字信息.这些文字信息是网页的真正内容。
1.1.2 基于B/S结构聊天室特征分析
经过收集统计整理分析北方时空、第九元素、佛教在线等十四个公共的大型聊天室网站的特征关键字,B/S结构的聊天室具有下述特点。统计情况如表5.1所示。
1.所有聊天室均具有“登陆区”
“登陆区”指登陆聊天室时的用户登陆区,典型的“登陆区”代码,例如“北方时空”的登陆区网页源码如图5.5所示。
启动后,点管理, 可以直接点多线程操作! 系统会根据页面分析的链接数进行同时分析采集
表数量3
表:1
Detail
字段名称
数据
自增主键
允许为空
默认值
是
项目
页面地址
页面源码
含有关键字
程序判定
表:2
项目
字段名称
数据
自增主键
允许为空
默认值
是
项目地址
表:3
vI
字段名称
数据
自增主键
允许为空
默认值
是
项目
项目地址
页面地址
页面源码
400)
含有关键字
程序判定
不能下载计算机源码,
毕业设计论文资料, 大作业!报告错误,谢谢 |
|||
找到您需要的资源啦!?本站所有软件高速免费下载,记得下次再来哦,毕业设计免费获取,3Q2008.Com您下载的首选 | |||
软件大小:1015 KB | 下载次数:1074 | ||
更新时间:2011/8/30 9:53:35 | |||
下载地址一 无需注册 演示程序直接下载 |
|||
关于本站 - 网站帮助 - 广告合作 - 下载声明 - 友情连接 - 网站地图 - 管理登录 Copyright ©2024 3Q2008.Com 网络 |
|||
|