设为首 页  加入收藏  联系我们    
程序代码快速生成源码生成
辅导计算机软件程序 毕业设计 程序代码 代写做软件程序毕设 免费开发资料 -> 毕业设计 -> C#正则网页分析网页爬虫/采集分析数据-912-源码+论文资料 退出登录 用户管理
客服联系方式:
 
 
    特色优势
 
软件简介:
本站尽最大可能将系统开发过程,系统流程分析,系统数据库表结构,免费提供您参考阅读!请下载演示参考系程序细节,更多详情请咨询客服!
ASP毕业设计 | VB毕业设计 | JSP毕业设计 | VC毕业设计 | 文献参考 | C#毕业设计 | vb.net毕业设计
Delphi毕业设计 | Asp.NET毕业设计 | 技术经验 | VBA (Access) 毕业设计 | VBA (Excel) 毕业设计 | PB毕业设计 | android(安卓)毕业设计
Nodejs ES6前端全栈 vue react 小程序 express koa2 mern | python(web开发Django框架) | html5游戏开发 | Jquery毕业设计 | XSLT毕业设计

适合  采集分析数据,关键字分析,网页爬虫蜘蛛等功能,
大体功能描述:
分析页面,根据对应要求规则提取数据,
可以根据该页面内对应链接,继续分析链接页面,
依次递归.

1. 输入IP地址
2. 抓取输入IP地址页面的源代码,入库,也就是掉用第一个函数
3. 对源代码进行分析,提取此页上的非图片和视频的链接
4. 将提取的IP地址入库
5. 对这些链接启用多线程
6. 多线程完成三个函数功能
7. 第一个函数内容:调用NMAP对其扫描,查看是否开放6667端口,开放则定位含有IRC                     聊天室
8. 第二个函数:对所有的链接进行源代码的下载,入库
9. 第三个函数:对入库后的代码分析,查看是否有聊天室的关键字
10. 最后判断输出结果
针对 IP 查询      IP的内容
查询 IP
      页面信息 ,  源码,  是否开启6667 是否含有聊天室给关键字
主表   地址
子表 ,所属地址, 页面地址, 源码, 是否开启6667 是否含有关键字
环境:C#
聊天室扫描模块的关键是使用nmap-sS-p 6667;

要求:输入一个IP地址,用c#调用NMAP扫描,用正则表达式进行匹配,查看是否开放6667端口,如果是OPEN就显示含有CS聊天室;
然后对给出的IP地址抓取源代码,用正则表达式找出非图片和视频的链接,将这些链接和最开始的那个链接一起入库到IP列,然后调用线程并行下载,线程个数为10,为了不重复下载,在TIME列为0的时候下载,当为1的时候不下载,然后将源代码入库,对其进行关键字分析,是否包含聊天室关键字,最后给出探测结果,*【图形界面】
*调用NMAP使用 nmap -sS -p 6667,采用C#调用cmd,传递这个参数,和下面的方法类似:

符合大部分网页采集爬虫特性:


采用特征比对的方法对收集到的网站网页进行检索,如果从中发现具有已知聊天室特征的网站网页,认为发现了网络聊天室。
1.1.1 网页分析
在这里进行分析的网页是指html、asp、jsp等类型网页,它由标题、文本和tag串三部分构成。本文对B/S结构聊天室探测时,只针对文本信息进行识别,因此不考虑其中的视频、音频信息等等数据。
1.标题:即Web页面源代码中用<TITLE>和</TITLE>标记的文字.在实际浏览的时候它会出现在浏览器界面最上方的标题栏中。标题中的内容与网页的主题的关系非常密切,起着概括全篇的重要作用。如果标题中出现了与某个主题相关的关键词。则其主要内容与该主题一般也是相关的,所以标题是很重要的。
2.页面标记:起控制作用的标识符,属于HTML语法的一部分,成为Tag ,他们的特点是由“<”和“>”以及它们中间的字串组成如<TITLE>、<BR>等等。对于普通的文本文档,识别标题、小标题、段首句等结构信息是一项十分困难的工作,然而在网页文件中,由于有控制标识符表明这些结构信息,识别它们就变得十分的简单,在识别聊天室网页时可以参考这些信息。
3.文本:就是浏览网页时真正看到的文字信息.这些文字信息是网页的真正内容。
1.1.2 基于B/S结构聊天室特征分析
经过收集统计整理分析北方时空、第九元素、佛教在线等十四个公共的大型聊天室网站的特征关键字,B/S结构的聊天室具有下述特点。统计情况如表5.1所示。
1.所有聊天室均具有“登陆区”
“登陆区”指登陆聊天室时的用户登陆区,典型的“登陆区”代码,例如“北方时空”的登陆区网页源码如图5.5所示。

启动后,点管理, 可以直接点多线程操作! 系统会根据页面分析的链接数进行同时分析采集

 

 

 

 

 

 

 

 

表数量3

Detail  
字段名称 数据 自增主键 允许为空 默认值
   
项目      
页面地址        
页面源码        
含有关键字      
程序判定      
表:1

项目  
字段名称 数据 自增主键 允许为空 默认值
   
项目地址      
表:2

vI  
字段名称 数据 自增主键 允许为空 默认值
   
项目      
项目地址      
页面地址      
页面源码 400)      
含有关键字      
程序判定      
表:3

不能下载计算机源码, 毕业设计论文资料,
大作业!报告错误,谢谢
 
找到您需要的资源啦!?本站所有软件高速免费下载,记得下次再来哦,毕业设计免费获取,3Q2008.Com您下载的首选
  软件大小:1015 KB 下载次数:1062  
  更新时间:2011/8/30 9:53:35  
下载地址一
无需注册 演示程序直接下载

输入您的题目信息关键字,查询更多

关于本站 - 网站帮助 - 广告合作 - 下载声明 - 友情连接 - 网站地图 - 管理登录
Copyright ©2024 3Q2008.Com 网络
 

定做服务操作流程 主站   关于我们   联系程序员   企业建站 

辽ICP备2024022997号-1
 业务(企业网站制作,系统制作,毕业设计资料辅导,系统开发 ,项目定制,辅导讲解,算法分析)
联系方式:jjwebCoder@QQ.Com    QQ:63353282    Tel:(86) 0411-84062008
Copyrights ©3Q2008.Com 网站制作 3Q2008网络
网站制作,系统开发 记得http://www.3Q2008.Com http://www.QY2S.Com http://www.99wk.Com
首页 |  定制流程 |  检索数据 |  联系我们 | 关于本站 |  Top △