八文_文档搜索
 
设为首页   |  加入收藏夹
 八文网 - 汇聚八方文档 - 做最优秀的免费文档下载网站
 

互联网数据采集系统简明使用说明

文档类型: Microsoft Word 文档 文档大小:605KB
互联网数据采集系统简明使用说明本系统不是一个万能的系统,也不是一个傻瓜系统,要想充分发挥本系统的功能,需要使用者不仅对HTML具有相当的了解,而且要非常熟悉Http协议的交互过程.
目录1基本界面说明
1.2工具条
1.3配置指令
1.4提取配置向导(定位)
1.5记录提取向导(拆分)
1.6字段提取向导
1.7元数据定义
1.8数据源管理
1.9工作流设计
1.10 配置明细
1.11运行时设置
1.12测试监控窗口
2.基本配置流程
3.提取脚本语法规范
4.运行服务器说明
对目标网站进行分析:是否需要登录是否需要检索从登录到检索完成需要经过几个URL请求分析记录列表页面的URL分析详细记录页面的URL依次执行各个必要的URL请求(如果目标系统需要登录或者需要检索的话)、使系统能够进行连续的分析;如果目标系统的记录列表URL或详细记录URL不包含特别的参数,直接在浏览器中发送可返回正确页面的话、本步骤可省.
对包含记录的请求返回的页面进行数据提取配置(其中涉及元数据的定义和脚本规范)进行流程定制若目标站点需要登录,则需要配置登录站点群组将关键请求的URL拖拽致流程图中、并配置明细(选择关键的参数,将其设为Input类型,并对非英文参数值进行URL编码)设定运行时设定运行时参数的数据来源,可能会涉及到创建新的数据源.设定运行时提取结果的输出、可能会涉及到创建新的传输器.如果提取数据中包含需要进一步进行请求的URL,选中该字段,可以设定该字段邦定的URL处理模版(也就是流程图中被设为关联元件的元件)运行测试打开运行监控窗口(可选、好处是可以看到实际请求的各个页面,便于分析)点击开始测试按钮,进行测试(测试时间的长短根据实际灵活掌握)分析测试结果,如果都符合要求,则配置基本完成可加载到运行服务器上进行执行.
脚本原型说明R结果对象,有Add方法,Add方法的参数可以直接是字符串,也可以是数据对象,也可以是具有string返回值得函数表达式.还有一个方法是表示给当前的字段提取结果命名、仅当元数据中包含该命名时,才有效.
脚本数据对象:系统提供6个脚本数据对象,每个数据对象都拥有getsubstr1, getsubstr2, replace, trimtag, trim, GetNumber6个操作方法string FlagStr ,int Length, string Direction)
取子字符串:FlagStr-标志字符串,Length-子串长度,Direction-取值方向(Right, left)
string getsubstr2(int Start,int Length, string Direction)
取子字符串:Start -起始位置,Length-子串长度,Direction-取值方向(Right, left)string replace (string pOldStr , string pNewStr)
替换字符串:pOldStr-要替换的字符串,pNewStr-要替换为的字符串string trimtag(string TagName)
裁剪Html标签:TagName-要裁减的Html标签名string trim裁剪字符串两端的空白字符string FlagStr,int Index, string Direction)
取数字:FlagStr-标志字符串,Index-第几个数字,Direction-取值方向(Right, left)
string Nodes(string BeginPath, string EndPath, string Part).GetText
从多个HtmlNode获得字符串: GetText-获得文本, GetHtml -获得文本, GetProperty -获得文本, PropertyName-属性名BeginPath-起始路径, EndPath-结束路径, Part-HtmlNode参数(可能值: Between 表示只取HtmlNode之间的文本, 表示取路径之间的所有文本,TagName-表示取所有名字为TagName的HtmlNode所包括的文本)
string Nodes(string BeginPath, string EndPath, string Nodes(string BeginPath, string EndPath, string Part). Node(string Path).GetText
从单个HtmlNode获得字符串: GetText-获得文本, GetHtml -获得文本, GetProperty -获得文本, PropertyName-属性名string Node(string Node(string
Nodes(string BeginPath, string EndPath, string TagName){A=Node.GetText}取起始路径BeginPath和结束路径EndPath之间的名为TagName的节点、逐个节点进行循环.
用Node表示当前循环的节点、 GetText-获得文本, GetHtml -获得文本, GetProperty -获得文本, PropertyName-属性名If(简单的相等判断表达式)要执行的语句Else
注意:表达式仅支持相等判断、等号两边可以是字符串,脚本数据对象,也可以是具有string返回值得函数表达式.
此外还可以是bool Node.Exist( string Path); Path-Html节点路径
注意:(,),不能作为标志字符串中的字符串出现,在replace ( string pOldStr , string pNewStr)函数中不受限制,但如果要替换须写为(将一个变为两个). 上述特殊字符均指英文中的半角符号在提取字段,参数的时候,如有疑问,请参考以下说明:当提取向导窗口提供的修剪操作不能满足需要时,可以在【脚本】标签页里直接编辑脚本;
在【脚本】标签页里直接进行编辑时,请参照现有的一些函数(即修剪操作所使用的函数);
另外,可以使用IF判断语句,其格式如下:if (表达式)语句;
.
注意:大括号必须单列一行;
如果在修剪时,有字符,请注意:此字符当且仅当使用替换函数时可以替换或者去除,而且替换时,需在该字符前再加上一个,即:Replace(,其它字符).
简单的提取操作一般仅使用系统默认的变量A,当需要用多个变量时,可以直接使用B,C,D,E,F,不用声明,但最多只能同时使用这6个变量.
例子:此例是北京大学图书馆CNKI资源,在提取作者字段时所用的脚本!
B=B.trimif (B=【作者】)A=A.Trim
下面是一个使用命名字段的例子:(B的内容作为字段名、A的数据作为字段的内容、生效的前提时,邦定的元数据中存在一个与B的内容同名的字段互联网元数据采集系统使用说明00By北京泽通华程科技发展有限公司
,共17页新建专案配置文件打开专案配置文件保存专案配置文件退出配置工具配置运行时Url参数的数据来源(来自数据库,文本文件,插件.)配置运行时提取的结果数据的输出(输出到数据库,文本,插件.)配置运行时提取的元数据的字段定义模版生成本软件的注册文件,用于软件注册保存专案配置文件,如果曾经保存过,则不再弹出保存对话框,直接保存.
开始专案配置过程设计专案执行流程和运行时逻辑配置专案的基本信息查看当前请求的URL的配置明细对当前请求的结果HTML进行清洗记录当前请求的Cookie数据在此配置指令下,配置页面可以进行导航,自动记录并分析请求之间的相互关系在此配置指令下,可以点击页面中的输入元素,对其进行初步的设定,对配置高手来讲,此步骤不重要、因为在后面还有机会自由的配置各个参数.
在此配置指令下,点击页面会弹出页面提取配置窗口一般来讲,绝大部分遗传参数系统会自行确定.但如果出现系统无法确定的遗传参数,则需要选中此指令后,点击页面打开遗传参数配置窗口,人工进行配置(这样的网站比例不是很大,一般熟手才能较好的把握此项功能)网页结构的树形视图左侧选中节点的页面视图,配置记录提取时,应选择刚刚能包含所有记录节点的父节点.
记录总数,用于系统动态设定翻页下限.当URL中有多个变量时,部分变量的变化,可能导致页码参数的变化范围不确定,此时需要此项设置.
点击该项菜单,会弹出记录提取的设置窗口.元数据字段定义列表元数据定义列表用于特定适配器的XML数据转换,对一般用户没有意义.元数据字段最大长度,当创建数据库适配器时,会根据长度限制创建不同的数据类型.
本系统对MDB数据库仅对进行了较为充分的测试.在MDB数据库中、一个字段的最大长度为64K(备注类型),文本类型的最大长度为255.因此在Mdb数据库中、当长度限制大于255时皆使用备注类型.
元数据字段的名称用于提取数据的辅助分类,不重要选择针对当前数据的元数据定义、如果找不到合适的,可点左侧按钮进行创建.
使用行分隔记录分隔标签标签跨度结束无效记录数起始无效记录数记录结构视图在结构视图中显示和选框元数据字段列表元数据字段的提取脚本直接编辑窗口元数据字段的提取脚本生成向导区、通过鼠标的拖拉选择帮助用户生成提取脚本.
提示窗口区高级中包含了记录的列分隔的配置向导,仅用于记录存在于表格之中的情况.
配置完记录提取后,可切换到此窗口,浏览当前页面的记录提取情况.检查和验证记录提取配置的正确性.
弹出配置运行时参数和运行时数据输出的窗口登录站点是一个特殊的群组,包含用于登录站点建立连接的一个或多个请求.如果流程中存在该群组,则该群组会在流程启动时首先被执行、且只有当执行成功时,才会执行其他的工作流程节点.
位于工作流节点上的请求请求分析阶段,捕获的所有请求.群组是可嵌套的一组资源.表示流程的基本元素打开该请求的配置明细配置该请求的组装形式删除该请求配置明细中的大部分项目可通过双击或右键菜单打开编辑窗口!
检查当前返回页面是否正确的检查方式:
Default:默认校验方式,比较宽松的校验
None:不校验
Failure:符合校验标志的页面为失败页面
Success:符合校验标志的页面为成功页面在此示例中、该参数的值不是英文,因此可能需要将此参数的值进行URL编码.
在此示例中、该参数表示翻页页码、我们可以将其改为Input类型,其值在运行时指定.
当发送方法为File时,表示将下载文件,如果没有显式指定下载文件的存放目录,则文件会按默认路径存储:
[应用程序目录\DowloadFiles[专案名[生产线名.
注意:下载文件的后缀不一定能正确识别、因此,保存的文件可能会出现扩展名不对的情况.
可以这样直接添加请求模版这是URL组装的界面在URL中拆分出动态的运行时变量.选择参数数据源,并设定起始点、终止点、步长(每一次循环的递增值).当前值必须位于起始点和终止点之间.
输出该请求中所有板块的结果数据,如果配置了该输出、就不要在配置板块的单独输出、否则可能导致重复输出.
仅输出该板块的结果数据运行时输入数据的参数即类型为Input的参数创建各种类型的数据源,数据源用于动态的为参数提供运行时数据.该窗口显示需要运行时输入数据的参数和运行时输出的结果.如果传输器选择了发布事件,则打开监控窗口时,可实时看到下载的数据.
设定运行时发生错误是的处理方式,需根据实际情况灵活设定.创建各种类型的传输器,用于接收运行时产生的提取数据.数据库类传输器对Mdb(Access)数据库进行了很好的测试,其他数据库暂未进行充分测试.
运行时设置完成以后,可以进行测试.测试时,何以打开监控窗口,观察实际下载的页面是否正确.
分析目标网站执行必要的请求,并进行提取配置制作运行流程专案列表选中专案的生产线列表,各提示指标仅供参考选中生产线的流程和运行状态
doc文档的标签: 简明 系统 使用说明 互联网 数据采集
更多推荐标签: 教学总结助教   汇仁集团   党员处分决议   党员安全承诺   公共英语三级   个人网页论文   卫星通信论文   清欠工作   訷±   营养保健   苏东坡诗词   三人合伙协议   电梯维保合同   关于经济   英文日记   农业网站建设   邪魔秘笈下载   三国志武帝纪   商场销售   研发机构章程   保健食品检验   儿童文学下载   非洲文明论文   吴湖帆   色彩设计现状   煤气泄漏检测   旅游专业   幕墙设计合同   创意策划书   英语课件脚本  
相关文档推荐
全国学位授予信息管理系统使用说明
高速数据采集系统中精确时标的CPLD实现
保健食品广告申请系统软件使用说明
贝尔网站视讯会议系统使用说明
第12章数据采集系统设计
卫民农资连锁公司的精细管理信息系统使用说
研究生院管理信息系统研究生使用说明
工资直发系统安装使用说明
GPS/SMS短信息远程数据采集系统方案
财务软件会计报表信息数据采集到税务CTA
高德多媒体课件点播系统升级使用说明
国家社科基金项目申报管理信息系统使用说明
GPS数据采集流程
山东省人事编制综合管理信息系统数据采集软
科研管理信息系统操作使用说明
全球定位系统GPS数据采集与处理
培训档案系统使用说明
清华同方即时通讯系统安装使用说明
山东省人事编制综合管理信息系统数据采集软
基于NI数采模块的测井数据采集控制系统设
推荐文档下载
平安"健康天使"保险
南京大学网络教育学院本科学生毕业论文工作
活动策划案书的写作技巧
关于2004级研究生选题及开题报告的通知
养生保健
毕业自我鉴定范文(2005年大学毕业生)
国家半导体照明工程创新大赛
软件质量管理
第三课花
深化基础教育课程改革
国际金融市场
篮球教学法
劳动和社会保障事务代理协议书
人物时报
需求分析
沈国放的QQ号
开发区道路交通安全防范责任书
经济回顾
关于开展职业教育改革调研课题活动的通知
清华大学对外-加达国际联合培训中心
 
文档下载提示:
·最新免费文档下载、毕业论文免费下载、Word文档下载、Excel表格下载、PDF电子书下载、PowerPoint提案下载
·所有文档均为网友上传,仅供学习参考,用作其它用途时请征得相关权益人许可.
·八文网只提供文档共享平台,不对文档内容的正确性及相关内容所引发的后果负责.
·如此文档"互联网数据采集系统简明使用说明"涉及您的权益,请附上网址来信告知web_8wen(#)126.com,本站将认真配合并改正。
Copyright ©2005-2008 八文网-  8Wen.com . All rights reserved.