八文_文档搜索
 
设为首页   |  加入收藏夹
 八文网 - 汇聚八方文档 - 做最优秀的免费文档下载网站
 

清华大学

文档类型: Microsoft PowerPoint PPT 演示文稿 文档大小:178KB
SEWM2006中文网页分类评测清华大学参赛队报告清华大学计算机科学与技术系智能技术与系统国家重点实验室徐舒内容提纲CWT200G数据预处理网页分类策略未来工作及建议参考文献数据预处理-总体设计zlib压缩存储处理全部200G数据保留原始网页的页面信息和链接关系中间数据可用于对网页分类的进一步的研究数据预处理-HTML解析(1)
网页分类需要注意的几个问题:直接应用纯文本分类策略效果很差通常包含具有丰富语义信息的Tag通常含有大量噪声可能包含多媒体信息而无确切的文本内容
提取HTML中如下标签和属性:
text)页面正文信息
实现方法:基于Python的HTMLParser类,重载其中部分接口数据预处理-HTML解析(2)
编码转换:
常用网页编码格式简体)BIG-5(繁体)UTF8UTF16(通用)只处理BIG5,GBK和UTF-8三种编码统一转码成为GBK编码(编码转换库Libiconv)
05年训练集中的编码数量统计:数据预处理-信息抽取和去噪(1)在解析HTML的基础上进行表征同一网页的不同形式页面内部信息标题META信息页面正文页面链接文本Web结构信息链入文本聚合过滤广告噪声(基于规则)无链接文字(AnchorText)链接文字周围没有非链接的文字链接文字中出现了给定的过滤关键词、例如下一页,图铃等缺乏可靠的抑制噪声的措施不直接删除广告信息,而是给出标记,由后续程序进一步判断数据预处理-信息抽取和去噪(2)数据预处理-并行化海量数据,无进程间通信,易于并行处理申请使用清华大学计算机集群系统128台rx2600服务器作为计算节点、256 安腾CPURedHat Linux操作系统每秒13300亿次的峰值浮点运算能力
实际使用:12节点、预处理用时:28小时数据预处理-中间数据格式
.METADATA
@title:北大未明
.ANCHORDATA 首页联系我们
.LINKSIN
点击进入北大为名网站@Use:Y
.LINKSOUT
@Use:Y
.CONTENT 欢迎来到北大未明网站
.CLASSID 分类策略-综述基于纯文本分类策略向量空间模型采用SVM(libSVM)作为试验中统一使用的分类器特征的选择远比分类器本身重要良好的泛化能力由于训练后模型只需考虑支持向量,分类速度快特征和权重二元串(Bigram)作为特征TFIDF权重CHI-square进行特征选择,70000维分类策略-多特征融合多个来源,独立表征网页的信息的融合采用线性加权的方法融合使用插值法贪婪搜索确定各个特征的权重
最终采用的融合策略(向量级特征融合 TextAnchor TextLink 分类策略-链接分析(1)
网页间存在链接:主题存在一定关联分类完成基础上,简单的标签传播算法进行refine(20G)
Step1:给出20G目标网页集合中所有的网页分类标签,并给出分类的置信度.
Step2:对于那些进行了归一化之后分类置信度很低的网页,我们认为这些网页的分类结果是不可靠的,
Step3:对于上述所有置信度很低的网页,观察指向该网页的所有网页的分类结果,如果这些网页均为分类置信度很高的网页,并且在分类结果上有很强的内聚性,则将当前页面的分类标签更换为指向其的那些网页的分类结果.
分类策略-链接分析(2)8类上的传播效果11类上的传播效果未来工作更加有效的页面去噪方法(VIPS,摘要等)更大规模的数据集上进行链接分析改进标签传播的算法一些感想和建议
8类的分类体系有些过于重叠:如娱乐和时尚
用户调查(User Study)的结果:在05年的1100篇测试集上进行标注比较8类分类器的机器分类结果和用户标注存在用户和机器标注不一致但都合理的情况上述情形在分类置信度存在双峰时尤为突出层次分类(Google Directory) 多标签[1] G.R. Xue,Q,Yang H.J Zeng, Y,Yu and Z.Chen. Exploiting the Hierarchical Structure for Link Analysis The 28th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR2005), July 2005.
[2]D.Cai,X.F. He,J.R. Wen and W.Y. Ma. Block-level Link Analysis. The 27th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR2004), July 2004.
[3] Y.H.Hu and G.M.Xin. Title Extraction from Bodies of HTML Documents and its application to Web Page Retrieval[4.J.Glover. Using Web Structure for Classifying and Describing Web Pages, www2002.
[5]J.F¨urnkranz. Exploiting structural information for text classification on the WWW. In Intelligent Data Analysis, pages[6] andP.Indyk. Enhanced hypertext categorization using hyperlinks. SIGMOD Record (ACM Special Interest Group on Management of DataJune 1998.
[7]A.Blum andT.Mitchell. Combining labeled and unlabeled data with co-training. In COLT: Proceedings of the Workshop on Computational Learning Theory, MorganKaufmann Publishers, 1998.
[8] of approaches to hypertext Journal of Intelligent Information Systems. Kluwer Academic Press, you!
ppt文档的标签: 清华大学
更多推荐标签: 情绪控制   周立公   观潮教案设计   综合工时   私人贷款协议   环境成本   钢材代理协议   大学生谈人生   森林规划   裁判道德   青岛旅游资源   读书论文   领导学基础   汽修工作小结   幻灯片制作   报酬制度   ·÷鱨   任职策划书   体育设施   核心能力心得   汽车行业分析   支票样版   神秘老公小   统计学方法   采购提案范文   总经济师   会务工作   终结审计   内审计划表   绩效考核体会  
相关文档推荐
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
清华大学
推荐文档下载
中国风险投资
一种基于功能需求层次凝聚的程序聚类方法
人口和计划生育行政许可文书
管理资讯系统(MIS)
汽配物流管理软件操作说明书
神州数码控股有限公司
山东中医药大学
基础教育改革
高级财务会计第六章教学辅导
读后感长征的故事
雷锋叔叔成了网络游戏
2005年度中小企业国际市场开拓资金分项
操作系统
中央银行
2003年7月9日
我们为什么要写灵异小说
招商服务委托协议书
生产分野3次元计测技术
广西壮族自治区安全生产管理人员
鼓风机的特殊要求
 
文档下载提示:
·最新免费文档下载、毕业论文免费下载、Word文档下载、Excel表格下载、PDF电子书下载、PowerPoint提案下载
·所有文档均为网友上传,仅供学习参考,用作其它用途时请征得相关权益人许可.
·八文网只提供文档共享平台,不对文档内容的正确性及相关内容所引发的后果负责.
·如此文档"清华大学"涉及您的权益,请附上网址来信告知web_8wen(#)126.com,本站将认真配合并改正。
Copyright ©2005-2008 八文网-  8Wen.com . All rights reserved.