Monthly Archives: December 2008

生活搜基于 Firefox 3.1 的 List Hunter 集群

Update: 我们已经转向 QtWebKit 集群了,在性能上取得了一个数量级的提升,详情请见这里: Slides for my VDOM + WebKit talk NAME List Hunter Cluster – 我们自己的基于 Mozilla Firefox 3.1 的深抓爬虫集群 DESCRIPTION 该文档介绍了我们的基于 Firefox 3.1 的 List Hunter 集群。目前是我们公司生活搜索引擎的一部分。 背景 在我们的生活搜索项目中,需要对网页进行深层次的识别和抽取。基于文本内容的分类我们目前采用的是美国雅虎基于最大熵的 DCP 系统。而对于网页结构方面的分类(即这个网页是列表页呢,还是详情页?),以及主体链接列表、主体区域抽取,则一直缺乏比较好的解决方案。我的同事尝试过通过纯粹的结构化的方法(如海维算法)进行识别,准确率只有 60%,而基于 SVM 这样的机器学习的方法,对网页类型比较敏感,如目标网页与训练集相差较多,则准确率迅速下降。 于是我尝试把网页显示时的视觉信息结合到海维算法以及块合并算法中。于是准确率和召回率分别达到了 90% 和 80%。这里的视觉信息主要包括一个网页区域的大小、形状、和在整个页面中的位置。更多的信息还包括字体、颜色等等。这样,便诞生了 … Continue reading

Posted in 计算机与 Internet | 2 Comments

漂在北京

漂在北京的感觉有时真的很好。 喜欢一个人傍晚在优美的东直门外大街散步的感觉。。。高大的桦树,宽阔的街道,还有两旁一片片宁静的使馆小楼。。。特别是雨后,在这里,感觉整个世界都是那么清爽。每当这种时候,我便不由地回味起中学时代思考过的各种有趣的问题,重温从前浮在脑海中的人工智能世界的美妙愿景,抑或是回顾学生时代的各种酸甜苦辣。。。"什么都可以想,什么都可以不想。" 在住处附近的团结湖公园散步,则是另一番滋味。桃红柳绿之间是一汪清澈的小湖,远远地能听见老人们在湖边悠扬的歌声。北京人怡然自得的一面,在这里显露无遗。而我则喜欢周末时分,独自坐在湖边的长椅上,慵懒地晒着太阳,同时静静地,静静地思考工作中遇到的一些引人入胜的数学和工程学课题 🙂 每天午后,我也会偷偷跑到公司对面的首经贸大学漫步。这是一个很小的校园,却也算是在高楼林立的万达闹中取静了。与在清华散步时心中产生出来的对科学的崇敬和庄严感不同的是,在这里,我只选择凝视着树稍的小鸟上下跳跃,抑或是坐在高大的白杨树下的长椅上,看着这个学校的各种肤色的学生来去匆匆。 人生,或许就应该是一种悠闲的漫步历程吧。。。

Posted in Uncategorized | Leave a comment

OpenResty now uses the BSD license

We’ve migrated OpenResty to the BSD license since the 0.5.3 CPAN release, because my $boss laser++ wants to maximize code reuse and collaboration 🙂 Just as a side note: I’ve created an #openresty IRC channel on irc.freenode.net. See you there … Continue reading

Posted in Uncategorized | Leave a comment