Category Archives: 计算机与 Internet

生活搜基于 Firefox 3.1 的 List Hunter 集群

Update: 我们已经转向 QtWebKit 集群了,在性能上取得了一个数量级的提升,详情请见这里: Slides for my VDOM + WebKit talk NAME List Hunter Cluster – 我们自己的基于 Mozilla Firefox 3.1 的深抓爬虫集群 DESCRIPTION 该文档介绍了我们的基于 Firefox 3.1 的 List Hunter 集群。目前是我们公司生活搜索引擎的一部分。 背景 在我们的生活搜索项目中,需要对网页进行深层次的识别和抽取。基于文本内容的分类我们目前采用的是美国雅虎基于最大熵的 DCP 系统。而对于网页结构方面的分类(即这个网页是列表页呢,还是详情页?),以及主体链接列表、主体区域抽取,则一直缺乏比较好的解决方案。我的同事尝试过通过纯粹的结构化的方法(如海维算法)进行识别,准确率只有 60%,而基于 SVM 这样的机器学习的方法,对网页类型比较敏感,如目标网页与训练集相差较多,则准确率迅速下降。 于是我尝试把网页显示时的视觉信息结合到海维算法以及块合并算法中。于是准确率和召回率分别达到了 90% 和 80%。这里的视觉信息主要包括一个网页区域的大小、形状、和在整个页面中的位置。更多的信息还包括字体、颜色等等。这样,便诞生了 … Continue reading

Posted in 计算机与 Internet | 2 Comments

Q4 is crazy!

Yeah, Q4 is really crazy! I’ve been hacking on several company projects in parallel over the last few weeks. Fortunately they’re all very interesting stuffs. We’ve just kicked OpenResty 0.5.2 out of the door and I’m preparing for the 0.5.3 … Continue reading

Posted in 计算机与 Internet | Leave a comment

Optimizing Haskell code: from String to ByteString

Haskell’s built-in strings are notoriously slow. The String type in Haskell is [Char] per se. I was told that there was a much faster alternative provided by the bytestring (or fps) library by the Pugs blog a few years ago. … Continue reading

Posted in 计算机与 Internet | Leave a comment

Re: Intercepting access to a method/property

On Jan 18, 2008 7:21 PM, AllSeeingI wrote:> Is it possible (through an extension, XPCOM, other way) to call a> particular JS function when a particular method or property is> accessed by a user script (= script on a HTML … Continue reading

Posted in 计算机与 Internet | Leave a comment

为什么一个字节是 8 个比特?

记得我们班的“超级天才”宝权同志曾在大一学 C++ 的时候问过一个很特别的问题,即“一个字节为什么是 8 个比特?” 昨晚,我将此问题贴到了 irc.freenode.net 的 #perl6 通道上,Larry Wall (TimToady), jerry gay ([particle]), moritz 参与了讨论。下面是当时的聊天记录(agentzh 就是我啦,呵呵): <agentzh> a friend of mine once asked me why a byte is of 8 bits.<moritz> agentzh: what did you answer?<moritz> agentzh: "computer … Continue reading

Posted in 计算机与 Internet | Leave a comment

解决 RealPlayer 在 ubuntu 中没声音的问题

记得一个月前我徒弟就报告过 RealPlayer 在 ubuntu 中光有图像没有声音的问题;没想到现在我自己却撞上了。好在经过反复的 Google,终于找到了下面的解决方法: * 首先安装 ALSA OSS 驱动程序: $ sudo apt-get install alsa-oss * 然后编辑启动脚本 (/usr/lib/realplay-10.0.8/realplay) 并将第 73 行从 $REALPLAYBIN “$@” 改成 aoss $REALPLAYBIN “$@” 对于我自己的 feisty fawn 而言,装的是 RealPlayer 10.0.7 版,需要修改的 realplay 文件中的那行位于第 70 行,而不是 73 … Continue reading

Posted in 计算机与 Internet | 1 Comment

tuits是什么?

我在网上经常看到程序员们(当然还有许多非程序员)在他们的电子邮件、IRC 聊天信息以及文档中广泛地使用 tuits 这个词,可是一般的字典里无论如何也查不到,即便是网络字典中也难觅其踪迹。tuits 的典型的用法如下: A> Will you work on that project? B> Well, as soon as i have the tuits. 再比如, A> Oh, i’m exhausted. i don’t think i have the tuits to finish the job today! B> alas… … Continue reading

Posted in 计算机与 Internet | 1 Comment