2011年1月2号修改:
做的百度知道采集,确实有带来收入,但是不多。现在我开始研究站群,本来以为站群蛮简单,现在看来,有点复杂和纠结。仍然需要投入很大的资金和精力去做。在站群外链方面,特别是前期,特别纠结。你不可能每个站都去手工去做外链,如果靠站群内部循环链接,也不行,因为是新站,没有收录。谷歌收录很快,但是百度收录是相当滴满。
不知道哪位高手能提点一点,站群外链如何弄。接下来我就开始自己写程序,来创造传说中的链轮。

=======以下是我前段时间做的百度采集器,得出的结论是采集可以赚钱,但是不长久=======
这个是实时问题列表采集。每秒刷新。保证一个都不漏。
 

这个专门负责采集问题标题 内容 及回答。一次采集20条,每次采集间隔2秒。

以下是这几天采集的数字。

每日增长数字还可以继续增加。再增加一些采集源就好了。

CPU占用方面,程序几乎不占用什么CPU 大概在3%左右。sql的CPU占用就高些。也不超过10%。因为我是每秒都刷新列表,采集内容的速度是极其快。所以CPU占用就大了些。如果我把采集列表的频率降低到每2秒一次 采集内容降低到每次采集间隔10秒 每次采集20条。这样的cpu占用就会大大降低。

现在再加点伪原创的功能,就可以开始使用了。就目前来说出现异常的几率很小最多10W分之1。一般都是网络出现异常才会出现。

没钱买别人做好的,我就自己做罗。

雏形出来了,大家给点意见:衡阳人才网[不能加上链接,要不就成AD帖了]
=================
伪原创正在研究怎么搞。有时候回答很少,没有打乱的意义。标题近义词替换貌似也不是很恰当。看来只能先把相关问题弄出来。可以降低相似度。增加点pv。有没有跟我差不多网站的朋友指点指点。
=================
全部文章及标题索引完毕。可以搜索标题和内容了。不过还没更新。。。估计明天后来。
=================
几分钟之后发现此贴变成AD帖了。。。呵呵 我就没发过AD贴。要发AD也不在这里发AD。我都是买链接赚IP,不是靠这个帖子来的IP。差点没把我急死。。。。。说是AD也就算了,还扣10分。真正的AD没人管,我不是AD的变成AD。
=================
现在又变成不是AD帖了。真纠结。最近发现还是蛮多朋友跟我差不多罗。要向他们多学习学习。
=================
今天查询了一下问题列表已经300W了 已经问题内容170W条 444W条回答
程序运行都还正常,除断网外,就没有任何异常报出。
现在的任务就是把相似度降低。
=================
OK。今天再次更新。首页有小更新,再不会有换行的标题了。截取字符了。内容页的相关问题也出来了,每次显示5条相关问题。应该是可以降低点相似度了吧。8.23
=================
纠结了。应用程序池占用有点高。访问量又不高。但是蜘蛛爬行的比较频繁。现在还不太确定是网站代码执行效率不高,还是因为蜘蛛爬行过多的原因。正在纠结。先用定时回收应用程序池来解决吧。还好是8核CPU!8.27
=================
通宵解决问题。。。由于数据库文件达到4096M。无法再写入数据库。想往文件组里面去添加数据文件,结果发现无法添加。然后又想增加数据库最大容量,结果报错。提示我的数据库的许可就是4096。才恍然大悟,我一直是使用的开发板的数据库。我X。还搞这个限制。没办法,我就到处找,终于让我找到了一个企业版的。功能确实强大。我直接设置初始大小为8000M。而且我发现速度快多了。现在又恢复6秒20条的速度了。有个单表数据到了770W,感觉有点卡。现在貌似不卡了。不过现在还发现一个问题,我的应用程序池仍然CPU占用率很高,我觉得代码应该还需要再搞一搞。被蜘蛛爬行的受不了,今天大概爬行6000次。太频繁了。好了 要睡觉受不了。8.28
=================
就省精力方面来说确实买小偷划得来,但是现在的小偷大部分都是网页版,采集速度、效率都不高。网页版不可能达到6秒20条的速度。这也倒是小事,最关键的是,有些时候我有我自己的想法,小偷不会为我定制,自己写,就可以随意写罗。代码可以自己掌控。8.29
=================
啊哈。。吃晚饭之前搜狗收录还是118 吃完饭之后 我的搜狗收录就变成7843了。还有就是我一直想不通为什么百度不怎么收录我列。难道是我页面有问题哪位大侠知道是为什么啊?8.30
=================
确实有点不值得。。按照别人的做法,比我轻松,都是访问的获取列表 获取内容。并没有实际的数据库存储。我是直接把数据存到硬盘里面咯。但是我可以做检索、我可以做相似问题、我甚至可以在适当的时候随意伪原创(只是现在没有合适的方法)、而且我还可以把数据进行分类呢。现在数据奔10G了。索引已经有4G了。不过我这个做法从效率上没有别人高,这个倒是确实的。
=================
所有表总记录数超过3400W。百度收录14000。就目前的情况来说,收录比例还是很低的。但是好歹还是收录了这么多。流量有增无减。由于所有标题内容我都在数据库中,我可以随意根据我的词库来变幻我的帖子内容。创造出不同的站出来,而不相同。收录一定会不错。

本日志由 ceiling 于 2011-02-24 17:42:37 发表,目前已经被浏览 279 次,评论 0 次;

引用通告:http://blog.0734link.com/Article/661/Trackback.ashx

评论订阅:http://blog.0734link.com/Article/661/Feeds.ashx

评论列表

    暂时没有评论
(必填)
(必填,不会被公开)
你的评论在博主审核后方可公开。