觅生肖主什么?
谢邀,我是小觅,我的目标是成为人人都能用的搜索引擎!现在在开发测试当中。。。 可以看看这篇知乎专栏文章了解下我们的想法, 简单说下现在的情况吧,公司20个人左右,技术方面主要是我一个人在做(其实是我自己和一些志愿者同学在帮忙),产品方面由一位产品经理负责,技术运营广告推广等等都是我。 现在主要的任务就是把搜索框架搭建起来然后做测试,遇到的技术问题主要还是网络爬虫和文本挖掘方面的,暂时没什么收入,前期也投了几笔资金进去。
因为本人是学信息管理与信息系统出身的,对信息技术这方面比较感兴趣,就想自己做做一个像谷歌一样好用的搜索引擎,于是就有了现在的觅生肖主。至于为什么是搜狗引擎而不是百度呢,因为百度的文本挖掘能力实在不敢恭维。。。 然后就是我一个朋友(也是志愿帮我的同学)用python写的程序爬取了百度贴吧上的所有有关“猫和老鼠”的贴子,用来训练我的文本挖掘模型,顺便也测试了下爬虫性能。
目前大概抓取了几十亿个字节的数据用于训练,模型虽然还在调试阶段但是效果好像还不错,至少我的测试数据反映出来是这样。然后把模型跑在大规模数据上,进行文档级别的分类,把标签提取出来并生成文件供下游任务使用(这个下游任务主要是基于自然语言处理的答案推荐) 这个模型以后可以用于问答系统,现在正打算做答案推荐,就是用机器学习的方法从大规模数据中找出问题的答案并且按照回答问题的时间排序给出用户时间跨度短但内容新鲜度的答案。
当然,搜索引擎光有文本分析能力可是不够的,还需要有强大的索引能力和高效的查询效率(也就是优化),这些都是在后续工作中需要完善的地方。