日志

地理大语言模型(GeoLLM)的初步尝试

热度 2已有 1615 次阅读2024-3-26 15:32 |系统分类:地理新闻

地理大语言模型(GeoLLM)的初步尝试

2023年以ChatGPT为代表的大语言模型一问世，瞬间惊艳世界，不少人认为这是硅基文明的元年，认为教育将受到颠覆式的冲击。

(这是chatgpt-3.0,实际上之前早有不少语言大模型，未引起世界轰动而已)

然后各种开源大语言模型如雨后春笋般涌现。我就一直有个愿望，在某个开源大语言模型的基础上进行自我微调和训练，创建一个自己的地理大语言模型，它将分担或者替代我的部分或者全部工作，最好是能超越我的工作。

我也深知，考虑到算法、训练的数据集的准备、算力的准备等因素，现在并不适合开展这方面的工作，但是好奇心重，还是花了几天时间进行了初步肤浅的尝试，把一点心得记录一下，也和同好们交流一下。

1 开源的干不过商业的。

我试过几乎所有的著名开源大语言模型如llama2 qwen gemma等，感觉都比chatgpt-4.0有些差距。感觉而已，并没有采用严谨的数据集测试。

2 自训练微调模型的话，计划从llama2-chinese开始，很期待llama3。

3 国产的大预言模型虽然经常宣称测试结果超过chatgpt，忽悠的成分居多。我是一个爱国者，不要攻击我。

4 没有GPU的话，百亿参数的大语言模型勉强可用，更高参数的就算了。我的测试电脑有64核128G内存。

5 开源的多模态模型还很弱，考虑到地理教学离不开地图，这点最需要关注。

6 最好的开源模型的地理专业能力还很弱，大约相当于初中生水平，所以做一个垂直应用的GeoLLM很有必要。