joonspk-research · ketsapiwiq · May 20, 2024 · May 20, 2024 · May 20, 2024 · May 20, 2024
diff --git a/.gitignore b/.gitignore
@@ -1,5 +1,6 @@
 reverie/backend_server/utils.py
 frontend_server/settings/local.py
+environment/frontend_server/storage/
 storage/*
 static_dirs/*
 
@@ -99,4 +100,4 @@ ENV/
 .spyderproject
 
 # Rope project settings
-.ropeproject
+.ropeproject
diff --git a/reverie/backend_server/persona/prompt_template/gpt_structure.py b/reverie/backend_server/persona/prompt_template/gpt_structure.py
@@ -12,6 +12,7 @@
 from utils import *
 
 openai.api_key = openai_api_key
+openai.api_base = "http://localhost:11434/v1"
 
 def temp_sleep(seconds=0.1):
   time.sleep(seconds)
@@ -20,7 +21,8 @@ def ChatGPT_single_request(prompt):
   temp_sleep()
 
   completion = openai.ChatCompletion.create(
-    model="gpt-3.5-turbo", 
+    model="llama3-gradient:8b-instruct-1048k-q8_0",
+    # model="llama3:8b-instruct-q8_0", 
     messages=[{"role": "user", "content": prompt}]
   )
   return completion["choices"][0]["message"]["content"]
@@ -46,7 +48,7 @@ def GPT4_request(prompt):
 
   try: 
     completion = openai.ChatCompletion.create(
-    model="gpt-4", 
+    model="llama3-gradient:8b-instruct-1048k-q8_0",
     messages=[{"role": "user", "content": prompt}]
     )
     return completion["choices"][0]["message"]["content"]
@@ -71,7 +73,7 @@ def ChatGPT_request(prompt):
   # temp_sleep()
   try: 
     completion = openai.ChatCompletion.create(
-    model="gpt-3.5-turbo", 
+    model="llama3-gradient:8b-instruct-1048k-q8_0",
     messages=[{"role": "user", "content": prompt}]
     )
     return completion["choices"][0]["message"]["content"]
@@ -208,9 +210,9 @@ def GPT_request(prompt, gpt_parameter):
   """
   temp_sleep()
   try: 
-    response = openai.Completion.create(
+    response = openai.ChatCompletion.create(
                 model=gpt_parameter["engine"],
-                prompt=prompt,
+                messages=[{"role": "system", "content": prompt}],
                 temperature=gpt_parameter["temperature"],
                 max_tokens=gpt_parameter["max_tokens"],
                 top_p=gpt_parameter["top_p"],
@@ -219,9 +221,10 @@ def GPT_request(prompt, gpt_parameter):
                 stream=gpt_parameter["stream"],
                 stop=gpt_parameter["stop"],)
     return response.choices[0].text
-  except: 
-    print ("TOKEN LIMIT EXCEEDED")
-    return "TOKEN LIMIT EXCEEDED"
+  except Exception as e: 
+    # print ("TOKEN LIMIT EXCEEDED")
+    print(str(e))
+    return "NO GENERATION"
 
 
 def generate_prompt(curr_input, prompt_lib_file): 
@@ -272,17 +275,17 @@ def safe_generate_response(prompt,
       print ("~~~~")
   return fail_safe_response
 
+import ollama
 
-def get_embedding(text, model="text-embedding-ada-002"):
+def get_embedding(text, model="nomic-embed-text"):
   text = text.replace("\n", " ")
   if not text: 
     text = "this is blank"
-  return openai.Embedding.create(
-          input=[text], model=model)['data'][0]['embedding']
+  return ollama.embeddings(model=model,prompt=text)
 
 
 if __name__ == '__main__':
-  gpt_parameter = {"engine": "text-davinci-003", "max_tokens": 50, 
+  gpt_parameter = {"engine": model, "max_tokens": 50, 
                    "temperature": 0, "top_p": 1, "stream": False,
                    "frequency_penalty": 0, "presence_penalty": 0, 
                    "stop": ['"']}